Juzen

© Juzen | Powered by LOFTER
 

【52讲轻松搞定网络爬虫-爬虫基础原理】

  • URL:Uniform Resource Identifier,统一资源标志符。

  • URI:Universal Resource Locator,统一资源定位符。

  • URN:Universal Resource Name,统一资源名称。只命名资源而不指定如何定位资源。

  • Hypertext:超文本,即网页的源代码HTML 。

  • HTTP:Hyper Text Transfer Protocol,超文本传输协议,是用于从网络传输超文本数据到本地浏览器的传输协议。

  • HTTPS:Hypert Text Transfer Protocol Over Secure Socket Layer,http安全版,即HTTP下加入SSL层。

  • CSS:Cascading Style Sheets,层叠样式表,指网页中文字大小,颜色,元素间距,排列等格式。

  • get请求参数包含在URL里,post没有,数据都是通过表单形式传输,会包含在请求体中。get请求提交数据不大于1024字节,post没有限制。

  • 在爬虫中,若构造post请求,需要正确的Content-Type。

  • text/html:返回html文档。

  • application/x-javascript:返回javascript文件。

  • image/jpeg:返回图片。

  • 网页三大组成:html、css、javascript。javascript通常是以单独文件形式加载,后缀是js,在HTML中通过引入script标签即可引入。

  • javascript简称JS,使得用户与信息之间不只是浏览器显示的关系,而是实现了一种实时、动态、交互的页面功能。

  • 使用urllib、requests库请求当前页面时,得到的只是HTML页面代码,并不会帮助我们继续加载Javascript文件,对于这样的情况,可以分析后台Ajax接口,也可以使用selenium、splash这样的库来模拟jacascript渲染。

  • 请求在客户端向服务端发生,包括请求方法、网址、头部、主体。

  • session会话,有始有终一系列动作消息,在服务器端。

  • cookies客户端,有了cookies,浏览器在下次访问网页时会自动附上它发送给服务器。

评论