【52讲轻松搞定网络爬虫-爬虫基础原理】-Juzen

【52讲轻松搞定网络爬虫-爬虫基础原理】

URL：Uniform Resource Identifier，统一资源标志符。
URI：Universal Resource Locator，统一资源定位符。
URN：Universal Resource Name，统一资源名称。只命名资源而不指定如何定位资源。
Hypertext：超文本，即网页的源代码HTML 。
HTTP：Hyper Text Transfer Protocol，超文本传输协议，是用于从网络传输超文本数据到本地浏览器的传输协议。
HTTPS：Hypert Text Transfer Protocol Over Secure Socket Layer，http安全版，即HTTP下加入SSL层。
CSS：Cascading Style Sheets，层叠样式表，指网页中文字大小，颜色，元素间距，排列等格式。
get请求参数包含在URL里，post没有，数据都是通过表单形式传输，会包含在请求体中。get请求提交数据不大于1024字节，post没有限制。
在爬虫中，若构造post请求，需要正确的Content-Type。
text/html：返回html文档。
application/x-javascript：返回javascript文件。
image/jpeg：返回图片。
网页三大组成：html、css、javascript。javascript通常是以单独文件形式加载，后缀是js，在HTML中通过引入script标签即可引入。
javascript简称JS，使得用户与信息之间不只是浏览器显示的关系，而是实现了一种实时、动态、交互的页面功能。
使用urllib、requests库请求当前页面时，得到的只是HTML页面代码，并不会帮助我们继续加载Javascript文件，对于这样的情况，可以分析后台Ajax接口，也可以使用selenium、splash这样的库来模拟jacascript渲染。
请求在客户端向服务端发生，包括请求方法、网址、头部、主体。
session会话，有始有终一系列动作消息，在服务器端。
cookies客户端，有了cookies，浏览器在下次访问网页时会自动附上它发送给服务器。