python之爬虫基础

15195775117 · 发表于 2019-7-5 23:53:39

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 15195775117 于 2020-12-4 09:13 编辑

爬虫工作步骤：
1、“获取数据”
使用网络模块，模拟浏览器，向服务器发送正常的http/https请求。服务器正常响应后，主机收到包含所需信息的网页代码。
网络模块有：urllib2，httplib，requests
2、“过滤数据”
使用过滤模块，过滤网页代码中的信息
过滤模块有：lxml，html.parser，re
--------------------------------------------
获取数据，比过滤数据，复杂得多。
--------------------------------------------
long long time ago，随便一个requests模块就能从网站获取数据，现在不同了。
欺骗服务器的反爬虫的方法包括：
（1）发送http/https请求时，添加header和cookies
（2）利用代理
（3）发送请求之间间隔一段时间

15195775117 · 发表于 2019-7-6 12:58:37

slddbs 发表于 2019-7-6 10:22
我觉得这种帖子没有任何意义

在老手眼里这些固然没有价值，我写这种帖子，主要是作为笔记，其中也会附加我的思考内容，比如与其他语言啊、数学啊、行业现状之类的评注。同道看到了，也能一起交流下。
听过“费曼学习法”吗？“转述”是最好的学习方法，将学到的重新复述一遍，会理解得更深、记得更牢。随着学习的进行，本贴会继续追加内容，最后我会把所有楼层捋一遍，总结出精华，该删的删，该留的留。

slddbs · 发表于 2019-7-6 10:22:11

我觉得这种帖子没有任何意义

15195775117 · 发表于 2019-7-6 00:05:20

本帖最后由 15195775117 于 2020-12-4 09:13 编辑

爬行策略
就是指爬行的先后次序。
比如，有100个网页(HTML)要爬
（1）广度优先法
先请求完100个网页的数据，再逐个过滤
例子：Pyspider
（2）深度优先法
请求第一个网页的数据，过滤；再请求第二的网页的数据，过滤；......
例子：bs4
（3）复杂爬行策略
例子：pagerank，opic

15195775117 · 发表于 2019-7-6 00:12:25

本帖最后由 15195775117 于 2020-12-4 09:13 编辑

Cookie---用户的身份识别码
-----------------------
网站服务器识别用户身份用是根据cookie
cookie是网站为了辨别用户身份、进行session跟踪，储存在用户本地终端上的加密数据
负责cookie的模块叫cookielib
比如某网站需要登录才能访问，可以用urllib2库保存这个登录的cookie，来进行爬取。

15195775117 · 发表于 2019-7-7 23:25:19

本帖最后由 15195775117 于 2020-12-4 09:14 编辑

urllib.request打开url的案例：
----------------------------
#作者：
__author__ = '1039483898@qq.com'
import urllib.request
def linkBaidu():
url='https://www.baidu.com'
try:
      #打开url,timeout是超时时间设置
      response=urllib.request.urlopen(url,timeout=3)
      result=response.read().decode('utf-8')
except Exception as e:
      print("网络地址错误")
      exit()
#写文本
with open('baidu.txt','w') as fp:
      fp.write(result)
print("获取url信息：%s" %response.geturl())
'''
getcode()返回200表示成功
404表示网页不存在
503表示服务器暂不可用
'''
print("获取返回代码：%s" %response.getcode())
print("获取返回信息： %s"%response.info())
linkBaidu()
输出结果：
360截图20190707231930879.jpg

15195775117 · 发表于 2019-7-27 10:45:30

本帖最后由 15195775117 于 2020-12-4 09:14 编辑

爬虫（Clawler）分类：
1、通用爬虫
2、聚焦爬虫
3、增量式爬虫
4、深层爬虫
实际使用的爬虫通常是组合着来
--------------------------------
通用爬虫=全网爬虫
爬行范围巨大，爬海量数据，对爬行速度和存储空间要求高。
对爬行页面的顺序没什么要求，并行工作。
主要应用于大型搜索引擎。
构成：
初始URL集合，URL队列，
页面爬行模块，页面分析模块，
页面数据库，链接过滤模块...
--------------------------------
聚焦爬虫=主题爬虫
全网爬虫将整个互联网为目标，主题爬虫以与主题相关的页面为目标
--------------------------------
增量式爬虫
原理类似AJAX，网页更新了会进行爬取，不更新的网页不爬取
--------------------------------

深层爬虫
该命名是根据网页的分类来的，某些网页需要提交表单才能获取想要的页面，
如真气网某城市某日的六参数，NOAA后向轨迹图等，
这种页面叫“深层网页”，
如新闻这种属于“表层网页”，因为不需要你填、选什么。
深层爬虫的构成=6+2：
“爬行控制器”+“解析器”+“表单分析器”+“表单处理器”+“响应分析器”+“LVS控制器”+URL列表+LVS表
LVS=Label Value Set=填充表单的数据源，我理解为自动填表的工具

Qiufu08 · 发表于 2019-7-29 10:13:44

支持，可以多记录分享自己的学习过程

Moebius · 发表于 2019-11-26 16:53:24

刚进入气象领域工作，数据获取是个难题，支持楼主。

15195775117 · 发表于 2019-11-27 10:10:08

Moebius 发表于 2019-11-26 16:53
刚进入气象领域工作，数据获取是个难题，支持楼主。

这个月刚学会从高德地图扒数据，很实用，共勉！

		自动登录	找回密码
密码			立即注册

[参考资料] python之爬虫基础

登录后查看更多精彩内容~