- 积分
- 3632
- 贡献
-
- 精华
- 在线时间
- 小时
- 注册时间
- 2014-10-21
- 最后登录
- 1970-1-1
|
登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 15195775117 于 2021-1-30 15:58 编辑
爬虫很简单。
与爬虫有关的主要是5个模块:3个爬虫框架+2个“模拟浏览器”模块
爬虫框架:
1、scrapy针对无需登录的网站,是个完整框架
2、beautiful soup(简称bs)针对爬取数据较少的简单的网站,主要作为html/xml解析库
3、pyspider不要学,国产爬虫,对python3和windows系统支持都不好!经常出问题!官网警告尽量避免在Windows系统使用pyspider!
模拟浏览器模块2个:
1、Mechanize不要学,不支持JavaScript,不支持python3.
2、selenium针对JavaScript返回数据的网站,是一套完整的Web应用程序测试系统,包含了测试的录制(Selenium IDE)、编写、运行(Selenium Remote Control)、测试的并行处理(Selenium Grid)。Selenium的核心基于JsUnit,完全由JS编写,因此可运行于任何浏览器上。
所以,学习爬虫只需要学习scrapy、beautiful soup和selenium.
目前网站流量的60-70%都是爬虫,连最基本的反爬虫的手段都不用的网站已经很少了。
但是python爬虫工具(尤其是selenium)提供了各种伪装手段,加上爬取速度不要过分,服务器想识别出爬虫是好难的。 |
|