[已收纳]python爬虫技术调研结果

15195775117 · 发表于 2020-11-11 17:33:55

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 15195775117 于 2021-1-30 15:58 编辑

爬虫很简单。
与爬虫有关的主要是5个模块：3个爬虫框架+2个“模拟浏览器”模块

爬虫框架：
1、scrapy针对无需登录的网站，是个完整框架
2、beautiful soup(简称bs)针对爬取数据较少的简单的网站，主要作为html/xml解析库
3、pyspider不要学，国产爬虫，对python3和windows系统支持都不好！经常出问题！官网警告尽量避免在Windows系统使用pyspider！

模拟浏览器模块2个：
1、Mechanize不要学，不支持JavaScript，不支持python3.
2、selenium针对JavaScript返回数据的网站，是一套完整的Web应用程序测试系统，包含了测试的录制(Selenium IDE)、编写、运行(Selenium Remote Control)、测试的并行处理(Selenium Grid)。Selenium的核心基于JsUnit，完全由JS编写，因此可运行于任何浏览器上。

所以，学习爬虫只需要学习scrapy、beautiful soup和selenium.

目前网站流量的60-70%都是爬虫，连最基本的反爬虫的手段都不用的网站已经很少了。
但是python爬虫工具(尤其是selenium)提供了各种伪装手段，加上爬取速度不要过分，服务器想识别出爬虫是好难的。

VV09 · 发表于 2020-11-12 08:08:58

给老师顶一下

15195775117 · 发表于 2020-11-12 08:36:54

VV09 发表于 2020-11-12 08:08
给老师顶一下

多多交流共同进步

		自动登录	找回密码
密码			立即注册

[经验总结] [已收纳]python爬虫技术调研结果

登录后查看更多精彩内容~