爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 14050|回复: 2

[经验总结] [已收纳]python爬虫技术调研结果

[复制链接]
发表于 2020-11-11 17:33:55 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 15195775117 于 2021-1-30 15:58 编辑

爬虫很简单。
与爬虫有关的主要是5个模块:3个爬虫框架+2个“模拟浏览器”模块

爬虫框架:
1、scrapy针对无需登录的网站,是个完整框架
2、beautiful soup(简称bs)针对爬取数据较少的简单的网站,主要作为html/xml解析库
3、pyspider不要学,国产爬虫,对python3和windows系统支持都不好!经常出问题!官网警告尽量避免在Windows系统使用pyspider!

模拟浏览器模块2个:
1、Mechanize不要学,不支持JavaScript,不支持python3.
2、selenium针对JavaScript返回数据的网站,是一套完整的Web应用程序测试系统,包含了测试的录制(Selenium IDE)、编写、运行(Selenium Remote Control)、测试的并行处理(Selenium Grid)。Selenium的核心基于JsUnit,完全由JS编写,因此可运行于任何浏览器上。

所以,学习爬虫只需要学习scrapy、beautiful soup和selenium.

目前网站流量的60-70%都是爬虫,连最基本的反爬虫的手段都不用的网站已经很少了。
但是python爬虫工具(尤其是selenium)提供了各种伪装手段,加上爬取速度不要过分,服务器想识别出爬虫是好难的。
密码修改失败请联系微信:mofangbao
发表于 2020-11-12 08:08:58 | 显示全部楼层
给老师顶一下
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-12 08:36:54 | 显示全部楼层


多多交流共同进步
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表