爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 13428|回复: 3

[经验总结] Selenium爬虫之获取真气网页面源代码

[复制链接]

新浪微博达人勋

发表于 2020-12-9 14:51:34 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
很多大气环保网站(平台)都是抄真气网的,在真气网的有些页面,比如:
南京空气质量指数月统计历史数据
你在该页按F12,或右击想查看网页源代码,是被拒绝的,说你“非法调试”:
360截图20201209143239200.jpg

但实际上,这是种“防君子,不妨小人”+“自欺欺人”+“掩耳盗铃”的做法,
使用selenium即可获得网页源码:
from selenium import webdriver
browser=webdriver.PhantomJS()
browser.get('https://www.aqistudy.cn/historydata/monthdata.php?city=南京')
browser.implicitly_wait(10)
print(browser.page_source) #打印网页源码


源码我粘贴在了附件文本中,
不过可以看到,最有价值的表格中的数据却不在源码里,这需要另外的手段来获得。

真气网某页源码.txt

34.52 KB, 下载次数: 9, 下载积分: 金钱 -5

密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2020-12-10 08:39:40 | 显示全部楼层
估计加密手段也是如此
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2020-12-23 20:26:19 | 显示全部楼层
这个源码怎么运行?
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2020-12-23 21:46:49 | 显示全部楼层
Ifare 发表于 2020-12-23 20:26
这个源码怎么运行?

网页的源码,只是为爬取提供提示而已
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表