爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 16819|回复: 4

[源代码] 基于Scrapy的北本研究室的台风资料爬虫

[复制链接]

新浪微博达人勋

发表于 2019-4-4 23:17:55 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
本帖最后由 王二呦 于 2019-4-4 23:20 编辑

利用scrapy写了一个日本国立情报研究所北本研究室台风资料的爬虫
http://agora.ex.nii.ac.jp/digital-typhoon/search_date.html.en
内容包括1951年到2018年北半球的台风资料。
资料包括每个台风每个记录的经纬度,中心气压,台风等级,风速。

spider.py:
carbon.png

items.py:
carbon(1).png

settings.py:
需要在设置文件中加入
  1. HTTPERROR_ALLOWED_CODES = [404]
复制代码
scrapy是不处理404网页的,所以需要设置允许,才能在循环中将404网页掠过进入下一年
  1. FEED_EXPORT_FIELDS = ['NO', 'time', 'lat', 'lon', 'pressure', 'cla', 'wind']
复制代码
用于输出时保存数据的顺序。

-------------------------------------------------------------------------------------------------------------------
有个问题就是,1954年的02号台风记录缺失,所以循环到02号台风就进入下一年,1954年爬取到的数据仅有01号台风。
可以在爬取中重新设置开始时间为1954年03号台风。
后面1954年10号台风也无记录,处理方法相同。
-------------------------------------------------------------------------------------------------------------------

可以在终端中输入 scrapy crvawl lcc.py -o lcc.csv进行保存。
lcc为我的spider名称,可以自定,csv文件的名称也可以自定义。

下面为我的爬取结果。

lcc.csv (2.98 MB, 下载次数: 18)

评分

参与人数 2金钱 +40 贡献 +10 收起 理由
mofangbao + 20 + 10
Lighting + 20 赞一个!

查看全部评分

密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2019-4-5 07:24:09 | 显示全部楼层
厉害了,大哥
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2019-4-5 08:17:07 | 显示全部楼层

感谢
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2019-4-5 15:11:08 来自手机 | 显示全部楼层
学习下,只用过request和selenium没用过这个框架
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2019-4-5 22:23:50 | 显示全部楼层
sam_doggy 发表于 2019-4-5 15:11
学习下,只用过request和selenium没用过这个框架

scrapy框架用起来比较省事
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表