基于Scrapy的北本研究室的台风资料爬虫

王二呦 · 发表于 2019-4-4 23:17:55

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由王二呦于 2019-4-4 23:20 编辑

利用scrapy写了一个日本国立情报研究所北本研究室台风资料的爬虫
http://agora.ex.nii.ac.jp/digital-typhoon/search_date.html.en
内容包括1951年到2018年北半球的台风资料。
资料包括每个台风每个记录的经纬度，中心气压，台风等级，风速。

spider.py：

items.py:

settings.py:
需要在设置文件中加入

HTTPERROR_ALLOWED_CODES = [404]

复制代码

scrapy是不处理404网页的，所以需要设置允许，才能在循环中将404网页掠过进入下一年

FEED_EXPORT_FIELDS = ['NO', 'time', 'lat', 'lon', 'pressure', 'cla', 'wind']

复制代码

用于输出时保存数据的顺序。

-------------------------------------------------------------------------------------------------------------------
有个问题就是，1954年的02号台风记录缺失，所以循环到02号台风就进入下一年，1954年爬取到的数据仅有01号台风。
可以在爬取中重新设置开始时间为1954年03号台风。
后面1954年10号台风也无记录，处理方法相同。
-------------------------------------------------------------------------------------------------------------------

可以在终端中输入 scrapy crvawl lcc.py -o lcc.csv进行保存。
lcc为我的spider名称，可以自定，csv文件的名称也可以自定义。

下面为我的爬取结果。

lcc.csv (2.98 MB, 下载次数: 18)

slddbs · 发表于 2019-4-5 07:24:09

厉害了，大哥

王二呦 · 发表于 2019-4-5 08:17:07

slddbs 发表于 2019-4-5 07:24
厉害了，大哥

感谢

sam_doggy · 发表于 2019-4-5 15:11:08

学习下，只用过request和selenium没用过这个框架

王二呦 · 发表于 2019-4-5 22:23:50

sam_doggy 发表于 2019-4-5 15:11
学习下，只用过request和selenium没用过这个框架

scrapy框架用起来比较省事

		自动登录	找回密码
密码			立即注册

[源代码] 基于Scrapy的北本研究室的台风资料爬虫

登录后查看更多精彩内容~

评分