爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 10174|回复: 8

[源程序] Matlab批量抓取网页数据

[复制链接]

新浪微博达人勋

发表于 2014-2-17 12:04:27 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
转自:http://blog.sina.com.cn/s/blog_9d0b00a401018z4f.html

%朋友需要做金融方面的分析,要求从网站上下载大量的数据,一个一个复制粘贴太费事。我写了一个简单的网络爬虫,主要用到正则表达式,可以自动下载网页源文件里面的数据。
clc;
clear;
warning off;
for year = 2010:2011      %年份
for season = 1:4      %季度   
fprintf('%d年%d季度的数据...', year, season)
[sourcefile, status] = urlread(sprintf('http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/000001/type/S.phtml?year=%d&season=%d', year));
if ~status
error('读取出错!\n')
end
expr1 = '\s+(\d\d\d\d-\d\d-\d\d)\s*';    %获取日期('s'空格字符间的日期数据)
[datefile, date_tokens]= regexp(sourcefile, expr1, 'match', 'tokens');   %返回正则表达式的两个关键字 'match'和 'tokens'
date = cell(size(date_tokens));
for idx = 1:length(date_tokens)
    date{idx} = date_tokens{idx}{1};    %length(date_tokens)行 1列
end
expr2 = '<div align="center">(\d*\.?\d*)</div>'; %从源文件中获取目标数据
[datafile, data_tokens] = regexp(sourcefile, expr2, 'match', 'tokens');
data = zeros(size(data_tokens));
for idx = 1:length(data_tokens)
    data(idx) = str2double(data_tokens{idx}{1});       %length(data_tokens)行 1列
end

data = reshape(data, 6, length(data)/6 )'; %重排 数据表格形式为6列,(length(data)/6)行)
filename = sprintf('%d年',year);     %文件名
pathname = [pwd '\data'];      %路径名
if ~exist(pathname,'dir')
mkdir(pathname);
end
fullfilepath = [pwd '\data\' filename];
% 保存数据到Excel
sheet = sprintf('第%d季度', season);     %工作表名称
xlswrite(fullfilepath, date' , sheet);
range = sprintf('B1:%s%d',char(double('B')+size(data,2)-1), size(data,1)); %从源文件中获取的目标数据的放置范围
xlswrite(fullfilepath, data, sheet, range);
fprintf('OK!\n')
end
end
fprintf('全部完成!\n')

密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-2-17 12:09:22 | 显示全部楼层
{:5_213:}谢谢分享自己的程序~
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-2-17 12:14:04 | 显示全部楼层
{:5_213:}{:5_213:}{:5_213:}
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-2-17 12:15:09 | 显示全部楼层
从源文件中获取的目标数据的放置范围
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-3-7 14:36:48 | 显示全部楼层
厉害,还有网络爬虫
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-3-11 10:24:29 | 显示全部楼层
厉害厉害厉害厉害
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2014-3-11 23:19:15 | 显示全部楼层
感谢分享,学习中
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2018-1-10 23:27:07 | 显示全部楼层
网页需要帐号登录 怎么添加登录的权限
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2018-1-12 15:51:14 | 显示全部楼层
厉害,还能网络爬虫
密码修改失败请联系微信:mofangbao
您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表