爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 2775|回复: 1

python爬虫提取网页信息(尝试)

[复制链接]

新浪微博达人勋

发表于 2018-1-31 19:37:29 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
本帖最后由 小莹子 于 2018-7-21 20:24 编辑

用python在网页上提取相关信息。
python获取网页指定内容(BeautifulSoup工具的使用方法)
https://blog.csdn.net/danielntz/article/details/51861168

Q1. SyntaxError:EOL while scanning string literal
字符串以\结尾,或者字符串缺少引导
问题:‘’未完整
Q2. SyntaxError: invalid syntax
问题:中文换成英文输入法
Q3. IndentationError:unexpected indent
python是一种对缩进十分敏感的语言。最常见的情况是tab和空格混用。
问题:注意缩进
Q4. NameError:name BeautifulSoup is not defined
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
1).下载 BeautifulSoup包。
    http://www.crummy.com/software/BeautifulSoup/bs4/download/
2).解压到python目录下,然后进入到BeautifulSoup的目录。
我的目录是C:\python27\beautifulsoup4
3).到cmd中,进行安装
    (1)进入到你的BeautifulSoup4所在目录
    (2)输入命令:python setup.py build
    (3)输入命令: python setup.py install                        
4).验证是否安装成功

import bs4 如果没有报错,则说明安装成功!

Q5:python setup.py build 出现 ImportError:No module named setuptools
http://blog.sina.com.cn/s/blog_3fe961ae0100zgav.html

密码修改失败请联系微信:mofangbao

新浪微博达人勋

 楼主| 发表于 2018-7-21 20:25:45 | 显示全部楼层
Python在线百度文库爬虫(免下载券)
密码修改失败请联系微信:mofangbao
您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表