爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 18573|回复: 4

[求助] 怎么获得这个url下的pdf文件

[复制链接]

新浪微博达人勋

发表于 2021-7-27 13:35:45 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
一个pdf的下载链接“url = https://kns.cnki.net/kcms/download.aspx........2aUNzdIN&tablename=CJFDAUTO&dflag=pdfdown'
这个链接可以直接在浏览器里下载到pdf文件,pdf文件差不多 400K,但是通过如下代码得到的pdf只有 17K,根本打不开,请问应该怎么改进?

response = requests.get(url,headers=headers)

f = open('test.pdf', 'wb')

f.write(response.content)


f.close
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2021-7-28 09:19:52 | 显示全部楼层
用 requests 模拟登陆知网,在返回的内容中找到下载链接并下载
你用浏览器打开你下载的 17K 内容,原则上应该是一个网页
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2021-7-28 09:46:04 | 显示全部楼层
本帖最后由 翻身仗 于 2021-7-28 10:07 编辑
MyOpenGFM 发表于 2021-7-28 09:19
用 requests 模拟登陆知网,在返回的内容中找到下载链接并下载
你用浏览器打开你下载的 17K 内容,原则上 ...

感谢指点

帖子中的下载链接是通过网页源代码找到的用 response = requests.get(url=urld,cookies=cookie) 这个代码也试了(用的是登录知网的时候的cookie),还是不行,因为 response.content 本身也只有不到17K
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2021-7-28 14:36:39 | 显示全部楼层
翻身仗 发表于 2021-7-28 09:46
感谢指点

帖子中的下载链接是通过网页源代码找到的用 response = requests.get(url=urld,cookies=cook ...

cookie登陆有风险,有些网站可能不支持。
自己以前是使用 selenium 做的模拟,没有用 requests 模拟过,不了解具体的 requests 模拟配置。帮你搜了篇requests文章,希望能帮到你:https://blog.csdn.net/zwq912318834/article/details/79571110
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2021-7-28 15:39:07 | 显示全部楼层
MyOpenGFM 发表于 2021-7-28 14:36
cookie登陆有风险,有些网站可能不支持。
自己以前是使用 selenium 做的模拟,没有用 requests 模拟过, ...

非常感谢您的热心帮助
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表