怎么获得这个url下的pdf文件

翻身仗 · 发表于 2021-7-27 13:35:45

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

一个pdf的下载链接“url = https://kns.cnki.net/kcms/download.aspx........2aUNzdIN&tablename=CJFDAUTO&dflag=pdfdown'”
这个链接可以直接在浏览器里下载到pdf文件，pdf文件差不多 400K，但是通过如下代码得到的pdf只有 17K，根本打不开，请问应该怎么改进？

response = requests.get(url,headers=headers)

f = open('test.pdf', 'wb')

f.write(response.content)

f.close

MyOpenGFM · 发表于 2021-7-28 09:19:52

用 requests 模拟登陆知网，在返回的内容中找到下载链接并下载
你用浏览器打开你下载的 17K 内容，原则上应该是一个网页

翻身仗 · 发表于 2021-7-28 09:46:04

本帖最后由翻身仗于 2021-7-28 10:07 编辑

MyOpenGFM 发表于 2021-7-28 09:19
用 requests 模拟登陆知网，在返回的内容中找到下载链接并下载
你用浏览器打开你下载的 17K 内容，原则上 ...

感谢指点

帖子中的下载链接是通过网页源代码找到的用 response = requests.get(url=urld,cookies=cookie) 这个代码也试了（用的是登录知网的时候的cookie），还是不行，因为 response.content 本身也只有不到17K

MyOpenGFM · 发表于 2021-7-28 14:36:39

翻身仗发表于 2021-7-28 09:46
感谢指点

帖子中的下载链接是通过网页源代码找到的用 response = requests.get(url=urld,cookies=cook ...

cookie登陆有风险，有些网站可能不支持。
自己以前是使用 selenium 做的模拟，没有用 requests 模拟过，不了解具体的 requests 模拟配置。帮你搜了篇requests文章，希望能帮到你：https://blog.csdn.net/zwq912318834/article/details/79571110

翻身仗 · 发表于 2021-7-28 15:39:07

MyOpenGFM 发表于 2021-7-28 14:36
cookie登陆有风险，有些网站可能不支持。
自己以前是使用 selenium 做的模拟，没有用 requests 模拟过， ...

非常感谢您的热心帮助

		自动登录	找回密码
密码			立即注册

[求助] 怎么获得这个url下的pdf文件

登录后查看更多精彩内容~