开篇说重点,我是外 行,既然是外 行 ,咱们就敞开了说外 行话了。
最 近 有 一 个 需 求,需 要 将在网站上爬一些网页上的信息( 外 行 有时也有内行的需求)。
本来外 行人的操作手段,应该是挨个打开页 面,将页 面上的文字复制粘贴下来,然后再慢慢提取信息。以我们外 行 人的眼光来看,我用 PY THON实现登录一些网址,并复 制粘 贴下文字部分是最好了。但现实是我只能用requests来爬页面的yuan码,存成STR,勉强能从yuan码里用PYT HON的字符串处理功能要用的东西提出来,但才访了网站3次就不成功了,不知是不是被反 爬了,我又设 置了爬一个页 面,休眠30秒,结果还是不行。
我的需求其实特简单,就生成一 个二维列表如下:
[[页面链接, 网址上的TXT], [页面链接, 网址上的TXT]]
网址上的TXT,不是yuan码,只要复 制、粘 贴的效果就好,这样还能省掉不少我们外行根据看 不 懂的编码内容。
听说P YTHON 有 100万多个库,请问有能实现以上功能的办法吗?
在此代表外 行 人谢过内 行 人!

外行咨询如何下载页面(非爬虫,只求是否有比复制粘贴更好的方法)
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- RE_ABANDON 2021-07-21 16:56关注
才三次,大概率是没有设置header和cookie。不用代码的情况下建议用后裔采集器或者八爪鱼试试,只要文字是以标签而非图片的形式呈现,应该就能获取到。用代码的话,requests库获取html,但前提是文字在html中,而不是由js或者请求接口来的。再用xpath定位html中的数据即可,还是有一定学习成本的。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报