blo321 2021-07-21 16:35 采纳率: 80%
浏览 32
已结题

外行咨询如何下载页面(非爬虫,只求是否有比复制粘贴更好的方法)

开篇说重点,我是外 行,既然是外 行 ,咱们就敞开了说外 行话了。
最 近 有 一 个 需 求,需 要 将在网站上爬一些网页上的信息( 外 行 有时也有内行的需求)。
本来外 行人的操作手段,应该是挨个打开页 面,将页 面上的文字复制粘贴下来,然后再慢慢提取信息。以我们外 行 人的眼光来看,我用 PY THON实现登录一些网址,并复 制粘 贴下文字部分是最好了。但现实是我只能用requests来爬页面的yuan码,存成STR,勉强能从yuan码里用PYT HON的字符串处理功能要用的东西提出来,但才访了网站3次就不成功了,不知是不是被反 爬了,我又设 置了爬一个页 面,休眠30秒,结果还是不行。
我的需求其实特简单,就生成一 个二维列表如下:
[[页面链接, 网址上的TXT], [页面链接, 网址上的TXT]]
网址上的TXT,不是yuan码,只要复 制、粘 贴的效果就好,这样还能省掉不少我们外行根据看 不 懂的编码内容。
听说P YTHON 有 100万多个库,请问有能实现以上功能的办法吗?
在此代表外 行 人谢过内 行 人!

  • 写回答

3条回答 默认 最新

  • RE_ABANDON 2021-07-21 16:56
    关注

    才三次,大概率是没有设置header和cookie。不用代码的情况下建议用后裔采集器或者八爪鱼试试,只要文字是以标签而非图片的形式呈现,应该就能获取到。用代码的话,requests库获取html,但前提是文字在html中,而不是由js或者请求接口来的。再用xpath定位html中的数据即可,还是有一定学习成本的。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月17日
  • 已采纳回答 2月9日
  • 创建了问题 7月21日

悬赏问题

  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效