开篇说重点,我是外 行,既然是外 行 ,咱们就敞开了说外 行话了。
最 近 有 一 个 需 求,需 要 将在网站上爬一些网页上的信息( 外 行 有时也有内行的需求)。
本来外 行人的操作手段,应该是挨个打开页 面,将页 面上的文字复制粘贴下来,然后再慢慢提取信息。以我们外 行 人的眼光来看,我用 PY THON实现登录一些网址,并复 制粘 贴下文字部分是最好了。但现实是我只能用requests来爬页面的yuan码,存成STR,勉强能从yuan码里用PYT HON的字符串处理功能要用的东西提出来,但才访了网站3次就不成功了,不知是不是被反 爬了,我又设 置了爬一个页 面,休眠30秒,结果还是不行。
我的需求其实特简单,就生成一 个二维列表如下:
[[页面链接, 网址上的TXT], [页面链接, 网址上的TXT]]
网址上的TXT,不是yuan码,只要复 制、粘 贴的效果就好,这样还能省掉不少我们外行根据看 不 懂的编码内容。
听说P YTHON 有 100万多个库,请问有能实现以上功能的办法吗?
在此代表外 行 人谢过内 行 人!
外行咨询如何下载页面(非爬虫,只求是否有比复制粘贴更好的方法)
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
- RE_ABANDON 2021-07-21 16:56关注
才三次,大概率是没有设置header和cookie。不用代码的情况下建议用后裔采集器或者八爪鱼试试,只要文字是以标签而非图片的形式呈现,应该就能获取到。用代码的话,requests库获取html,但前提是文字在html中,而不是由js或者请求接口来的。再用xpath定位html中的数据即可,还是有一定学习成本的。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥20 机器学习能否像多层线性模型一样处理嵌套数据
- ¥20 西门子S7-Graph,S7-300,梯形图
- ¥50 用易语言http 访问不了网页
- ¥50 safari浏览器fetch提交数据后数据丢失问题
- ¥15 matlab不知道怎么改,求解答!!
- ¥15 永磁直线电机的电流环pi调不出来
- ¥15 用stata实现聚类的代码
- ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
- ¥20 docker里部署springboot项目,访问不到扬声器
- ¥15 netty整合springboot之后自动重连失效