python小白一枚,刚开始学爬虫,遇到一个动态网页爬取问题,请教各位大神。
需要爬取http://view.news.qq.com/original/intouchtoday/n4083.html
这篇新闻的评论内容,
但是在找到了目标request url:
http://coral.qq.com/article/2243032968/comment?commentid=0&reqnum=10&tag=&ca,llback=mainComment&_=1511408574390
,不知道怎么提取里面的评论内容,且里面的内容类似于\u***这样的乱码
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
已采纳
python爬虫爬取腾讯新闻评论
收起
- 写回答
- 好问题 0 提建议
- 关注问题
- 微信扫一扫点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
3条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
oyljerry 2017-11-22 22:09关注需要先把内容的mainComment()去掉,它里面是一个json,然后就可以处理,\u是表示unicode的字符。
In [24]: sess = requests.Session() In [24]: sess.headers.update({'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Geck ...: o) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}) In [24]: res = sess.get("http://coral.qq.com/article/2243032968/comment?commentid=0&reqnum=10&tag=&callback=mainCommen ...: t&_=1511408574390") g = re.match("mainComment\\((.+)\\)", res.text) In [24]: out = json.loads(g.group(1)) In [23]: print(out["data"]["commentid"][0]["content"]) 方便面可以吃不放调料,自己煮,自己搭配
本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报微信扫一扫点击复制链接分享编辑预览轻敲空格完成输入- 显示为
- 卡片
- 标题
- 链接
评论按下Enter换行,Ctrl+Enter发表内容
编辑
预览
轻敲空格完成输入
- 显示为
- 卡片
- 标题
- 链接
报告相同问题?
提交
- 2022-10-18 13:52回答 1 已采纳 图片是从cdn上过来的,做了防盗链。在headers中添加Refer,指向该网站就行了。 import re import requests import os if not os.path.ex
- 2021-11-11 03:15回答 1 已采纳 先确定需要爬取的网站,然后分析网站的数据来源,是后端生成数据还是ajax生成数据,确定数据来源方式就根据HTTP请求编写代码,这个涉及一些请求参数的加密、转换等等处理,然后清洗数据和数据入库
- 2021-05-22 13:34回答 1 已采纳 这里我们以爬取淘宝评论为例子讲解一下如何去做到的。 这里主要分为了四步: 一 获取淘宝评论时,ajax请求链接(url) 二 获取该ajax请求返回的json数据 三 使用python解析js
- 2020-11-20 12:54weixin_39926040的博客 腾讯新闻的科技板块,至于为什么爬这个板块?我们要做新时代的科技少年???? ???? ???? 。闲话少叙,快上车。一、分析网页代码打开网页并进入调试模式,可以看的我们要爬取的内容都在这个 中。qqxw_01.png打开看看,...
- 2021-02-17 10:23回答 3 已采纳 在header参数中添加referer默认值,应该是直接访问触发反爬了
- 2021-11-27 14:00回答 2 已采纳 你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码,动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。 或者是通
- 2022-08-17 09:07回答 3 已采纳 因为元素里的你要的内容是通过 ajax 请求动态加载的,可以浏览器抓包去看下,你想要的这条数据到底是哪个请求返回的,找到真正的请求,然后模拟发送就行了
- 2020-08-22 23:32前端技术的博客 python爬虫爬取腾讯新闻 话不多说,直接上代码! import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_status() #r.encoding = 'utf-...
- 2022-06-06 12:12回答 4 已采纳 你题目的解答代码如下: #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
- 2021-10-21 07:16回答 1 已采纳 该页面信息通过用户选择选项,js动态渲染加载数据的,比如在选项框中输入name,在XHR中就可以看到name的动态加载链接,对其进行请求可获取相关信息的json数据信息。
- 2022-08-12 04:20回答 3 已采纳 不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
- 2021-04-09 14:29变强的猴子的博客 爬取腾讯新闻首页的新闻内容 最近学习了爬虫,爬了一些内容,分享一下,方便大家。 import urllib.request import urllib.error import re,ssl #异常处理 try: #针对https ,需要单独处理 #import ssl #ssl._...
- 2023-09-18 05:26BUG再也不见的博客 对爬取的数据进行可视化
- 2024-03-22 00:21qq194582923的博客 Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。光学理论是没用的,要学会跟着一起敲,要动手...
- 2020-11-20 12:54weixin_39573981的博客 最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫。Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个BeautifulSoup,这两个库目前...
- 没有解决我的问题, 去提问
联系我们(工作时间:8:30-22:00)
400-660-0108kefu@csdn.net在线客服
- 京ICP备19004658号
- 经营性网站备案信息
- 公安备案号11010502030143
- 营业执照
- 北京互联网违法和不良信息举报中心
- 家长监护
- 中国互联网举报中心
- 网络110报警服务
- Chrome商店下载
- 账号管理规范
- 版权与免责声明
- 版权申诉
- 出版物许可证
- ©1999-2025北京创新乐知网络技术有限公司