python爬虫爬取腾讯新闻评论

python小白一枚，刚开始学爬虫，遇到一个动态网页爬取问题，请教各位大神。
需要爬取http://view.news.qq.com/original/intouchtoday/n4083.html
这篇新闻的评论内容，

但是在找到了目标request url：
http://coral.qq.com/article/2243032968/comment?commentid=0&reqnum=10&tag=&ca，llback=mainComment&_=1511408574390
，不知道怎么提取里面的评论内容，且里面的内容类似于\u***这样的乱码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-11-22 22:09
关注
需要先把内容的mainComment()去掉，它里面是一个json，然后就可以处理，\u是表示unicode的字符。

In [24]: sess = requests.Session() In [24]: sess.headers.update({'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Geck ...: o) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}) In [24]: res = sess.get("http://coral.qq.com/article/2243032968/comment?commentid=0&reqnum=10&tag=&callback=mainCommen ...: t&_=1511408574390") g = re.match("mainComment\\((.+)\\)", res.text) In [24]: out = json.loads(g.group(1)) In [23]: print(out["data"]["commentid"][0]["content"]) 方便面可以吃不放调料，自己煮，自己搭配
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 13:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 03:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 13:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬取腾讯新闻_Python 爬虫（爬取腾讯新闻）
2020-11-20 12:54

weixin_39926040的博客腾讯新闻的科技板块，至于为什么爬这个板块？我们要做新时代的科技少年???? ???? ???? 。闲话少叙，快上车。一、分析网页代码打开网页并进入调试模式，可以看的我们要爬取的内容都在这个中。qqxw_01.png打开看看，...
python爬虫爬取京东评论返回空白的求助贴 python
2021-02-17 10:23

回答 3 已采纳在header参数中添加referer默认值，应该是直接访问触发反爬了
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 14:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 09:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取腾讯新闻
2020-08-22 23:32

前端技术的博客 python爬虫爬取腾讯新闻话不多说，直接上代码！ import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_status() #r.encoding = 'utf-...
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 12:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 07:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 04:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬虫爬取腾讯新闻首页的新闻内容
2021-04-09 14:29

变强的猴子的博客爬取腾讯新闻首页的新闻内容最近学习了爬虫，爬了一些内容，分享一下，方便大家。 import urllib.request import urllib.error import re,ssl #异常处理 try: #针对https ,需要单独处理 #import ssl #ssl._...
python爬虫爬取电影数据并做可视化
2023-09-18 05:26

BUG再也不见的博客对爬取的数据进行可视化
python爬虫爬取腾讯网招聘信息，面试复盘
2024-03-22 00:21

qq194582923的博客 Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。光学理论是没用的，要学会跟着一起敲，要动手...
python爬取腾讯新闻_Python写网络爬虫爬取腾讯新闻内容
2020-11-20 12:54

weixin_39573981的博客最近学了一段时间的Python，想写个爬虫，去网上找了找，然后参考了一下自己写了一个爬取给定页面的爬虫。Python的第三方库特别强大，提供了两个比较强大的库，一个requests, 另外一个BeautifulSoup，这两个库目前...
没有解决我的问题, 去提问

python爬虫爬取腾讯新闻评论

3条回答 默认 最新

3条回答默认最新