爬虫爬取当当网书籍评论

爬虫初学。爬取当当网书籍评论，我想采用正则表达式提取评论信息（是unicode编码，提取之后再转文字）网页解析部分代码如下。

def parse_one_page(ilt,html):
    pattern=re.compile('<span><a href.*?>(.*?)<\/a><\/span>',re.S)
    comments=re.findall(pattern,html)
    for comment in comments:
        ilt.append(comment[0])
    return ilt

当当网评论内容url

求问我这个代码这样写为什么提取不出信息？？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-07-12 14:11
关注
参考：https://blog.csdn.net/qq_39008205/article/details/104334944

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬虫爬取腾讯新闻评论 json python 爬虫
2017-11-23 05:47

回答 3 已采纳需要先把内容的mainComment()去掉，它里面是一个json，然后就可以处理，\u是表示unicode的字符。 ``` In [24]: sess = requests.Session(
python爬虫爬取当当网的商品信息
2019-11-28 23:08

哆啦A梦PLUS的博客 python爬虫爬取当当网的商品信息一、环境搭建二、简介三、当当网网页分析1、分析网页的url规律2、解析网页html页面书籍商品html页面解析其他商品html页面解析四、代码实现一、环境搭建使用到的环境： python3.8.0...
python爬虫爬取京东评论返回空白的求助贴 python
2021-02-17 18:23

回答 3 已采纳在header参数中添加referer默认值，应该是直接访问触发反爬了
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python爬虫之利用pyquery爬取当当网图书信息
2021-11-19 16:49

旋转小马的博客爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。分析：打开当当，搜索python书籍，然后右键，检查网页元素，找到network，然后刷新整个页面，就会返回请求的页面数据，找到...
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬取当当网商品评论
2021-03-04 22:36

夜的乄第七章的博客 python爬取当当网商品评论本案例获取某鞋评论作为例案例目的：通过爬取当当网商品评价，介绍通过结合jsonpath和正则表达式获取目标数据的方法。代码功能：输入爬取的页数，自动下载保存每页的的评价以及对应...
Python如何爬虫爬取图书热销量 python
2022-11-05 10:55

回答 1 已采纳会一部分？标题也是”一部分“中的一部分
Python爬取当当网新书排行榜.zip
2020-01-06 10:40

1.使用Python爬取当当网新书排行榜(近7日) 2.使用xpath分析页面 3.使用MySql来存储采集的数据(排名,标题,作者,出版时间,出版社,现在的价格,每本书的图片等) 4.还使用了文件夹来保存每本书的图片(文件命名是使用...
【爬虫】4.5 实践项目——爬取当当网站图书数据
2023-06-13 00:13

即使再小的船也能远航的博客 Scrapy框架+Xpath信息提取方法设计商城（这里用的当当网）商品信息网站及爬虫程序，以关键字“书包”（python）搜索页面的商品，爬取（学号相关的特定某几个页面（最后一位，页面大于3）及限定数量商品（最后3位））...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

爬虫爬取当当网书籍评论

1条回答 默认 最新

悬赏问题

1条回答默认最新