菜鸟求助,大神请进:python爬取某东评论数据遇到的问题

python爬取京东评论数据,爬10页的评论没问题,后面的评论就不断重复,到底是什么原因?图片说明

3个回答

先看是不是服务器返回的内容 然后就是你请求的参数有问题 所有重复请求

mmmaxwell
mmmaxwell 这是get哦,不是post也要请求参数?
3 年多之前 回复

应该是url没去重吧

mmmaxwell
mmmaxwell 不是的,url我是控制循环的。应该不是这个问题
3 年多之前 回复

最近看到一个csdn的博客专门讲如何写电商爬虫的,地址是:http://blog.csdn.net/youmumzcs/article/details/51373830,楼主可以参考

qq_25970551
数据工厂 回复mmmaxwell: http://blog.csdn.net/youmumzcs/article/details/51396283 刚写了篇文章就是写反爬虫的,这么巧~
3 年多之前 回复
mmmaxwell
mmmaxwell 首先非常感谢你的热心。但是我的问题是京东的反爬虫机制,而不是如何爬东西。
3 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python爬取新浪微博评论
环境: Python3 + windows。 开发工具:Anaconda + Jupyter / VS Code。 学习效果: 认识爬虫 / Robots协议 了解浏览器开发者工具 动态加载页面的处理 手机客户端页面的数据采集 想要学习Python?Python学习交流群:683380553满足你的需求,...
python爬取bili评论
实例操作。非常规页面爬取 import requests import lxml.html import json class Bili: def __init__(self): pass def getMsg(self,url): headers = { 'User-Agent': 'Mozilla/5.0 (Window...
python爬取网易评论
最近学习了json模块,并用它爬取了网易的评论。 1、首先获取json格式的文件,我用的是360浏览器(貌似用谷歌比较好,但我谷歌出了点问题所以用的360,不过没啥影响) 打开评论的网页
python爬取网易云音乐评论
前言
python爬取新浪微博评论
*此方法只能爬取微博m站前100页评论,想要更全数据的请自行搜索pc站爬取代码在网上看了很多教程和博客,自己试验了很多方法,发现微博爬m站是最容易的。m站数据结构清晰,不需要用很复杂的框架,requests+正则就能解决。缺点是只能显示前100页,数据量小只能拿来练手。wap站据说最简单,但是爬出来的页面很乱而且数据不全,所以不推荐。pc站比较头疼的是找url翻页规律,(像我这样)不太了解网页就会...
python 爬取网易新闻评论
前段时间在看处理数据相关的书籍,需要爬取一些网上评论的文本数据集,所以想到爬取网易新闻底下的评论。本来想着Python+beautifulsoup(解析)+requests(抓取),最后存储在txt文件中就OK,废话不多说,试试吧~以这条新闻为例,可以看到,网易的新闻页面和评论页面是分开的,我们点进评论页面我们看到一如既往的“支持加油”
Python 爬取网易云评论
最近闲来无事,研究了一下网易云音乐,发现 ta 客户端传输给服务器的数据是经过加密的,大抵是将你要传输的数据经过两次 AES 加密,因为 AES 是对称加密算法,还需要将 AES 的秘钥以 RSA 的方式加密后传输给服务器。但经过我的分析发现,我们不用登录也是可以浏览到评论的,而且,服务器返回的评论数据,也没有经过加密,如果我们只是简单的想拿到某些歌曲的评论,可以绕过加密算法,直接请求数据。但这样
Python淘宝评论爬取
自己写的基于Python的淘宝评论爬取,并得到商品的图片
Python爬取爱奇艺的奇葩说评论数据
Python 爬取爱奇艺的 “奇葩说” 评论数据
python 爬取天猫美的评论数据
python 爬取天猫美的评论数据 笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行。对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了。本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似的做法,不赘述。主要是分析页面以及用Python实现简单方便的抓取。 笔者使用的工具如下 Python 3——极其方便的编...
python学习,爬取淘宝评论数据
从网站访问地址,(学习地址:http://mp.weixin.qq.com/s/oO46GdmGeDdYGvW3B75qsg)找了一个评论地址: https://rate.tmall.com/list_detail_rate.htm?itemId=521136254098&spuId=345965243&sellerId=2106525799&order=1&currentPage=1从一个学习网
【评论文本分类】1.爬取评论数据
环境配置 Ubuntu 16.04 Python 3.5 技术框架 Scrapy Selenium PhantomJS 需求目标对网址http://liuyan.cjn.cn/index.html进行数据爬取本文爬虫有三层爬取,爬取结构层次如图所示, 主页面列表页面,需要利用selenium+phantomJS模拟点击加载更多按钮详情页面把主页面中的红框中的各区(功能区)、政府部门、法检及其他单位等
使用python,爬取网页评论
使用python,爬取网页评论(实例:豆瓣《都挺好》) python的第三方库丰富了python的功能,今天就用python的第三方库requests和bs4这两个库来实现对一个网页的爬取 操作环境 python3.7.2 requests库 bs4库 requests库和bs4库下载 如果你的电脑只用python3的版本使用以下方式下载: pip install requests pip ins...
Python爬取微博评论代码
给定微博id和爬取评论数量,爬取对应微博的评论,便于下一步的分词和词频统计
python爬取网易动态评论
打开网易的一条新闻的源代码后,发现并没有所要得评论内容。 经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型 找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。
Python爬取网易新闻动态评论
1.前些天打开网易新闻,第一条就是习大大在中央军委改革工作会议上发表重要讲话的新闻,于是点开爬取该新闻的评论。也可以点这里打开! 2.以前爬取的网页都是静态的,都是源代码中直接就有,一眼就可以观察到的,而这次打开却不一样,根本没有自己想要的评论内容。然后通过搜索学习,知道了获取数据的办法。主要是html中的JavaScript和Python中json模块。 具体步骤如下: 1.输入网址,用谷
Python + (京东)JD评论爬取
今天闲来无事,打开jd 想看看抓取规则是不一样 刚开始还好,慢慢的 咦 单独拿出评论的js打开 咦 咦 咦 这样 : 响应 200 没错呀 看了一会 哦 原来是有个地方出了问题 ~ 大意大意 ...
Python 天猫评论爬取(正则)
通过分析Ajax请求可以看到天猫评论的地址规律变化:http://rate.tmall.com/list_detail_rate.htm?itemId=560016036932&sellerId=2103295383&currentPage=1其中itemId是商品id,sellerid是卖家id,currentPage是页面号那么拿到一个商品的URL后,通过分析源代码可以筛选出 ...
Python爬取腾讯视频评论
目标网站:https://v.qq.com/ 需要获取的数据:某部电影的评论数据,实现自动加载。 首先可以发现腾讯视频中某个视频的评论,在下面的图片中,如果点击”查看更多评论”,网页地址并无变化,与上面提到的糗事百科中的页码变化不同。而且通过查看源代码,只能看到部分评论。即评论信息是动态加载的,那么该如何爬取多页的评论数据信息? 第一步,分析腾讯视频评论网址变化规律。点击”查看更多评...
Python爬取网易云音乐热门评论
import requests import json def get_hot_comments(res): comments_json = json.loads(res.text) hot_comments = comments_json['hotComments'] with open('hot_comments.txt', 'w', encoding='utf-8'...
python爬虫爬取微博评论
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员。 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越的每一条评论的相关信息。 数据格式:{"name":评论人姓名,"comment_time":评论时间,"comment_info":评论内容,"comment_url":评论人的主页} 以上就是我们需要的信息。 爬虫前的分析: 以上是杨超越的微博主...
python的数据爬取问题
python有自己内置的库和许多第三方放入库,因此可以写很少的代码,实现更多的功能; 在python2.7.6版本以后都有pip和相关的架包不需要自己导入 如urllib或者urllib2等等,不过在python3后合并在一起了; 1.urllib和urllib2都是Python的一个获取url(Uniform Resource Locators,统一资源定址器)的模块。它用urlopen
某东试用机器人 python
用python实现的自动参与某东试用活动的程序,可选择屏蔽关键词 自行登录某东网站,拷贝cookie到代码中,即可使用
如何爬取天猫评论数据
(本文原作于2016年3月5日,有删改) 一、原理 首先在浏览器地址栏中输入https://www.tmall.com/打开天猫商城,任意检索某一商品,以奶粉为例,搜索结果如下图所示: 任意点开其中的某个商品: 这是我们常见的网页,由文字、图片和排版组成。现在将屏幕向下翻,直到看到“累计评价”,即下图中红色矩形圈起来的东西: 到目前为止这个页面没有任何评价信息,当用鼠标点...
scrapy爬取酒店评论数据
scrapy爬取酒店评论数据 代码 here:GitHub:scrapy_hotel_review 采用scrapy爬取酒店评论数据。 总共有28W条记录。 做某NLP任务,需要一些hotel reviews, 选择从www.booking.com搞一点数据来。 根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论
新手求助!大神请进,,菜鸟快崩溃了
#includern#includern#includernusing namespace std;rnrnclass Bankrnrnprivate:rn char name[20];rn string str;rn int number;rnpublic:rn Bank(const char *c, string &str, int n);rn void show() const;rn void in(int n);rn void out(int n);rn;rnrnBank::Bank(const char *c, string &st, int n)rnrn strcpy_s(name, c);rn str = st;rn number = n;rnrnrnvoid Bank::show() constrnrn cout << "户名:" << name << " 账号: " << str << " 存款: " << number << endl;rnrnrnvoid Bank::in(int n) rnrn number += n;rnrnrnvoid Bank::out(int n)rnrn number -= n;rnrnrnint main()rnrn Bank ba("feifeiteng", "1030412214", 50);rn ba.show();rn ba.in(70);rn ba.show();rn ba.out(80);rn ba.show();rn return 0;rnrn为什么这样就出错?rn但是把构造函数中的&去掉就没有错误了呢?rn我看C++ primer plus里和我一样的都加了&耗的啊!怎么回事啊
Python编程爬取某点评网数据
爬虫基本步骤 发起请求 使用HTTP协议向目标站点发起请求,也就是发送一个Request,Request包含请求头、请求体等,等待服务器响应。 获取响应内容 如过服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json,二进制数据等类型 解析内容 HTML页面 正则表达式解析或者BeautifulSoup ...
菜鸟求助,很简单的东懂
点击按钮弹出本地文件选项.
爬取微博数据遇到的问题
现在已经能够进行模拟登陆了。rn为什么只能查看到一个公众人物的相关信息,诸如易中天、王文京、曾志勇等,却不能通过模拟登陆查看到诸如我的同事相关的信息呢?自己真的是想得太简单了,请解决了的、碰到了此问题的帮忙解答下
python爬取豆瓣数据评论数据并通过词云显示
今天做一个爬虫小实验,爬取豆瓣网上书评数据。正好最近一直想看东野圭吾的《解忧杂货店》,那就从它下手吧。这个项目分为两部分:(1)爬取数据(2)制作词云项目过程:首先,导入我们需要用的的python库from splinter.browser import Browser from bs4 import BeautifulSoup import pandas as pd import time fr...
记一次python爬取某站正则表达式遇到的问题
一开始代码如下 import re,requests def get_one_page(url): response = requests.get(url) response.encoding=&quot;gb2312&quot; return response.text def parse_one_page(html): pattern = re.compile('&amp;lt;a...
java爬虫(Jsoup)爬取某站点评论
本文是基于这一篇的:http://blog.csdn.net/disiwei1012/article/details/51614492在上一篇中,我们抓取到了新闻的标题,超链接和摘要,这次我们通过新闻的超链接,进入新闻的评论页,然后爬取评论!注:http://www.wumaow.com,这个网站的标签写的太混乱了,而且还有js报错,到处都是广告。要是不是外国评论翻译的及时,我就去看龙腾网了http
Python爬取天猫超市数据遇到重定向
爬取天猫超市的牛奶信息时,遇到重定向问题:rnrn代码如下:rnrn[code=python]import sysrnreload(sys)rnsys.setdefaultencoding('utf-8')rnimport urllib2,urllib,rernfrom bs4 import BeautifulSouprnimport cookielibrnurl='https://list.tmall.com/search_product.htm?spm=a3204.7084717.1996500281.2.EUMiGi&cat=51462017' rnheaders='user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'rn ' Chrome/45.0.2454.101 Safari/537.36',rn 'referer':urlrnrncookie=cookielib.CookieJar()rnhandler2=urllib2.HTTPCookieProcessor(cookie)rnopener=urllib2.build_opener()rnopener.add_handler(handler=handler2)rnopener.addheaders = headers.items()rnurllib2.install_opener(opener=opener)rnpage=opener.open(url)rnprint page.url ####这里看到定向到登录页去了rnhtml=page.read()rnprint htmlrn[/code]rnrn其实我就是想获取超市的牛奶信息。。。。谢谢大家啦!
毕业一年的菜鸟某东面试总结
本人16年毕业,因为对IT感兴趣,所以从大学就开始自学编程(工商专业),野路子出身。毕业之后找了一份工作,直到现在。鸟大了什么林子都有,所以也想出去闯闯,就抱着试试看的态度面了某东,本想着见见世面,别太丢人就好,结果却是意料之外,情理之中。过程中也意识到了自己的不足的地方,还是学习到了很多东西,分享一下。笔试题 笔试题中大部分都是一些基础性的知识技能,其中类似于jvm的知识其实是扩展的知识,用来
菜鸟求助。。 评论功能的实现
发表评论,怎么样实现 ,获取当前详细内容网页的ID,存进数据库评论表,然后页面根据数据库评论表里的页面ID读出到页面上rnrnstring sql = "insert into comments (mingzi,pinglun,gerenwang,email,shijian) values('" + txtNames.Text + "','" + txtTxt.Text + "','" + txtWww.Text + "','" + txtEmail.Text + "','" + System.DateTime.Now.ToString() + "')";rn Clas.Class2.lianjie(sql);rnrn上面可以实现发表评论,存进数据库,现在要加一个功能,就是获取当前页面的ID一起存进数据库rnrnrnrn <%# Eval("biaoti") %>
求助:LINGO大神请进
编程LINGO总是遇到这个问题INVALID NUMBER OF INITIALIZATION VALUES IN A DATA OR INIT SECTION.rn代码如下.rnmodel: rnsets:rn supply/1..20/; rn need/1..13/; rn distance/supply,need/:d;rnendsets rndata: rn d=222.3615 160.2847 92.8681 192.9344 210.9621 225.0175 228.9320 190.0116 195.1581 120.8344 58.8093 118.5011 48.8522rn 204.6392 141.2972 73.8806 173.9469 191.9747 206.0300 211.2097 172.2893 177.4358 103.1121 39.8219 103.0954 60.35071rn 83.5227 127.6723 60.2557 160.3219 178.3497 192.4051 190.0932 151.1728 156.3192 81.9956 60.9384 81.9788 43.9339rn 219.9738 150.0851 82.6685 182.7348 200.7626 214.8179 226.5443 162.2691 155.3534 81.0298 48.6098 73.9587 3.5000rn 176.2819 129.6963 62.2797 162.3459 177.4952 191.5506 182.8524 113.0687 106.1529 31.8293 94.2112 24.7583 52.5507rn 176.5878 130.0021 62.5855 162.6518 177.8011 191.8565 183.1583 113.3745 106.4588 32.1352 94.5170 25.0641 53.3733rn 149.1494 109.0122 41.5956 141.6619 150.3627 164.4181 155.7199 85.7022 80.1546 5.8310 73.5271 12.9020 79.9172rn 140.9251 94.3394 26.9228 126.9891 142.1384 156.1938 147.4956 102.2803 104.9318 30.6082 58.8543 30.9947 86.7728rn 130.1071 82.7420 15.3254 115.3917 131.3205 145.3759 136.6776 97.7572 107.2441 34.9230 47.2569 41.9941 93.3667rn 75.8659 127.7566 69.5667 95.1069 77.0792 91.1346 82.4364 141.9486 151.4355 79.1145 101.4982 86.1855 147.6080rn 37.9135 83.3730 113.9503 50.7233 32.6956 46.7510 38.0527 186.3323 195.8191 123.4981 145.8818 130.5691 191.9916rn 1000 119.5028 145.4326 86.8532 68.8254 64.7700 35.9163 217.8145 227.3013 154.9803 177.3641 162.0514 223.4738rn 59.7700 59.7328 127.1494 27.0831 9.0554 5.0000 23.8537 228.0832 237.5700 165.2490 161.2082 172.3201 213.3179rn 119.5028 1000 67.4166 32.6497 50.6774 64.7328 83.5865 180.4992 189.1668 114.8432 101.4754 121.9142 153.5851rn 170.2961 132.9808 65.5642 165.6305 171.5094 185.5648 176.8666 47.5184 57.0053 44.0147 97.4957 51.0858 118.1010rn 145.4326 67.4166 1000 100.0663 118.0940 132.1494 151.0031 113.0826 121.7502 47.4265 34.0588 54.4976 86.1685rn 218.9211 149.0324 81.6158 181.6821 199.7098 213.7652 225.4916 186.5712 195.2387 120.9151 47.5570 127.9862 78.2052rn 242.4718 185.1448 117.7282 217.7945 235.8223 249.8776 249.0423 210.1219 215.2683 140.9447 83.6695 136.9926 67.3436rn 225.4653 169.6148 102.1982 202.2645 220.2923 234.3476 232.0358 193.1153 198.2618 123.9382 76.3928 119.9861 50.3371rn 269.4580 212.1311 144.7145 244.7808 262.8085 276.8639 276.0286 230.1082 223.1925 148.8689 110.6557 141.7978 64.4888;rnrnenddata rnendrn求大神帮忙解释
python 大神请进
同样一段代码rnrawfile=open('G:test.txt')rnf1=rawfile.read()rnf1rn在python自带交互模式下可以看到文档中的内容,但是用notepad++却什么也打印不出来是为什么?
Python爬虫爬取某网站
import json import random import time from bs4 import BeautifulSoup import requests import re import pymysql url = "https://place.qyer.com/uk/citylist-0-0-1/" class Point: def __init__(self,c...
Python定时爬取某网页内容
前言 昨天小伙伴说他最近在投资一个类似比特币的叫ETH币(以太币),他想定时获取某网站以太币的“购买价格最低”和“出售价格最低”,他自己没学过Python,也找到一个定时获取股票的例子(没看懂),看我平时有在玩Python,就问我能不能做到;平时我对Python挺感兴趣的,就想试试看。 思路 定时任务 主程序 爬取网页 解析网页 获取所要内容 存入表格 绘图 异常处理 如何实
菜鸟求助大神,求救!
[size=24px]一个大boss给小弟出了如下的问题:rnrn用你所熟悉的语言完成我提出的要求:rn功能一:随机产生10万条记录,然后存储(本地文档或数据库均可);rn功能二:读取上面存储的数据,然后显示出来给客户浏览。rnrn有没有大神能够解答,或者告诉我应该用什么软件,实在是没有头绪啊,救人一命胜造七级浮屠,在此先谢过了[/size][color=#00CCFF][img=https://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/83.gif][/img][/color]
相关热词 c++和c#哪个就业率高 c# 批量动态创建控件 c# 模块和程序集的区别 c# gmap 截图 c# 验证码图片生成类 c# 再次尝试 连接失败 c#开发编写规范 c# 压缩图片好麻烦 c#计算数组中的平均值 c#获取路由参数