爬虫失败 - 京东搜索结果

导出的结果是一张只有表头没有数据的空表。

#信息采集：名称、价格、评论数、商家名称等
import requests
from lxml import etree
from pandas import DataFrame
import pandas as pd

jdInfoAll=DataFrame()
for i in range(1,4):
    url="https://search.jd.com/Search?keyword=bosch&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&bs=1&suggest=1.his.0.0&ev=exbrand_%E5%8D%9A%E4%B8%96%EF%BC%88BOSCH%EF%BC%89%5E&page="+str(i)
    res=requests.get(url)
    res.encoding='utf-8'
    root=etree.HTML(res.text)
    name=root.xpath('//*[@id="J_goodsList"]/ul/li[@class="gl-item"]/div/div[@class="p-name p-name-type-2"]/a/em/text()[2]')
    for i in range(0,len(name)):
        name[i]=re.sub('\s','',name[i])
        print(i)

    #sku
    sku=root.xpath('//*[@id="J_goodsList"]/ul/li/@data-sku')
    print(sku)

    #价格
    price=[]
    comment=[]
    for i in range(0,len(sku)):
        thissku=sku[i]
        priceurl="https://p.3.cn/prices/mgets?callback=jQuery6775278&skuids=J_"+str(thissku)
        pricedata=requests.get(priceurl)
        pricepat='"p":"(.*?)"}'
        thisprice=re.compile(pricepat).findall(pricedata.text)   
        price=price+thisprice

        commenturl="https://club.jd.com/comment/productCommentSummaries.action?my=pinglun&referenceIds="+str(thissku)
        commentdata=requests.get(commenturl)
        commentpat='"CommentCount":(.*?),"'
        thiscomment=re.compile(commentpat).findall(commentdata.text)
        comment=comment+thiscomment

    #商家名称
    shopname=root.xpath('//*[@id="J_goodsList"]/ul/li[@class="gl-item"]/div/div[@class="p-shop"]/span/a/@title')
    print(shopname)

    jdInfo=DataFrame([name,price,shopname,comment]).T
    jdInfo.columns=['产品名称','价格','商家名称','评论数']
    jdInfoAll=pd.concat([jdInfoAll,jdInfo])
jdInfoAll.to_excel('jdInfoAll.xls')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

人间再无张居正 2019-03-15 13:33

关注

由于我的版本是Python3.6，从lxml导入etree的方法有所改变，所以我下面的代码和你有些不同，你可以根据自己的环境进行修改，相信你也看的懂

import requests
# from lxml import etree
from lxml import html
from pandas import DataFrame
import pandas as pd
import re
jdInfoAll=DataFrame()
etree = html.etree
for i in range(1,4):
    url="https://search.jd.com/Search?keyword=bosch&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&bs=1&suggest=1.his.0.0&ev=exbrand_%E5%8D%9A%E4%B8%96%EF%BC%88BOSCH%EF%BC%89%5E&page="+str(i)
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    res=requests.get(url, headers=headers, allow_redirects=False)
    res.encoding='utf-8'
    root=etree.HTML(res.text)
    name=root.xpath('//*[@id="J_goodsList"]/ul/li[@class="gl-item"]/div/div[@class="p-name p-name-type-2"]/a/em/text()[2]')
    for i in range(0,len(name)):
        name[i]=re.sub('\s','',name[i])
        print(i)

    #sku
    sku=root.xpath('//*[@id="J_goodsList"]/ul/li/@data-sku')
    print(sku)

    #价格
    price=[]
    comment=[]
    for i in range(0, len(sku)):
        thissku=sku[i]
        priceurl="https://p.3.cn/prices/mgets?callback=jQuery6775278&skuids=J_"+str(thissku)
        pricedata=requests.get(priceurl, headers=headers, allow_redirects=False)
        pricepat='"p":"(.*?)"}'
        thisprice=re.compile(pricepat).findall(pricedata.text)
        price=price+thisprice

        commenturl="https://club.jd.com/comment/productCommentSummaries.action?my=pinglun&referenceIds="+str(thissku)
        commentdata=requests.get(commenturl, headers=headers, allow_redirects=False)
        commentpat='"CommentCount":(.*?),"'
        thiscomment=re.compile(commentpat).findall(commentdata.text)
        comment=comment+thiscomment

    #商家名称
    shopname=root.xpath('//*[@id="J_goodsList"]/ul/li[@class="gl-item"]/div/div[@class="p-shop"]/span/a/@title')
    print(shopname)

    jdInfo=DataFrame([name,price,shopname,comment]).T
    jdInfo.columns=['产品名称','价格','商家名称','评论数']
    jdInfoAll=pd.concat([jdInfoAll,jdInfo])
jdInfoAll.to_excel('jdInfoAll.xls')

运行结果展示

如果可以希望采纳

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

爬虫失败 - 京东搜索结果 python
2019-03-15 10:56

回答 2 已采纳 `由于我的版本是Python3.6，从lxml导入etree的方法有所改变，所以我下面的代码和你有些不同，你可以根据自己的环境进行修改，相信你也看的懂` ``` import requests
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python爬虫 --爬取京东商品信息
2019-02-23 11:42

hokool的博客本次学习的爬取内容是京东商品列表信息网址是：https://search.jd.com/Search?keyword=手机&amp;enc=utf-8 使用了第三方库 requests 因为京东每一页的商品信息被分为前30件商品和后30件商品信息，所以将...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
python爬虫-京东商品详情爬取
2020-08-31 12:33

百变星君�的博客 python爬虫-京东商品详情爬取最近因需求需要，需要到京东爬取一些类别的商品信息。记录下过程中踩过的坑，最后奉献上全部代码。仅供互相学习，如有错误请指正~~ 京东网页翻页。京东的页面是打开时先加载前30个...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫没有结果返回 python 爬虫
2023-03-10 15:16

回答 4 已采纳 import requests from lxml import etree import pandas as pd url = 'https://www.jjwxc.net/topten.php
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
python爬虫自学习1+京东商品爬取实例
2021-11-19 18:15

也问吾心的博客最近突然觉得有必要学一下python，翻开大一的Python书发现忘的那是一干二净，想学一下爬虫，只好重头再来，找了个教程一看啥都看不懂，还是老老实实从零开始吧。安装第三方库爬虫有一个库叫 requests 说出来不怕...
python爬虫运行无结果 python 爬虫
2021-10-13 19:02

回答 1 已采纳你这个目前只写了一个类，并没有调用，肯定是没有结果的
python京东宝的需求_Python爬虫-京东产品详情,python,商品,爬取
2021-01-13 14:20

weixin_39684495的博客 xlsx['小类名称'].values.tolist().index(dept_name)] url_dept = quote(dept_name) for i in range(1,7): # 总共爬取3页，京东商品搜索后先加载半页，向下滚再加载半页。上半页页码为1，下半页页码为2. url = f...
Python爬虫实战之一：requests-爬取京东商品详情页面
2021-11-29 11:16

miracle2me的博客本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》（by嵩天北京理工大学）学习笔记。目录 1.爬取目标 2.爬取链接 3.技术路线 4.全部代码及输出 5.总结 1.爬取目标爬取京东某商品详情页面...
没有解决我的问题, 去提问

悬赏问题

¥15 chaquopy python 安卓
¥50 Kubernetes&Fission&Eleasticsearch
¥15 有没有帮写代码做实验仿真的
¥15 報錯：Person is not mapped，如何解決？
¥30 vmware exsi重置后登不上
¥15 易盾点选的cb参数怎么解啊
¥15 MATLAB运行显示错误，如何解决？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题

码龄粉丝数原力等级 --

爬虫失败 - 京东搜索结果

2条回答默认最新

码龄粉丝数原力等级 --

运行结果展示

悬赏问题

爬虫失败 - 京东搜索结果

2条回答 默认 最新

运行结果展示

悬赏问题

2条回答默认最新