爬虫爬取京东怎么实现翻页

from selenium import webdriver import re import time driver=webdriver.Firefox() driver.get("https://item.jd.com/12811614.html") x = 0 for j in range(0,10): time.sleep(2) wangye=driver.page_source asdfg=re.findall('

(.*?)

',wangye,re.S) for i in asdfg: x += 1 print(str(x)+'、'+i+'\n'+'='*150) driver.execute_script("window.scrollTo(0,document.body.scrollHeight);") time.sleep(2) more = driver.find_element_by_css_selector('div.ui-page>a')[i+1] more.click() driver.close()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

CSDN专家-深度学习进阶 2021-05-18 10:28

关注

这是我之前写的，你看一下

# coding=utf-8
import requests
import re
import io
import sys
reload(sys)
sys.setdefaultencoding('utf8')

temp='https://item.jd.com/100004325476.html'
headers = {
        'User-Agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 89.0.4389.90Safari / 537.36'
    # 请求的客户端信息
    }

def url(temp):
    jd_id=re.findall("\d+",temp)[0]  # 提取商品id
    # 替换京东商品js中一般的Request URL模板
    l='https://club.jd.com/comment/productPageComments.action?productId=xxx&score=0&sortType=5&page={page_num}&pageSize=10&isShadowSku=1&rid=0&fold=1'
    l=l.replace('xxx', jd_id)  # 替换id
    return l

def init():
        # 实例化类的时候运行初始化函数
        # 打开文件
        file_name = 'jd_commet'
        print '正在打开文件'+file_name+'txt文件!'

def parse_one_page(url,fp):
        # 指定url
        # url='https://club.jd.com/comment/productPageComments.action?productId=100017543968&score=0&sortType=6&page=1&pageSize=10&isShadowSku=100016034372&rid=0&fold=1'
        # 发起请求
        response = requests.get(url, headers=headers)
        # 获取响应
        js_data = response.json()
        # 提取评论列表
        comments_list = js_data['comments']

        for comment in comments_list:
            # 评论内容
            content = comment.get('content')
            content = ' '.join(content.split('\n'))  # 处理换行符
            print(content)
            # 循环写出数据
            fp.write(u'{}\n'.format(content))
            fp.write(u"\n")  # 写入一条数据后加一行空数据

def parse_max_page(l):
        fp = io.open('E:/python/jd_commet.txt', 'w', encoding='utf_8_sig')
        for page_num in range(10):  # 抓包获得最大页数  最大50页，超出自动停止
            # 指定通用的url模板
            new_url=l.format(page_num=page_num) # 把字符串替换为变量
            print '正在获取第'+str(page_num)+'页'
            # 调用函数
            parse_one_page(url=new_url, fp=fp)
        fp.close()

def close_files():
        print('爬虫结束，关闭文件！')

def run(temp):
    init()
    l = url(temp)
    # 开始爬虫
    parse_max_page(l=l)
    # 关闭文件
    close_files()
if __name__ == '__main__':
    run(temp)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

爬虫爬取京东怎么实现翻页 python 有问必答
2021-05-18 10:19

回答 3 已采纳这是我之前写的，你看一下 # coding=utf-8 import requests import re import io import sys reload(sys) sys.setdefa
python爬虫爬取京东评论返回空白的求助贴 python
2021-02-17 18:23

回答 3 已采纳在header参数中添加referer默认值，应该是直接访问触发反爬了
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python如何运用爬虫爬取京东商品评论
2023-08-30 14:20

m0_48891301的博客 Python如何运用爬虫爬取京东商品评论？
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
爬虫——python爬取京东商品用户评价
2023-03-21 23:21

m0_64430775的博客 python爬取京东商品用户评论，分别爬取好评、中评、差评，以小米手环7为例
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
小白python爬虫入门实例2—— 翻页爬取京东商城商品数据
2021-10-07 11:40

百练霓裳的博客通过分析京东的网址，寻找翻页...html = getText(url) parsePage(infoList, html) printGoodsList(infoList) 四、声明本人是学习python爬虫路上的一名小白，如有不当之处（轻喷，小白需要鼓励），欢迎大佬们批评指正。
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
Python动态爬虫爬取京东商品评论
2021-07-27 14:33

西南小游侠的博客 Python 动态爬虫爬取京东商品评论 1. 概述京东商城是Python爬虫初学者试手的经典平台，反爬虫程度较低，但评论采取了动态加载的方式，爬取京东商品评论是学习动态爬虫的一个极佳方法。动态爬虫，即针对动态加载...
python爬取京东商品评论（可实现翻页）
2020-12-10 22:40

无涯024的博客上一篇文章，我们已经实现抓取商品第一页的功能，下面来实现翻页的功能。首先通过类定义三个方法：初始化方法、解析一页的方法、翻页爬取。 class jd_comment(object): def __init__(self): pass def page...
没有解决我的问题, 去提问

悬赏问题

¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置

码龄粉丝数原力等级 --

爬虫爬取京东怎么实现翻页

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

爬虫爬取京东怎么实现翻页

3条回答 默认 最新

悬赏问题

3条回答默认最新