soppycl 2025-04-11 15:23 采纳率: 0%
浏览 21

python爬虫无法爬取

在尝试爬取京东评论时,就一直停留在商品评价上,也爬取不了内容,这是为啥?

img

  • 写回答

4条回答 默认 最新

  • 阿里嘎多学长 2025-04-11 15:23
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    python爬虫无法爬取

    你遇到的问题是,使用 Python 爬虫无法爬取京东评论的内容,停留在商品评价上。这可能是由于以下原因:

    1. 京东的反爬虫机制:京东可能已经对爬虫进行了反爬虫处理,限制了爬虫的访问。
    2. JavaScript渲染:京东评论可能使用了 JavaScript 渲染,爬虫无法直接获取渲染后的内容。
    3. Cookie问题:爬虫可能没有正确获取或使用京东的 Cookie,导致无法访问评论内容。

    解决方案:

    1. 使用代理IP:使用代理IP可以绕过反爬虫机制。
    2. 使用 Selenium:使用 Selenium 可以模拟浏览器的行为,渲染 JavaScript 代码,并获取评论内容。
    3. 使用 Scrapy + Requests:使用 Scrapy 和 Requests 库,可以模拟浏览器的请求,获取评论内容。

    核心代码:

    import requests
    from bs4 import BeautifulSoup
    from selenium import webdriver
    
    # 使用 Selenium 模拟浏览器
    driver = webdriver.Chrome()
    driver.get('https://item.jd.com/123456.html')  # Replace with the product URL
    
    # 等待页面加载完成
    driver.implicitly_wait(10)
    
    # 获取评论内容
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    comments = soup.find_all('div', {'class': 'comment'})
    
    # 打印评论内容
    for comment in comments:
        print(comment.text)
    
    # 关闭浏览器
    driver.quit()
    

    注意:上述代码只是一个示例,需要根据实际情况进行修改。

    评论

报告相同问题?

问题事件

  • 创建了问题 4月11日