爬取亚马逊商品信息显示错误

这里显示错误
图片说明

 from lxml import html  
import csv,os,json
import requests
from exceptions import ValueError
from time import sleep

def AmzonParser(url):
    headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}
    page = requests.get(url,headers=headers)
    while True:
        sleep(3)
        try:
            doc = html.fromstring(page.content)
            XPATH_NAME = '//h1[@id="title"]//text()'
            XPATH_SALE_PRICE = '//span[contains(@id,"ourprice") or contains(@id,"saleprice")]/text()'
            XPATH_ORIGINAL_PRICE = '//td[contains(text(),"List Price") or contains(text(),"M.R.P") or contains(text(),"Price")]/following-sibling::td/text()'
            XPATH_CATEGORY = '//a[@class="a-link-normal a-color-tertiary"]//text()'
            XPATH_AVAILABILITY = '//div[@id="availability"]//text()'

            RAW_NAME = doc.xpath(XPATH_NAME)
            RAW_SALE_PRICE = doc.xpath(XPATH_SALE_PRICE)
            RAW_CATEGORY = doc.xpath(XPATH_CATEGORY)
            RAW_ORIGINAL_PRICE = doc.xpath(XPATH_ORIGINAL_PRICE)
            RAw_AVAILABILITY = doc.xpath(XPATH_AVAILABILITY)

            NAME = ' '.join(''.join(RAW_NAME).split()) if RAW_NAME else None
            SALE_PRICE = ' '.join(''.join(RAW_SALE_PRICE).split()).strip() if RAW_SALE_PRICE else None
            CATEGORY = ' > '.join([i.strip() for i in RAW_CATEGORY]) if RAW_CATEGORY else None
            ORIGINAL_PRICE = ''.join(RAW_ORIGINAL_PRICE).strip() if RAW_ORIGINAL_PRICE else None
            AVAILABILITY = ''.join(RAw_AVAILABILITY).strip() if RAw_AVAILABILITY else None

            if not ORIGINAL_PRICE:
                ORIGINAL_PRICE = SALE_PRICE

            if page.status_code!=200:
                raise ValueError('captha')
            data = {
                    'NAME':NAME,
                    'SALE_PRICE':SALE_PRICE,
                    'CATEGORY':CATEGORY,
                    'ORIGINAL_PRICE':ORIGINAL_PRICE,
                    'AVAILABILITY':AVAILABILITY,
                    'URL':url,
                    }

            return data
        except Exception as e:
            print (e) 
def ReadAsin():
    # AsinList = csv.DictReader(open(os.path.join(os.path.dirname(__file__),"Asinfeed.csv")))
    AsinList = ['B0046UR4F4',
    'B00JGTVU5A',
    'B00GJYCIVK',
    'B00EPGK7CQ',
    'B00EPGKA4G',
    'B00YW5DLB4',
    'B00KGD0628',
    'B00O9A48N2',
    'B00O9A4MEW',
    'B00UZKG8QU',]
    extracted_data = []
    for i in AsinList:
        url = "http://www.amazon.com/dp/"+i
        print ("Processing: )"+url
        extracted_data.append(AmzonParser(url))
        sleep(5)
    f=open('data.json','w')
    json.dump(extracted_data,f,indent=4)


if __name__ == "__main__":
    ReadAsin()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
普通网友 2017-04-23 09:02
关注
图里的错误是Python2和Python3的语法差异。你的环境估计是Python3修改一下：print("Processing: "+url)即可

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬取亚马逊商品数据-多线程【附源码】
2025-03-05 08:30

代码CC的博客 python爬取亚马逊数据-多线程
用Python获取Amazon亚马逊的商品信息
2022-01-18 16:26

CorGi_8456的博客 1.首先获取亚马逊列表页的信息以视频游戏区为例：获取列表内能获取到的商品信息，如商品名，详情链接，进一步获取其他内容。用requests.get()获取网页内容，xpath选取相关标签的内容： import requests ...
用Python爬取Amazon商品价格历史（含登录认证）
2025-06-03 13:13

Python爬虫项目的博客然而，Amazon需要用户登录才能访问部分商品价格和历史数据使用大量 JavaScript 加载页面内容页面内容与用户账户、地理位置高度相关存在强力的反爬检测与IP限流策略如何用Python构建一个支持登录认证的Amazon商品价格...
Python爬虫实战：抓取Amazon商品数据
2025-08-27 15:23

YF云飞的博客本文详细介绍利用Python爬虫技术获取Amazon商品数据的完整方案。主要内容包括：环境搭建（安装requests、BeautifulSoup等库）、目标网站分析方法、核心爬虫代码实现（HTTP请求、数据解析、存储优化）、反反爬策略...
python爬取亚马逊best-selling商品信息代码
2025-01-15 10:54

Rorschach379的博客 rating_count = int(rating_text.split(...print(f"ASIN: {asin} - 图片 URL 抓取失败: {e}") # 记录错误信息。print(f"成功连接到浏览器，当前URL: {driver.current_url}")print("没有找到下一页按钮或无法点击:", e)
python爬虫自学习1+京东商品爬取实例
2021-11-19 18:15

也问吾心的博客最近突然觉得有必要学一下python，翻开大一的Python书发现忘的那是一干二净，想学一下爬虫，只好重头再来，找了个教程一看啥都看不懂，还是老老实实从零开始吧。安装第三方库爬虫有一个库叫 requests 说出来不怕...
新手必看！用Python爬取亚马逊商品数据的5个关键步骤（附ASIN采集与搜索实战代码）
2025-09-11 10:13

5f4d3s2a1q的博客本文为Python爬虫新手提供了从亚马逊采集商品数据的完整实战指南。文章详细拆解了五个关键步骤，包括理解ASIN与页面结构、使用XPath精准提取数据、构建稳健的爬虫类、通过关键词搜索批量采集ASIN，以及应对反爬的可...
Python爬虫入门实例二之亚马逊商品页面的爬取
2020-10-28 00:02

我敲的贼快的博客本文通过采用爬虫requests库爬取亚马逊商品页面的入门实例，为大家排坑关于对于设置来源审查网站的爬取方法，适合新手入门。
实例——Python爬虫requests爬取亚马逊商品页面
2020-02-07 15:24

AI算法联盟的博客 1.打开亚马逊官网，随机浏览一商品详细页，复制URL。 2.用requests.get()方法获取网页相关信息 import requests r = requests.get(...
selenium实战之Python+Selenium爬取商品数据
2023-11-23 18:15

够好了吗？的博客实战目标：爬取商品信息，包括商品的价格、主图、详情图。
没有解决我的问题, 去提问

爬取亚马逊商品信息 显示错误

6条回答 默认 最新

爬取亚马逊商品信息显示错误

6条回答默认最新