如何有效的在爬取网站时输入邮编？

代码会爬取美国Target网站过敏药产品（大约100个）的价格，名字，产品id等信息. 特别的是在过程中会不断输入邮编地址（每个产品会根据100个不同的邮编爬取100次），代码会爬取不同邮编下产品的价格，名字，产品id等信息。

然后会把爬取的文件存入csv文件中。

我在爬取时使用了selenium的webdriver功能来输入邮编和爬取数据。同时为了加快爬取速度我使用了multithreading来同时打开数个产品网页爬取数据。我未来期望代码能在服务器上每小时运行持续一年。

问题是因为Target发现我是机器人后会把我屏蔽锁住我的ip，所以我要购买并使用第三方代理。代理按照request次数收费但这个代码发出的request次数太多导致收费太高。同时我也觉得selenium打开网页一个个输入邮编效率太低了。请问各位有什么其他的好方法可以做到爬取不同邮编下同样产品的价格？

这是我的代码：

data = read_csv("C:\\Users\\12987\\desktop\\zipcode\\zc.csv")
# converting column data to list
zipCodeList = data['Zipcode'].tolist()
 
while(True):
    AArray = []
 
    def ScrapingTarget(url):
        wait_imp = 10
        CO = webdriver.ChromeOptions()
        CO.add_experimental_option('useAutomationExtension', False)
        CO.add_argument('--ignore-certificate-errors')
        CO.add_argument('--start-maximized')
        wd = webdriver.Chrome(r'D:\chromedriver\chromedriver_win32new\chromedriver_win32 (2)\chromedriver.exe',options=CO)
        wd.get(url)
        wd.implicitly_wait(wait_imp)
 
        for zipcode in zipCodeList:
            # click the My Store
            myStore = wd.find_element(by=By.XPATH, value="//*[@id='web-store-id-msg-btn']/div[2]/div")
            myStore.click()
            sleep(0.5)
 
            #输入邮编
            inputZipCode = wd.find_element(by=By.XPATH, value="//*[@id='zip-or-city-state']")
            inputZipCode.clear()
            inputZipCode.send_keys(zipcode)
 
            #click lookup
            clickLoopUP = wd.find_element(by=By.XPATH, value="//*[@id='overlay-1']/div[2]/div[1]/div/div[3]/div[2]/button")
            clickLoopUP.click()
            sleep(0.5)
 
            #choose Store
            store = wd.find_element(by=By.XPATH, value="//*[@id='overlay-1']/div[2]/div[3]/div[2]/div[1]/button")
            store.click()
 
            #开始爬取数据
            name = wd.find_element(by=By.XPATH, value="//*[@id='pageBodyContainer']/div[1]/div[1]/h1/span").text
 
            price = wd.find_element(by=By.XPATH, value="//*[@id='pageBodyContainer']/div[1]/div[2]/div[2]/div/div[1]/div[1]/span").text
 
            currentZipCode = zipcode
 
            tz = pytz.timezone('Europe/London')
            GMT = datetime.now(tz).strftime("%Y-%m-%d %H:%M:%S")
 
            # needed to click onto the "Show more" to get the tcin and upc
            xpath = '//*[@id="tabContent-tab-Details"]/div/button'
            element_present = EC.presence_of_element_located((By.XPATH, xpath))
            WebDriverWait(wd, 5).until(element_present)
            showMore = wd.find_element(by=By.XPATH, value=xpath)
            sleep(2)
            showMore.click()
            soup = BeautifulSoup(wd.page_source, 'html.parser')
            # gets a list of all elements under "Specifications"
            div = soup.find("div", {"class": "styles__StyledCol-sc-ct8kx6-0 iKGdHS h-padding-h-tight"})
            list = div.find_all("div")
            for a in range(len(list)):
                list[a] = list[a].text
            # locates the elements in the list
            tcin = [v for v in list if v.startswith("TCIN")]
            upc = [v for v in list if v.startswith("UPC")]

            #scroll up
            wd.find_element(by=By.TAG_NAME, value='body').send_keys(Keys.CONTROL + Keys.HOME)
 
            AArray.append([name, price, currentZipCode, tcin, upc, GMT])
 
 
    with concurrent.futures.ThreadPoolExecutor(10) as executor:
         executor.map(ScrapingTarget, urlList)
 
    with open(r'C:\Users\12987\PycharmProjects\python\Network\priceingAlgoriCoding\export_Target_dataframe.csv',
              'a', newline="", encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerows(AArray)
 
    sleep(3600)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
二九筒 2022-05-31 10:21
关注
就两种方式啊，要么使用页面爬取要么通过请求接口的方式爬取，当然请求接口的方式速度是最快的，但是太频繁容易被检测出事爬虫，那就把爬取的速度稍微放慢一点，中间设置一个等待时间，尽量模拟是人的操作，还有就是请求头header中的参数尽量完整，这样不容易被检测出你是爬虫

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
如何在爬取网页数据时用多线程？（python） python 有问必答
2021-05-12 18:21

回答 6 已采纳可以使用concurrent.futures的ThreadPoolExecutor，用一个线程池执行异步调用。例： import requests from bs4 import Beautifu
如何使用python爬取到下面的数字21？ python
2020-11-29 20:43

回答 2 已采纳直接右键span位置选择copy在选择copy Xpath 获得路径之后后面再加text()
python爬虫（常见爬取失败问题）
2022-02-10 15:17

程序猿-张益达的博客在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝，也许是自己的 IP 地址不知道什么原因直接被网站封杀，无法继续访问。原因...
Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python：如何爬取到该数据？ python
2020-09-07 10:20

回答 2 已采纳首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用 r = requests.get(request_url) obj = r.json() print(obj.学
Python爬虫实战(基础篇)—24—爬取水利建设市场监管平台—从业单位信息公开
2024-10-30 08:15

一晌小贪欢的博客 Python爬虫实战(基础篇)—24—爬取水利建设市场监管平台—从业单位信息公开
python 爬取网页时出现多种错误 python selenium 有问必答
2021-10-26 22:34

回答 2 已采纳代码中anal.xpath（//*[@id= Pating 一 app-profile-ratings"]/div[2]/div/div/span[1]/meta[2])可能获取到为空列表，不能用[0
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
为何爬取不了淘宝的数据？ python 正则表达式
2018-10-07 12:29

回答 2 已采纳这是之前北京理工大学的一个关于python爬虫入门的国家精品课里面的程序。代码本身没问题，但是现在淘宝网要登陆，所以并不是获取的商品的信息。 print(html[2000:3000])可知“
Python 正则表达式
2024-09-15 16:47

偶尔也有风_的博客正则表达式是一种用于描述字符串匹配规则的表达式。它由普通字符和元字符（特殊字符）组成，通过这些字符的组合，可以构建出具有强大...正则表达式在处理文本时能够实现高度灵活的模式匹配，从而满足不同场景下的需求。
Python爬虫突破封禁的6种常见方法
2016-08-17 22:36

offbye的博客在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络...
Python网络爬虫与信息提取
2019-05-24 22:04

一壶浊酒伴余生的博客从内容中分析出的响应内容编码方式（备选编码方式） r.content HTTP响应内容的二进制形式 head()方法 r = requests.head('http://httpbin.org/get') r.headers 获取网络资源的概要信息 post()...
6种Python反反爬虫技术，看完后我的爬虫技术提升了
2020-10-24 13:50

Python_sn的博客在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用的方法是写一个自动化程序向网络...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月30日

悬赏问题

¥15 ansys fluent计算闪退
¥15 有关wireshark抓包的问题
¥15 Ubuntu20.04无法连接GitHub
¥15 需要写计算过程，不要写代码，求解答，数据都在图上
¥15 向数据表用newid方式插入GUID问题
¥15 multisim电路设计
¥20 用keil，写代码解决两个问题，用库函数
¥50 ID中开关量采样信号通道、以及程序流程的设计
¥15 U-Mamba/nnunetv2固定随机数种子
¥30 C++行情软件的tick数据如何高效的合成K线

如何有效的在爬取网站时输入邮编？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新