爬取到的名字价格时间等数据在cvs中不匹配

问题遇到的现象和发生背景

如何把爬取到的名字,价格，时间等数据配对存入cvs文件（爬取时使用multithreading和selenium webdriver）

代码示例


urlList = [ ........  ]#省略200个url
data = read_csv("C:\\Users\\12987\\desktop\\zipcode\\zc.csv")
# converting column data to list
zipCodeList = data['Zipcode'].tolist()

while(True):
    priceArray = []
    nameArray = []
    zipCodeArray =[]
    GMTArray = []
    TCIN = []
    UPC = []

    def ScrapingTarget(url):
        wait_imp = 10
        CO = webdriver.ChromeOptions()
        CO.add_experimental_option('useAutomationExtension', False)
        CO.add_argument('--ignore-certificate-errors')
        CO.add_argument('--start-maximized')
        wd = webdriver.Chrome(r'D:\chromedriver\chromedriver_win32new\chromedriver_win32 (2)\chromedriver.exe',options=CO)
        wd.get(url)
        wd.implicitly_wait(wait_imp)

        for zipcode in zipCodeList:
            # click the My Store
            myStore = wd.find_element(by=By.XPATH, value="//*[@id='web-store-id-msg-btn']/div[2]/div")
            myStore.click()
            sleep(0.5)

            #input ZipCode
            inputZipCode = wd.find_element(by=By.XPATH, value="//*[@id='zip-or-city-state']")
            inputZipCode.clear()
            inputZipCode.send_keys(zipcode)

            #click lookup
            clickLoopUP = wd.find_element(by=By.XPATH, value="//*[@id='overlay-1']/div[2]/div[1]/div/div[3]/div[2]/button")
            clickLoopUP.click()
            sleep(0.5)

            #choose Store
            store = wd.find_element(by=By.XPATH, value="//*[@id='overlay-1']/div[2]/div[3]/div[2]/div[1]/button")
            store.click()

            #start scraping
            name = wd.find_element(by=By.XPATH, value="//*[@id='pageBodyContainer']/div[1]/div[1]/h1/span").text
            nameArray.append(name)

            price = wd.find_element(by=By.XPATH, value="//*[@id='pageBodyContainer']/div[1]/div[2]/div[2]/div/div[1]/div[1]/span").text
            priceArray.append(price)

            currentZipCode = zipcode
            zipCodeArray.append(currentZipCode)

            tz = pytz.timezone('Europe/London')
            GMT = datetime.now(tz).strftime("%Y-%m-%d %H:%M:%S")
            GMTArray.append(GMT)

            # needed to click onto the "Show more" to get the tcin and upc
            xpath = '//*[@id="tabContent-tab-Details"]/div/button'
            element_present = EC.presence_of_element_located((By.XPATH, xpath))
            WebDriverWait(wd, 5).until(element_present)
            showMore = wd.find_element(by=By.XPATH, value=xpath)
            sleep(2)
            showMore.click()
            soup = BeautifulSoup(wd.page_source, 'html.parser')
            # gets a list of all elements under "Specifications"
            div = soup.find("div", {"class": "styles__StyledCol-sc-ct8kx6-0 iKGdHS h-padding-h-tight"})
            list = div.find_all("div")
            for a in range(len(list)):
                list[a] = list[a].text
            # locates the elements in the list
            tcin = [v for v in list if v.startswith("TCIN")]
            upc = [v for v in list if v.startswith("UPC")]
            TCIN.append(tcin)
            UPC.append(upc)
            #scroll up
            #wd.find_element_by_tag_name('body').send_keys(Keys.CONTROL + Keys.HOME)
            wd.find_element(by=By.TAG_NAME, value='body').send_keys(Keys.CONTROL + Keys.HOME)

    with concurrent.futures.ThreadPoolExecutor(10) as executor:
         executor.map(ScrapingTarget, urlList)

    data = {'prod-name': nameArray,
            'Price': priceArray,
            'currentZipCode': zipCodeArray,
            "Tcin": TCIN,
            "UPC":UPC,
            "GMT": GMTArray
            }
    #df = pd.DataFrame(data, columns= ['prod-name', 'Price','currentZipCode',"Tcin","UPC","GMT"])
    df = pd.DataFrame.from_dict(data, orient='index')
    df = df.transpose()
    df.to_csv(r'C:\Users\12987\PycharmProjects\python\Network\priceingAlgoriCoding\export_Target_dataframe.csv', mode='a', index = False, header=True)
    sleep(1800)

运行结果及报错内容

代码会爬取Target网站200个相关产品的名字，价格等信息然后不断输入新的zipcode再爬取新的价格信息。代码可以顺利运行但当我试着把他们存入csv文件后发现产品价格名字等信息不配对（产品6的价格会匹配产品1的名字）。

| 名字| 价格 | 时间 | 产品id |
| 产品1 | 价格2 | 时间1 | 产品3id|
| 产品3 | 价格1 | 时间3 | 产品2id|
| 产品2 | 价格3 | 时间2 | 产品1id |

我怀疑是因为使用multithreading和webdriver时打开网页时加载的速度不一样，导致程序先爬取加载好的页面信息，因而爬取的产品信息输入到array中时顺序出现了错误。

我想要达到的结果

爬取的名字价格等信息在csv表格中能配对

| 名字| 价格 | 时间 | 产品id |
| 产品1 | 价格1 | 时间1 | 产品1 id|
| 产品2 | 价格2 | 时间2 | 产品2 id|
| 产品3 | 价格3 | 时间3| 产品3 id |

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一切因为有你 2022-05-28 12:15
关注
你的代码设计的就不合理啊，你这个改动最小的应该就是 priceArray.append(price) 改成 priceArray.append([url,price]) 标记这个价格是哪个url 的，其他几个字段类似，最后在关联处理

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取到的名字价格时间等数据在cvs中不匹配 python selenium 爬虫
2022-05-28 07:46

回答 1 已采纳你的代码设计的就不合理啊，你这个改动最小的应该就是 priceArray.append(price) 改成 priceArray.append([url,price]) 标记这个价格是哪个url 的，
Python写入cvs数字时显示不正常 python 开发语言
2021-06-22 11:36

回答 1 已采纳你说的是学号嘛，这是表格的格式，是可以在表格里面设置的哦
用python读取cvs指定几个位置的前后组数据到all.cvs 列排成行 python
2022-01-25 20:24

回答 1 已采纳 import pandas as pd # 保存的文件名称 save_name = 'all.csv' root = r'C:\Users\Lenovo\Desktop' # 保存的路径 file_
python爬虫爬取豆瓣电影排行榜，并写进csv文件，可视化数据分析
2021-12-29 09:33

Emilyzhai的博客 1、爬取内容，写进csv文件 import requests import re import csv #豆瓣电影排行榜，写进csv文件 url = "https://movie.douban.com/top250?start=25"#start确定每次起始位置，每次取25个 headers = { "user-agent...
用python读取多个csv表指定数据写入一个表中 python 有问必答
2022-01-24 01:28

回答 8 已采纳 import pandas as pd import glob import os # 获取当前路径 cwd = os.getcwd() # 要拼接的文件夹及其完整路径，注不要包含中文 ## 待读
从cvs文件中读取某时间段的数据时出现:TypeError: 'module' object is not subscriptable python 有问必答
2022-02-17 18:08

回答 3 已采纳你pd 是什么对象?pd 应该是 pandas 模块的别名吧, 你应该改成 df_paixu 吧 con1=df_paixu['gpstime']>=open_timecon2=df_paixu
通过匹配两个数据集来获得用户满意度。该如何下手 python 数据分析有问必答
2022-03-03 04:44

回答 2 已采纳那你应该让学生给36个教授分别打分，然后直接用教授名字替换成分数就行了你这样排序是完全不靠谱的有可能排序第一的教授是100分，排序第二的是99分，也有可能排序第一的是60分，排序第二的是4分而且你只让
python爬取阿里cve漏洞库信息
2021-08-28 09:30

^找猪的男孩^的博客但是用的正则匹配（re库，python内置），正则虽说在写匹配样式时比较繁琐但是精确匹配还是得用它，只爬取第1页信息，没有使用多线程或者异步进程，更没有选择将数据持久化到数据库。还是懒，后面会把爬取全部页面的...
python生成两组随机数并写入csv中，该怎么把这些数组生成列表然后让他变成表格啊 python
2022-04-12 16:00

回答 1 已采纳 import csv import random temp = list(range(1, 501)) random.shuffle(temp) r1 = [temp[i*100:(i+1)
指定替换cvs表格某行数据 python
2021-06-22 11:04

回答 1 已采纳建议如下：如有帮助，请采纳一下，谢谢 replaced = row[0].replace('word','changed word') # I want to replace in first c
请问如何用python将csv文件中的一列13位时间戳转换为“年月日时分秒”？ python 有问必答
2021-03-27 22:33

回答 3 已采纳使用pandas和datetime，首先从csv中读取数据，获得一个数据框，然后对日期列进行转换。示例： import pandas as pd from datetime import dat
搜索关键字爬取前程无忧职位信息，保存至csv文件，并进行数据清洗，可视化（数据清洗+可视化篇）
2020-06-02 17:47

me_1984的博客搜索关键字爬取前程无忧职位信息，保存至csv文件，并进行数据清洗，可视化（数据清洗+可视化篇）一、数据清洗+可视化篇1.代码部分（pandas+pyecharts）2.可视化结果一、数据清洗+可视化篇 1.代码部分（pandas+...
用桌面上csv数据表中的偶行数、奇数列的数据 python
2022-04-20 16:57

回答 2 已采纳望采纳！谢谢 i = 1 j = 1 with open('data.txt', 'r') as f: for one_data in f.readlines(): if i
Python框架爬虫——Scrapy爬取当当网选定店铺的全部信息。保存至本地(csv、MongoDB )
2020-02-25 19:05

Demonslzh6的博客文章目录一、创建项目二、爬取子页面链接三、设置每本书要爬取的Item(Items.py)四、爬虫解析页面(spider.py)五、将爬取内存保存至本地(piplines.py)1、保存数据到MongoDB2、保存到csv六、查看、清洗数据，开始数据...
案例逐步演示python利用正则表达式提取指定内容并输出到csv
2022-03-15 14:24

Sicilly_琬姗的博客先复制一部分数据到str中，方便测试。编写正则表达式用到了re模块，因为每个人要处理的文本是不一样的，所以需要自己去学习基本的使用方法。re具体使用方法可以参考这篇文章： https://zhuanlan.zhihu.com/
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月28日

悬赏问题

¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。
¥20 CST怎么把天线放在座椅环境中并仿真
¥15 任务A：大数据平台搭建（容器环境）怎么做呢？