爬取数据与本地数据合并问题

需求：从网上爬取的数据，如果本地没有文件，则新建文件并写入，如果本地有文件，则从爬取的数据中筛选掉已有数据，剩下更新的数据写入文件（追加更新）
问题：爬取的数据(已清洗过)与本地读取的数据合并后，相同（内容相同，格式也转化一致）的数据并没有出现both，所以导致无法筛选出更新数据，问题出在哪儿


    list_name = []
    list_date = []
    list_funds = []
    filepath = './plate.csv'
    for i in list_plate:
        headers_detail = {
            'Host': 'xxxxxxx',
            'Referer': f'https://yyyyyy.com/{i}.html',
            'User-Agent': 'xxxxxxx'
        }

        params = {
            'xx': 'xxx'
        }

        res = requests.get(url, headers=headers_detail, params=params).text
        pat_klines = '"klines":(.*?)}'
        klines = re.compile(pat_klines).findall(res)[0]
        lists = ast.literal_eval(klines)
        for j in lists:
            pat_name = '"name":"(.*?)"'
            name = re.compile(pat_name).findall(res)[0].replace(' ', '')
            list_name.append(name)
            x = j.split(',')
            date = x[0].replace(' ', '')
            list_date.append(date)
            funds_main = int(x[1].replace('.0', '').replace(' ', ''))
            list_funds.append(funds_main)

    data = {
        '板块名称': list_name,
        '日期': list_date,
        '主力资金': list_funds_main
    }

    df = pd.DataFrame(data).drop_duplicates()
    df['主力资金'] = np.array(df['主力资金']).astype(int)
    df['日期'] = np.array(df['日期']).astype(str)
    df['板块名称'] = np.array(df['板块名称']).astype(str)
    # df['日期'] = pd.to_datetime(df['日期'], format='%Y-%m-%d').dt.strftime('%Y/%m/%d')
    key_columns = ['板块名称', '日期', '主力资金']
    if not os.path.exists(filepath):
        df.to_csv(filepath, index=False, encoding='GBK')
    else:
        existing_data = pd.read_csv(filepath, encoding='GBK').drop_duplicates()
        existing_data['主力资金'] = np.array(existing_data['主力资金']).astype(int)
        existing_data['日期'] = np.array(existing_data['日期']).astype(str)
        existing_data['板块名称'] = np.array(existing_data['板块名称']).astype(str)
        new_data = pd.merge(df, existing_data, on=key_columns, how='outer', indicator=True)
        new_data = new_data[new_data['_merge'] == 'left_only']
        new_data = new_data.drop(columns='_merge', axis=1)
        print(new_data )

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-郭老师 Java领域新星创作者 2024-02-05 15:51
关注
参考通义千问和郭老师的小迷弟雅思莫了-编写提供，主要是为了帮助您快速解决问题，如下回答，您可以参考下，如有问题，评论区留言。
从您给出的代码来看，问题可能出在数据合并部分。您使用了 pd.merge 函数，并指定了 how='outer' 和 _merge 指标来筛选出仅在左侧（即新爬取的数据df）存在的行。然而，在 on=list(existing_data.columns) 这一行中，您将所有列都设置为了连接键，这会导致只有完全新的记录才会出现在结果中。

如果要筛选出爬取数据中与本地已有数据不同的更新数据，您可以尝试以下方法：

# 确保 '板块名称', '日期' 是字符串类型，并且已经排序（以便正确合并） df = df.sort_values(by=['板块名称', '日期']) existing_data = existing_data.sort_values(by=['板块名称', '日期']) # 使用 '板块名称' 和 '日期' 作为连接键 key_columns = ['板块名称', '日期'] if not os.path.exists(filepath): df.to_csv(filepath, index=False, encoding='GBK') else: # 使用 'left_only' 合并策略找出新数据 new_data = pd.merge(df, existing_data, on=key_columns, how='outer', indicator=True) new_data = new_data[new_data['_merge'] == 'left_only'].drop(columns='_merge') # 将新的或更新的数据追加到本地文件 new_data.to_csv(filepath, mode='a', header=False, index=False, encoding='GBK')

这样，new_data 中就只会包含爬取数据中未在本地文件中存在的新记录或者已存在记录的新版本（按'板块名称'和'日期'字段判断）。然后将其追加写入本地csv文件。注意这里假设df中的数据已经是清洗过且格式化一致的。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取数据存入excel中的问题 python 数据分析爬虫
2021-08-18 15:01

回答 2 已采纳不清楚你爬取的网页结构是什么？看你代码及执行结果猜测：第一页中只有一个《ul》,你取了它之下所有的《a》和《span》的内容，然后用“，”将它们连接成一个字符串，结果就是一个《ul》下的内容存为
如何将爬虫爬取的数据进行排版 python 数据挖掘爬虫
2022-02-28 22:22

回答 1 已采纳看你想怎么处理了，可以放到一行，可以放到word里，可以用Excel，你选一个，我教你另外你的代码需要看一下，要不不好改
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
基于python的春节电影信息爬取与数据可视化分析毕业设计项目.zip
2023-09-26 22:11

该项目是关于使用Python进行春节电影信息爬取及数据可视化分析的毕业设计，旨在通过实际操作提升对Python网络爬虫和数据分析的理解与应用能力。在这个项目中，学生将学习到以下关键知识点： 1. Python基础：Python...
爬取网页数据列表无法索引文本问题 python 爬虫
2018-12-11 12:34

回答 2 已采纳 ```python for item in results: print(item.text) ```
关于爬取数据后的数据检测问题 python
2021-08-08 10:27

回答 1 已采纳我在知乎上得到了@安徒生这位老师的回答，他的回答给了我很大的帮助，他非常细心地解决了我的问题，所以这个问题结题了！不再打扰大家了
爬虫爬取数据出现编码问题 python 爬虫
2021-08-10 11:17

回答 1 已采纳自行解决了只需要把这个编码换成utf-8就可以了
Python基础教程——爬取天气数据及可视化分析（附源码）
2024-08-21 17:56

小尤笔记的博客为了爬取天气数据，我们通常需要一个支持天气API的服务。免费的天气API如OpenWeatherMap是一个很好的选择。以下，我将提供一个简单的Python示例，使用requests库来从OpenWeatherMap API获取天气数据，并使用json库来...
爬取ajax数据出现的问题 javascript python 爬虫
2021-08-12 22:07

回答 1 已采纳这是字符编码不同，这个好像是8进制编码，你转成utf-8就可以了 a='你要转码的字符串'print(a.encode("utf-8")) 这样你就可以转码成utf-8编码的字符了。
爬取数据一直增加的页面 python
2020-12-29 10:53

回答 2 已采纳把所爬具体文章url存入文本，或仅存最后次url。下一次开始时先判断页面是否包含最后次url，即有存在列表中哪个位置。
selenium爬取数据异常 python selenium 爬虫
2022-05-03 21:12

回答 1 已采纳数据在哪就在哪页爬，页面不显示的一般元素没有加载，你自然取不到啊
使用Python进行网站数据爬取和视频处理
2023-08-10 14:37

亿牛云爬虫专家的博客我们可以利用requests模块爬取我们感兴趣的网站，比如新闻、视频、图片等，并保存到本地或者云端。然后，我们可以使用Python的其他库来对视频数据进行处理，比如moviepy、opencv、ffmpeg等。这些库可以让我们对视频...
python爬取软科排名,匹配不到数据 python 数据挖掘爬虫
2022-03-24 21:35

回答 1 已采纳我这里是可以正常运行的
基于python数据采集与预处理课程设计.zip
2024-03-29 15:02

Python作为一门强大的编程语言，尤其在数据科学领域，其丰富的库如BeautifulSoup、Scrapy和Pandas等使得数据采集和预处理变得高效便捷。在数据采集阶段，课程可能会涵盖以下知识点： 1. **网络爬虫基础**：介绍HTTP...
爬取NBA历史比赛数据，分析并输出结果（菠菜分析）.zip
2023-09-30 18:15

首先，我们需要理解爬虫的基本原理和Python编程语言，因为通常会使用Python来编写网络爬虫。Python中的requests库用于发送HTTP请求，BeautifulSoup或Scrapy框架用于解析HTML页面，提取所需数据。 1. **网络爬虫基础...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月5日

悬赏问题

¥100 求懂行的大ge给小di解答下！
¥15 pcl运行在qt msvc2019环境运行效率低于visual studio 2019
¥15 MAUI,Zxing扫码，华为手机没反应。可提高悬赏
¥15 python运行报错 ModuleNotFoundError: No module named 'torch'
¥100 华为手机私有App后台保活
¥15 sqlserver中加密的密码字段查询问题
¥20 有谁能看看我coe文件到底哪儿有问题吗？
¥20 我的这个coe文件到底哪儿出问题了
¥15 matlab使用自定义函数时一直报错输入参数过多
¥15 设计一个温度闭环控制系统

爬取数据与本地数据合并问题

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新