python爬虫数据爬取

微博签到数据爬取，请问一下各位，为什么爬取微博签到页面返回的数据是重复的，而且有时有数据有时没数据？

import requests
import json
import jsonpath
import pprint
import re
import datetime
import csv
datas=[]
for pagenum in range(2,50):
    url='https://m.weibo.cn/api/container/getIndex?containerid=1008087e040aa9cb2ec494b0a4d52c147e682c_-_lbs&lcardid=frompoi&extparam=frompoi&luicode=10000011&lfid=100103type=1&q=广州'
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    parme={'since_id': pagenum}
    response=requests.get(url=url,headers=headers,params=parme).json()
    for i in range(16):
        id =response['data']['cards'][0]['card_group'][i]['mblog']['user']['id']
        b=response['data']['cards'][0]['card_group'][i]['mblog']['created_at']
        GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
        timeArray = datetime.datetime.strptime(b, GMT_FORMAT)
        time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
        c=response['data']['cards'][0]['card_group'][i]['mblog']['text']
        d =response['data']['cards'][0]['card_group'][i]['scheme']
        if '全文' in c:
            e = re.findall(r'[^\/][\w]+(?=\?)', d)[0]
            url1 = 'https://m.weibo.cn/statuses/extend?id=' + e
            text = requests.get(url=url1, headers=headers).json()
            content = text['data']['longTextContent']
            address1 = re.findall(r'</span><span class="surl-text">(.+?)</span>', content)
        else:
            content=c
            address1=re.findall(r'</span><span class="surl-text">(.+?)</span>', c)
        datas.append(['id',id, '时间', time, '文本', content,'地点',address1])
with open("paquweiboqiandao.csv", mode='a',errors='ignore') as f:
    csvwriter = csv.writer(f)
    csvwriter.writerows(datas)
python爬虫

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2023-08-29 14:31

关注

【以下回答由 GPT 生成】

问题标题: 怎样解决爬取微博签到页面返回的重复数据和时有时无数据的问题?

问题内容: 我正在使用Python编写一个微博签到数据爬虫程序，但是在爬取微博签到页面时遇到了两个问题：1. 返回的数据出现重复；2. 有时候返回的数据有，有时候没有。请问如何解决这些问题？以下是我的爬虫代码：

import requests
import json
import jsonpath
import pprint
import re
import datetime
import csv

datas = []

for pagenum in range(2, 50):
    url = 'https://m.weibo.cn/api/container/getIndex?containerid=1008087e040aa9cb2ec494b0a4d52c147e682c_-_lbs&amp;lcardid=frompoi&amp;extparam=frompoi&amp;luicode=10000011&amp;lfid=100103type=1&amp;q=广州'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    parme = {'since_id': pagenum}
    response = requests.get(url=url, headers=headers, params=parme).json()

    for i in range(16):
        id = response['data']['cards'][0]['card_group'][i]['mblog']['user']['id']
        b = response['data']['cards'][0]['card_group'][i]['mblog']['created_at']
        GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
        timeArray = datetime.datetime.strptime(b, GMT_FORMAT)
        time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
        c = response['data']['cards'][0]['card_group'][i]['mblog']['text']
        d = response['data']['cards']

请改写以上内容并结合prevent代码，以便ChatGPT可以更好地理解和回答。

为了解决爬取微博签到页面返回重复数据和时有时无数据的问题，可以采取以下步骤：

添加一个列表 unique_ids 用于存储已经获取到的微博用户的id，以便后续判断是否重复。
使用循环遍历每个卡片数据，并在获取微博用户id前进行重复性判断。如果已经存在于 unique_ids 列表中，则跳过当前卡片数据的处理，避免重复数据。
在获取数据之前，检查返回的卡片数据是否为空。如果数据为空，说明暂时没有数据可供获取，这时可以使用 continue 跳过当前循环，继续下一个页面的爬取。
将获取到的数据存储到 datas 列表中，以便后续处理或存储。

改进后的代码示例如下：

import requests
import json
import jsonpath
import pprint
import re
import datetime
import csv

datas = []
unique_ids = []

for pagenum in range(2, 50):
    url = 'https://m.weibo.cn/api/container/getIndex?containerid=1008087e040aa9cb2ec494b0a4d52c147e682c_-_lbs&amp;lcardid=frompoi&amp;extparam=frompoi&amp;luicode=10000011&amp;lfid=100103type=1&amp;q=广州'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
    parme = {'since_id': pagenum}
    response = requests.get(url=url, headers=headers, params=parme).json()

    # 检查数据是否为空
    if not response.get('data') or not response['data'].get('cards'):
        continue

    for i in range(16):
        card = response['data']['cards'][0]['card_group'][i]['mblog']

        # 获取微博用户id，并判断是否重复
        user_id = card['user']['id']
        if user_id in unique_ids:
            continue

        b = card['created_at']
        GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
        timeArray = datetime.datetime.strptime(b, GMT_FORMAT)
        time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
        c = card['text']
        d = response['data']['cards']

        # 将数据存储到列表中
        datas.append({
            'user_id': user_id,
            'time': time,
            'text': c
        })

        # 将用户id添加到已有列表中，用于去重
        unique_ids.append(user_id)

# 打印获取到的数据
pprint.pprint(datas)

请注意，上述代码仅解决了重复数据和时有时无数据的问题，如果还有其他需要解决的问题，请提供更多细节，以便我能够更准确地帮助你。

【相关推荐】

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7762352
我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：python爬虫如何实现对大文件的爬取，以及在爬取过程中对暂停爬取，继续爬取，取消爬取等系列功能的实现！
同时，你还可以查看手册：python- 格式化字符串字面值中的内容
您还可以看一下 CSDN就业班老师的Python爬虫技术和浏览器模拟，验证码识别视频教程课程中的网络爬虫实战小节, 巩固相关知识点
除此之外, 这篇博客: Python网络爬虫数据抓取思路，静态与动态页面爬取思路，爬虫框架等中的 六、爬虫框架 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
写一个爬取国家统计局福建省人口数据的Python吗，各位了 python 有问必答
2021-11-20 07:20

回答 3 已采纳爬取的是福建省最近20年（2001-2020）的“年末常住人口（单位：万人）”的数据网站：https://data.stats.gov.cn/easyquery.htm?cn=E0103 import
selenium爬虫报错，请各位大大帮我看下是哪里问题 python 爬虫
2021-12-15 22:43

回答 1 已采纳 get_product()函数里的xpath语法全都有问题啊1、//*后面不能有div了，直接接属性及属性值了2、说实话你第一句//*div[@class="items"]/div[@class="i
Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
自己自学了Python3个月,学了基础和爬虫的基础知识，接下来不知应如何深造和发展，请专家指引名路，让我有学习的方向 python
2021-10-18 19:27

回答 6 已采纳大概的学习路线可以参考这篇文章爬虫逆向学习进阶路线_李玺-CSDN博客_爬虫进阶路线大数据时代下，爬虫技术逐渐成为一套完整的系统性工程
使用BeautifulSoup里的.text python 爬虫
2022-08-12 15:33

回答 2 已采纳 bs考虑到一个文档可能有很多个相同的标签，采用下标访问解决方法： gettitle = soup.select("#main>#main_left>.book-mulu a")[0].ge
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
python爬虫，爬取CNNNews网页的带视频的新闻
2022-03-25 14:17

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取CNNNews等网站的带视频新闻可以为我们提供大量的实时信息。在这个项目中，我们将使用Python编程语言，特别是其强大的网络爬虫库，如...
关于#BeautifulSoup#的.text的问题，请问如何解决？ python 爬虫
2022-08-11 16:59

回答 1 已采纳 soup.select("#main>#main_left>.book-mulu a")返回的是一个列表, 要加[0]访问列表的第一元素的.text另外.book-mulu 不是#main
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
xpath定位一模一样的元素，为什么selenium会报错 python selenium 爬虫
2021-12-16 20:07

回答 2 已采纳是text的问题，因为获取的内容是隐藏元素的文本，不能直接.text进行获取 from selenium import webdriver driver = webdriver.Chrome()
基于Python编程语言的水文数据爬取设计源码
2024-10-01 07:42

本项目是一款基于Python编程语言的水文数据爬取系统源码，总计包含80个文件，涵盖51个xlsx数据文件、9个pyc编译文件、7个Python源文件、5个xml配置文件、2个txt文本文件、1个gitignore忽略文件、1个iml项目文件、1个...
大佬们，可以帮我做做这张试卷吗。很快考试了。做一道也可以，给个答案就行了， python 有问必答
2021-05-29 15:36

回答 4 已采纳大部分比较基础，操作题有点费点时间。一、选择题 1、D 2、C 3、B 4、A 5、B 6、C 7、C 8、B 9、A 10、D 11、C 12、A 13、D 14、D
python爬虫爬取网页数据并解析数据
2020-09-24 10:46

Python作为一门功能强大的编程语言，提供了丰富的第三方库用于网络爬虫的开发，例如requests用于发送网络请求，BeautifulSoup用于解析HTML文档等。网络爬虫的基本概念涉及到了其功能的广义性。它可以用于搜索引擎...
Python爬虫 - 爬取新浪博客进行归档.zip
2024-02-02 11:43

总结，Python爬虫爬取新浪博客进行归档涉及的知识点包括Python基础、HTTP请求、HTML解析、数据存储以及爬虫框架的使用。掌握这些技能，你就能灵活地应对类似的数据采集任务。不过，爬虫开发应遵循法律法规，尊重网站...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月29日

悬赏问题

¥15 服务器安装php5.6版本
¥15 我想用51单片机和数码管做一个从0开始的计数表我写了一串代码但是放到单片机里面数码管只闪烁一下然后熄灭
¥20 系统工程中，状态空间模型中状态方程的应用。请猛男来完整讲一下下面所有问题
¥15 我想在WPF的Model Code中获取ViewModel Code中的一个参数
¥15 arcgis处理土地利用道路建筑林地分类
¥20 使用visual studio 工具用C++语音，调用openslsx库读取excel文件的sheet问题
¥100 寻会做云闪付tn转h5支付链接的技术
¥15 DockerSwarm跨节点无法访问问题
¥15 使用dify通过OpenAI 的API keys添加OpenAI模型时报了“Connection Error”错误
¥40 想找个软件，但我不知道怎么找到它，我甚至不知道有没有