starsxi_xixi 2025-11-30 17:36 采纳率: 0%

PyCharm微博搜索结果数据爬取


import requests
import csv
import time
import re
from datetime import datetime, timedelta
import urllib3
import pandas as pd

# 禁用SSL警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

class XiaomiCarSafetyCrawler:
    def __init__(self):
        # 初始化请求头，需替换为自己的Cookie
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36',
            'Cookie': 'SCF=AkOpnqaTAgfNhJckiG6t5SgoeTg341BVJvXaT54-ua6mudRJ4pNBFP-QcEkSdpuYumtUkhvQJIdTMW1t6s745cE.; SUB=_2A25ELRlrDeRhGe9O61EQ9ifPzzSIHXVnQxSjrDV8PUNbmtANLXjNkW9NdPXGVgHgEe-abE8JLbplTzaRF-FidrHo; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9Wh.J8y_l7yKo6i-2cVy5pXr5JpX5KzhUgL.Fo.7ehepSo.0Shn2dJLoIEBLxKML1K.LB.BLxKML1K2L1-eLxK-LBKBL1K-LxKqL1KnL1-qt; ALF=02_1766913595; SINAGLOBAL=9296333081626.326.1764321612821; _s_tentry=www.weibo.com; Apache=322539749715.7223.1764480589922; ULV=1764480589924:3:3:1:322539749715.7223.1764480589922:1764414571441',  # 必须替换
            'Referer': 'https://s.weibo.com/',
            'Accept': 'application/json, text/plain, */*',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'X-Requested-With': 'XMLHttpRequest'
        }

        # 微博搜索接口
        self.search_url = 'https://s.weibo.com/ajax/searchscroll'

        # 存储所有爬取的数据
        self.all_data = []

    def format_time(self, time_str):
        """标准化发布时间格式"""
        try:
            if '刚刚' in time_str:
                return datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            elif '分钟前' in time_str:
                minutes = int(time_str.replace('分钟前', ''))
                return (datetime.now() - timedelta(minutes=minutes)).strftime('%Y-%m-%d %H:%M:%S')
            elif '小时前' in time_str:
                hours = int(time_str.replace('小时前', ''))
                return (datetime.now() - timedelta(hours=hours)).strftime('%Y-%m-%d %H:%M:%S')
            elif '昨天' in time_str:
                t = time_str.replace('昨天 ', '')
                return (datetime.now() - timedelta(days=1)).strftime('%Y-%m-%d') + ' ' + t
            elif len(time_str) == 5:  # 如 "12:30"
                return datetime.now().strftime('%Y-%m-%d') + ' ' + time_str
            elif len(time_str) == 8:  # 如 "05-10 12:30"
                return datetime.now().strftime('%Y-') + time_str
            else:
                return time_str
        except:
            return time_str

    def fetch_page(self, keyword, page):
        """获取单页数据"""
        params = {
            'q': keyword,
            'page': page,
            'cate': 'weball',
            'is_search': '1',
            'is_newpage': '1',
            'scroll_id': f'{int(time.time() * 1000)}'  # 时间戳作为scroll_id
        }

        try:
            response = requests.get(
                self.search_url,
                headers=self.headers,
                params=params,
                timeout=15,
                verify=False
            )

            # 检查响应状态
            if response.status_code != 200:
                print(f"请求失败，状态码: {response.status_code}")
                return None

            return response.json()

        except Exception as e:
            print(f"获取第{page}页数据出错: {str(e)}")
            return None

    def parse_data(self, json_data):
        """解析JSON数据，提取所需字段"""
        parsed = []

        # 提取卡片数据
        cards = json_data.get('data', {}).get('cards', [])
        for card in cards:
            mblog = card.get('mblog')
            if not mblog:
                continue

            # 提取用户信息
            user = mblog.get('user', {})

            # 清理微博内容中的HTML标签
            content = re.sub(r'<[^>]+>', '', mblog.get('text', ''))

            # 构建数据字典
            item = {
                '用户名': user.get('screen_name', '未知用户'),
                '发布时间': self.format_time(mblog.get('created_at', '')),
                '发布地点': mblog.get('region_name', ''),  # 发布地点
                '转发数': mblog.get('reposts_count', 0),
                '评论数': mblog.get('comments_count', 0),
                '点赞数': mblog.get('attitudes_count', 0),
                '内容': content.strip()
            }

            parsed.append(item)

        return parsed

    def save_to_csv(self, filename='小米汽车安全微博数据.csv'):
        """将数据保存为CSV文件"""
        if not self.all_data:
            print("没有数据可保存")
            return

        # 定义CSV表头顺序
        headers = ['用户名', '发布时间', '发布地点', '转发数', '评论数', '点赞数', '内容']

        with open(filename, 'w', encoding='utf-8-sig', newline='') as f:
            writer = csv.DictWriter(f, fieldnames=headers)
            writer.writeheader()
            writer.writerows(self.all_data)

        print(f"数据已保存至 {filename}，共 {len(self.all_data)} 条记录")

    def run(self, keyword='小米汽车安全', pages=5):
        """运行爬虫主程序"""
        print(f"开始爬取关键词: {keyword}，共 {pages} 页")

        for page in range(1, pages + 1):
            print(f"正在爬取第 {page} 页...")

            # 获取页面数据
            json_data = self.fetch_page(keyword, page)
            if not json_data:
                print(f"第 {page} 页无有效数据，停止爬取")
                break

            # 解析数据
            page_data = self.parse_data(json_data)
            if not page_data:
                print(f"第 {page} 页解析不到数据，停止爬取")
                break

            # 存储数据
            self.all_data.extend(page_data)
            print(f"第 {page} 页爬取完成，获取 {len(page_data)} 条记录")

            # 设置延迟，避免被反爬
            time.sleep(3)

        # 保存数据
        self.save_to_csv()
        return self.all_data

if __name__ == "__main__":
    # 创建爬虫实例
    crawler = XiaomiCarSafetyCrawler()

    # 运行爬虫，爬取5页数据
    # 注意：请先替换代码中的Cookie
    crawler.run(pages=5)

结果出错是为什么，给出正确代码和解决办法

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

檀越@新空间 2025-11-30 17:43

关注

下午好🌅🌅🌅
本答案参考通义千问

您提供的代码是用于爬取微博搜索结果的，但似乎在最后部分被截断了。为了帮助您完成这个项目，我将详细分析并提供完整的解决方案。

1. 问题分析

您提供的代码已经实现了以下功能：

设置请求头（含Cookie）
定义了获取单页数据的方法 fetch_page
解析JSON数据的方法 parse_data（但未完成）

但存在以下问题：

Cookie失效：微博网站对Cookie有严格限制，如果使用过期或无效的Cookie，会返回错误。
页面结构解析不完整：代码中 parse_data 方法未完成，无法提取所有需要的信息。
缺乏分页逻辑：没有实现循环爬取多页的功能。
未保存数据：缺少将爬取的数据保存为CSV或Excel文件的逻辑。

2. 解决方案

2.1 替换有效的Cookie

注意： 微博的Cookie是动态变化的，建议通过浏览器手动登录后获取最新的Cookie。

# 示例：替换为你的有效Cookie（需从浏览器开发者工具中复制）
self.headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36',
    'Cookie': 'your_valid_cookie_here',  # 替换为自己的
    'Referer': 'https://s.weibo.com/',
    'Accept': 'application/json, text/plain, */*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'X-Requested-With': 'XMLHttpRequest'
}

2.2 完善 `parse_data` 方法

以下是完整的 parse_data 方法，用于提取微博的关键信息：

def parse_data(self, json_data):
    """解析JSON数据，提取所需字段"""
    parsed = []

    cards = json_data.get('data', {}).get('cards', [])
    for card in cards:
        mblog = card.get('mblog')
        if not mblog:
            continue

        user = mblog.get('user', {})
        content = re.sub(r'<[^>]+>', '', mblog.get('text', ''))

        item = {
            '用户名': user.get('screen_name', '未知用户'),
            '发布时间': self.format_time(mblog.get('created_at', '')),
            '发布地点': mblog.get('region_name', ''),
            '内容': content,
            '转发数': mblog.get('reposts_count', 0),
            '评论数': mblog.get('comments_count', 0),
            '点赞数': mblog.get('likes_count', 0),
            '微博链接': f"https://weibo.com/{mblog.get('idstr')}" if mblog.get('idstr') else ''
        }

        parsed.append(item)

    return parsed

2.3 添加分页逻辑

在 fetch_page 中添加分页逻辑，爬取多页数据：

def crawl(self, keyword, max_pages=5):
    """爬取指定关键词的多页数据"""
    for page in range(1, max_pages + 1):
        print(f"正在爬取第 {page} 页...")
        response_json = self.fetch_page(keyword, page)
        if response_json is None:
            continue

        data = self.parse_data(response_json)
        if data:
            self.all_data.extend(data)
            print(f"已爬取 {len(data)} 条数据")
        else:
            print("未找到数据")

        time.sleep(2)  # 避免频繁请求

2.4 将数据保存为CSV文件

def save_to_csv(self, filename='weibo_search_results.csv'):
    """将爬取的数据保存为CSV文件"""
    if not self.all_data:
        print("没有数据可保存")
        return

    keys = self.all_data[0].keys()
    with open(filename, 'w', newline='', encoding='utf-8-sig') as f:
        dict_writer = csv.DictWriter(f, fieldnames=keys)
        dict_writer.writeheader()
        dict_writer.writerows(self.all_data)

    print(f"数据已保存到 {filename}")

3. 完整修改后的代码

以下是完整的、可运行的代码：

import requests
import csv
import time
import re
from datetime import datetime, timedelta
import urllib3
import pandas as pd

# 禁用SSL警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

class XiaomiCarSafetyCrawler:
    def __init__(self):
        # 初始化请求头，需替换为自己的Cookie
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36',
            'Cookie': 'your_valid_cookie_here',  # 必须替换
            'Referer': 'https://s.weibo.com/',
            'Accept': 'application/json, text/plain, */*',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'X-Requested-With': 'XMLHttpRequest'
        }

        # 微博搜索接口
        self.search_url = 'https://s.weibo.com/ajax/searchscroll'

        # 存储所有爬取的数据
        self.all_data = []

    def format_time(self, time_str):
        """标准化发布时间格式"""
        try:
            if '刚刚' in time_str:
                return datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            elif '分钟前' in time_str:
                minutes = int(time_str.replace('分钟前', ''))
                return (datetime.now() - timedelta(minutes=minutes)).strftime('%Y-%m-%d %H:%M:%S')
            elif '小时前' in time_str:
                hours = int(time_str.replace('小时前', ''))
                return (datetime.now() - timedelta(hours=hours)).strftime('%Y-%m-%d %H:%M:%S')
            elif '昨天' in time_str:
                t = time_str.replace('昨天 ', '')
                return (datetime.now() - timedelta(days=1)).strftime('%Y-%m-%d') + ' ' + t
            elif len(time_str) == 5:  # 如 "12:30"
                return datetime.now().strftime('%Y-%m-%d') + ' ' + time_str
            elif len(time_str) == 8:  # 如 "05-10 12:30"
                return datetime.now().strftime('%Y-') + time_str
            else:
                return time_str
        except:
            return time_str

    def fetch_page(self, keyword, page):
        """获取单页数据"""
        params = {
            'q': keyword,
            'page': page,
            'cate': 'weball',
            'is_search': '1',
            'is_newpage': '1',
            'scroll_id': f'{int(time.time() * 1000)}'
        }

        try:
            response = requests.get(
                self.search_url,
                headers=self.headers,
                params=params,
                timeout=15,
                verify=False
            )

            if response.status_code != 200:
                print(f"请求失败，状态码: {response.status_code}")
                return None

            return response.json()

        except Exception as e:
            print(f"获取第{page}页数据出错: {str(e)}")
            return None

    def parse_data(self, json_data):
        """解析JSON数据，提取所需字段"""
        parsed = []

        cards = json_data.get('data', {}).get('cards', [])
        for card in cards:
            mblog = card.get('mblog')
            if not mblog:
                continue

            user = mblog.get('user', {})
            content = re.sub(r'<[^>]+>', '', mblog.get('text', ''))

            item = {
                '用户名': user.get('screen_name', '未知用户'),
                '发布时间': self.format_time(mblog.get('created_at', '')),
                '发布地点': mblog.get('region_name', ''),
                '内容': content,
                '转发数': mblog.get('reposts_count', 0),
                '评论数': mblog.get('comments_count', 0),
                '点赞数': mblog.get('likes_count', 0),
                '微博链接': f"https://weibo.com/{mblog.get('idstr')}" if mblog.get('idstr') else ''
            }

            parsed.append(item)

        return parsed

    def crawl(self, keyword, max_pages=5):
        """爬取指定关键词的多页数据"""
        for page in range(1, max_pages + 1):
            print(f"正在爬取第 {page} 页...")
            response_json = self.fetch_page(keyword, page)
            if response_json is None:
                continue

            data = self.parse_data(response_json)
            if data:
                self.all_data.extend(data)
                print(f"已爬取 {len(data)} 条数据")
            else:
                print("未找到数据")

            time.sleep(2)  # 避免频繁请求

    def save_to_csv(self, filename='weibo_search_results.csv'):
        """将爬取的数据保存为CSV文件"""
        if not self.all_data:
            print("没有数据可保存")
            return

        keys = self.all_data[0].keys()
        with open(filename, 'w', newline='', encoding='utf-8-sig') as f:
            dict_writer = csv.DictWriter(f, fieldnames=keys)
            dict_writer.writeheader()
            dict_writer.writerows(self.all_data)

        print(f"数据已保存到 {filename}")

# 使用示例
if __name__ == '__main__':
    crawler = XiaomiCarSafetyCrawler()
    crawler.crawl('小米汽车', max_pages=5)
    crawler.save_to_csv()

4. 注意事项

Cookie有效性：必须使用有效的Cookie，否则无法访问微博接口。
频率控制：避免频繁请求，建议每页之间等待2~5秒。
反爬机制：微博可能有反爬虫机制，若遇到异常请尝试更换IP或使用代理。
数据存储：代码已支持保存为CSV文件，也可扩展为保存为Excel或数据库。

如需进一步优化，可以考虑添加以下功能：

使用代理IP池
异步请求（如使用 aiohttp）
数据清洗与去重
自动化定时任务

如有其他需求，请随时告诉我！

报告相同问题？

关注问题

Python指南：教你使用python爬虫爬取微博数据
2024-12-25 17:04

bug鸭陆的博客首先进入微博热搜的页面，按下F12，就会出现网页的js语言设计部分。然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制下网页的URL。Python所有方向的技术点做的整理，形成各个领域的知识...
python爬虫 -爬取html格式数据（微博热搜）
2024-04-12 13:00

牛魔王的小怪兽的博客 1. 第一步：安装requests库和BeautifulSoup库 2. 第二步：获取爬虫所需的header和cookie 3. 第三步：获取网页 4.... 5.... 6. 第六步：爬取内容，清洗数据 7. 爬取微博热搜的代码实例以及结果展示
一行代码爬取微博热搜数据，看看这个爬虫是怎么爬的
2021-09-26 18:16

简说Python的博客文章目录一、前言二、专栏概要三、直接来：爬取微博热搜数据3.1 找到数据源，页面分析3.2 一行代码爬取微博热搜3.3 爬虫初学者看这里，爬虫入门模板教程如何爬去微博热搜3.3.1 热搜标题3.3.2 热搜热度3.3.3 热搜排名...
python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...
2021-01-15 01:22

艾法的博客主题式网络爬虫名称：微博热搜榜前20信息数据爬取进行数据分析与可视化2.爬取内容与数据特征分析：爬取微博热搜榜前20热搜事件、排名与热度，数据呈一定规律排序。3.设计方案概述：思路：首先打开目标网站，运用开发...
微博数据的爬取
2018-05-25 08:31

左小慢的博客作为自然语言处理的入门级任务，获取到微博和twitter的语料资源，再进行切分等等一系列操作，才能完成简单的特征提取，谣言分析，这个数据源的获取可是花了很长时间去学习。准备工作： 1.申请开发者权限具体...
p112基于BERT模型的微博舆情数据分析可视化系统.zip
2025-04-03 10:58

②微博数据描述性统计、热词统计、舆情统计 ③微博数据分析可视化，文章分析、IP分析、评论分析、舆情分析 ④文章内容词云图适用人群：学习不同技术领域的小白或进阶学习者；可作为毕设项目、课程设计、大作业、...
python爬虫 - 爬取Ajax获取的Json格式数据（个人微博）
2024-04-26 08:30

牛魔王的小怪兽的博客 1. 第一步：安装requests库 2. 第二步：获取爬虫所需的header和cookie 3. 第三步：获取网页 4. 第四步：解析网页 5. 第五步：解析 json 结构数据体 6. 代码实例以及结果展示
python怎么爬取网页数据,python爬取网页数据步骤
2024-06-24 06:32

ab524100的博客到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！读者小狗：知道你对...
六个步骤学会使用Python爬虫爬取数据
2023-05-03 20:40

程序员派星儿的博客到此这篇关于如何用六步教会你使用Python爬虫爬取数据的文章就介绍到这了！如果你也喜欢编程，想通过学习Python转行、做副业或者提升工作效率，我也为大家整理了一份【最新全套Python学习资料】一定对你有用！如果你...
基于Python的新浪微博用户信息爬取与分析
2024-10-14 16:31

AI大模型应用之禅的博客新浪微博、用户信息爬取、Python、数据分析、网络爬虫、BeautifulSoup、requests、数据可视化 1. 背景介绍在当今信息爆炸的时代，社交媒体平台已成为人们获取信息、交流互动的重要渠道。新浪微博作为中国最大的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月30日