Python爬取微博话题博文，保存为TXT格式

利用Python，爬取微博上有关某个话题的博文，例如#凉拌黄瓜#，最后将每一条博文内容的结果单独保存为一个txt格式。

回答之前请确保能跑起来，不要给我gpt写的死代码。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

一位热心程序猿 2023-08-31 11:32

关注

来了

from selenium import webdriver
import time
import os

# 初始化 Chrome 浏览器
driver = webdriver.Chrome()

# 打开微博页面，此处以某个话题页为例
weibo_url = "https://s.weibo.com/weibo?q=%2305%E5%90%8E%E5%B7%B2%E7%BB%8F%E8%BF%9B%E5%8C%96%E5%88%B0%E8%BF%99%E7%A7%8D%E7%A8%8B%E5%BA%A6%E4%BA%86%E5%90%97%23"
driver.get(weibo_url)

# 等待页面加载完成
time.sleep(5)

# 解析页面内容
page_source = driver.page_source

# 使用 Beautiful Soup 解析页面内容
from bs4 import BeautifulSoup
soup = BeautifulSoup(page_source, "html.parser")

# 查找博文内容
posts = soup.find_all("p", class_="txt")

# 设置保存目录
save_dir = "/Users/xx/Downloads/weibo_results/"

# 创建保存目录
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 逐条保存博文内容为 txt 文件
for i, post in enumerate(posts):
    post_text = post.get_text(strip=True)
    file_path = os.path.join(save_dir, f"weibo_{i + 1}.txt")

    with open(file_path, "w", encoding="utf-8") as file:
        file.write(post_text)

    print(f"保存第{i + 1}条微博至 {file_path}")

# 关闭浏览器
driver.quit()

print("爬取和保存完成！")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
【Python实战】批量爬取微博素材，一分钟百张大图自动下载
2020-06-30 13:32

Samaritan·J的博客目录前言一、思考逻辑二、观察URL三、微博爬虫四、下载保存结尾前言大家好，我是Samaritan。这期本来想做个咸鱼写个学习笔记发的，然后没做成咸鱼临时变卦，再写一期实战。事情是这样子的，这周我的好友Brenda...
python 批量爬取图片并保存到本地文件夹中不成功 python 有问必答
2021-06-29 15:43

回答 2 已采纳你的temp只是一个字符串，应该是一个url，你还没发送请求，用requests发送一下请求
请问如何根据微博的定位批量爬取图片 python 新浪微博有问必答
2021-06-24 10:34

回答 2 已采纳你要知道你要的是什么图片，整个微博这么多图片有很多种爬取方式，比如某个人博主的发布过的图片，或者热门话题的图片等等，要知道需求才能知道怎样做
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python爬取某人所有微博_Python爬取博客的所有文章并存为带目录的word文档(实例67)
2020-11-20 00:11

weixin_39784195的博客整理一下步骤：先获取到所有文章的标题、发表日期、链接通过链接获取文章的内容将文章标题作为“1级”，发表日期和内容作为正文写入word文件保存wrod文件下面就按照以上步骤进行操作。先进入到目标博客的主页，点击...
Python爬取到某url的text，格式为如下，如何读取？ python
2020-09-10 16:53

回答 1 已采纳可以拼接下，得到一个json就能解析了 {arr:[{"姓名":"张三","身高":"156"},{"姓名":"李四","身高":"176","体重":"94"}]}
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页
2020-03-30 21:39

小小小小U的博客简单爬取微博评论的详细解析，学习爬取ajax异步数据交换动态网页 1.什么是ajax异步数据交换网页简单来说，就像微博评论一样，你获取新的内容不需要翻页，一直在固定的一个网页不断往下拉就行，手机端和电脑端都是...
Python爬虫爬取新浪微博使用requests做网页下载器部分 python 新浪微博爬虫
2017-01-31 09:25

回答 1 已采纳 http://download.csdn.net/detail/eastmount/9501273
python爬取文章标题和内容并保存为word_Python爬取博客的所有文章并存为带目录的word文档(实例67)...
2020-12-17 02:01

weixin_39741459的博客整理一下步骤：先获取到所有文章的标题、发表日期、链接通过链接获取文章的内容将文章标题作为“1级”，发表日期和内容作为正文写入word文件保存wrod文件下面就按照以上步骤进行操作。先进入到目标博客的主页，点击...
Python网络爬虫---chrome driver爬取微博（教你十分钟几十行代码利用虚拟浏览爬取财宝宝微博长文）...
2019-04-17 08:43

「已注销」的博客 0.学习路径示意图各位小伙伴大家好，这次博主分享的是利用虚拟浏览器ChromeDriver去爬取微博大V--财宝宝的微博长文。1.ChromeDriver简介...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月30日

悬赏问题

¥15 CSS通配符清除内外边距为什么可以覆盖默认样式？
¥15 SPSS分类模型实训题步骤
¥15 求解决扩散模型代码问题
¥15 工创大赛太阳能电动车项目零基础要学什么
¥20 limma多组间分析最终p值只有一个
¥15 nopCommerce开发问题
¥15 torch.multiprocessing.spawn.ProcessExitedException: process 1 terminated with signal SIGKILL
¥15 QuartusⅡ15.0编译项目后，output_files中的.jdi、.sld、.sof不更新怎么解决
¥15 pycharm输出和导师的一样，但是标红
¥15 想问问富文本拿到的html怎么转成docx的

Python爬取微博话题博文，保存为TXT格式

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新