Python爬取微博话题全部内容

代码还存在缺陷，无法获取全部的话题内容，爬取结果只有10条，请帮忙修改完善一下。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
import time
import os

chrome_driver_path = "F:\死磕\stance分析\chromedriver.exe"
driver = webdriver.Chrome(executable_path=chrome_driver_path)

weibo_url = "https://s.weibo.com/weibo?q=%23chatgpt%23"
driver.get(weibo_url)

# 等待登录按钮加载出来
wait = WebDriverWait(driver, 10)
login_button = wait.until(EC.element_to_be_clickable((By.XPATH, "//a[text()='登录']")))

# 点击登录按钮
login_button.click()

# 等待登录完成
time.sleep(10)  # 假设需要等待10秒钟登录完成，你可以根据实际情况调整等待时间

# 切回主页面
driver.switch_to.default_content()

# 模拟滚动加载内容
scroll_pause_time = 2.0
scroll_limit = 20  # 假设滚动20次

scrolls = 0
while scrolls < scroll_limit:
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(scroll_pause_time)
    scrolls += 1

# 解析页面内容
page_source = driver.page_source

# 使用 Beautiful Soup 解析页面内容
from bs4 import BeautifulSoup

soup = BeautifulSoup(page_source, "html.parser")

# 查找博文内容
posts = soup.find_all("p", class_="txt")

# 设置保存目录
save_dir = "F:\死磕\stance分析\结果"

# 创建保存目录
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 逐条保存博文内容为 txt 文件
for i, post in enumerate(posts):
    post_text = post.get_text(strip=True)
    file_path = os.path.join(save_dir, f"weibo_{i + 1}.txt")

    with open(file_path, "w", encoding="utf-8") as file:
        file.write(post_text)

    print(f"保存第{i + 1}条微博至 {file_path}")

# 关闭浏览器
driver.quit()

print("爬取和保存完成！")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大师兄6668 Python领域新星创作者 2023-08-31 20:44
关注
看了一下你的代码，你模拟出来的是PC端的网页，是点击下一页来翻页的，你滚动翻页根本不起作用。
所以，你直接找到那个下一页的按钮，爬完当前页面后，点击一下下一页，然后继续爬，就可以了。

不过我观察了一下，我发现这个页面的url是可以直接增加页数参数的，所以不用找那个按钮也行，你就直接

for p in range(1,50): weibo_url = "https://s.weibo.com/weibo?q=%23chatgpt%23&page="+str(p) driver.get(weibo_url) #这里按照原来的逻辑处理爬取即可。

这样访问，然后在每个页面中按照你的逻辑直接爬取应该就可以了。你试试。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
请问如何根据微博的定位批量爬取图片 python 新浪微博有问必答
2021-06-24 10:34

回答 2 已采纳你要知道你要的是什么图片，整个微博这么多图片有很多种爬取方式，比如某个人博主的发布过的图片，或者热门话题的图片等等，要知道需求才能知道怎样做
python爬取相同div中的内容 python 有问必答
2022-10-19 21:14

回答 2 已采纳 from pyquery import PyQuery as pq import requests import csv url='https://item.kongfz.com/Cxiaosh
新浪微博爬虫，用python爬取新浪微博数据.zip
2024-02-03 20:43

【描述】：“此项目是关于如何使用Python编程语言构建一个爬虫，以抓取并分析新浪微博上的数据。爬虫技术在大数据时代对于获取社交媒体信息、进行网络数据分析具有重要意义。通过这个项目，你可以学习到如何利用...
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python 爬取网站的内容并存文件（有偿） python
2022-07-06 12:00

回答 4 已采纳发我邮箱，email联系
爬虫 | Python爬取微博实时热搜榜信息
2023-12-21 11:58

程序员晓晓的博客 Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，...
python爬取的内容想添加到代码里面 python
2022-01-07 14:44

回答 6 已采纳 Python有两个相关的东西，一个叫eval，一个叫exec。它们可以实现执行字符串中的代码（不同的是eval不支持复杂代码）。不够是吧？对不起，我们还有一个叫runfile的东西。Debugger
python爬取网页论坛写入csv 没有内容 python
2021-12-17 22:50

回答 1 已采纳先看看你爬到啥内容了。
新浪微博热门话题（Python） python 有问必答
2021-06-22 10:20

回答 1 已采纳 import re a = int(input('输入微博数量（小于等于105的正整数）：')) b = [] c = [] while len(b)<a: x = input('请
python爬虫爬取微博评论案例详解
2020-03-03 21:59

程序员浩然的博客这篇文章主要介绍了python爬虫爬取微博评论，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧前几天，杨超越编程大赛火了，大家都在报名...
怎么样用Python爬取数据 python
2022-10-12 10:57

回答 2 已采纳爬取代码如下，如有帮助请点击一下采纳谢谢： import requests headers = { "authority": "pythonscraping.com", "acc
新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip
2023-08-24 19:11

【标题】：“新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频” 【描述】中的知识点： 1. **Python爬虫技术**：该项目使用Python编程语言编写爬虫程序，Python因其丰富的库支持（如requests、...
769123305675568爬取微博数据.rar
2022-11-21 16:41

Python作为一门强大的编程语言，因其简洁的语法和丰富的库资源，成为爬虫开发的首选。在Python中，我们通常会用到如requests库来发送HTTP请求，BeautifulSoup或PyQuery用于解析HTML结构，以及可能需要用到的tqdm库来...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 8月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月31日

悬赏问题

¥15 CSS通配符清除内外边距为什么可以覆盖默认样式？
¥15 SPSS分类模型实训题步骤
¥15 求解决扩散模型代码问题
¥15 工创大赛太阳能电动车项目零基础要学什么
¥20 limma多组间分析最终p值只有一个
¥15 nopCommerce开发问题
¥15 torch.multiprocessing.spawn.ProcessExitedException: process 1 terminated with signal SIGKILL
¥15 QuartusⅡ15.0编译项目后，output_files中的.jdi、.sld、.sof不更新怎么解决
¥15 pycharm输出和导师的一样，但是标红
¥15 想问问富文本拿到的html怎么转成docx的

Python爬取微博话题全部内容

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新