微博热搜是爬取不了吗？

微博热搜是爬取不了吗？我检查了热搜的网页代码也没变啊，就是莫名其妙爬不了，也没有报错～


import requests
from lxml import etree
import csv
from datetime import datetime
import time
import copy


def doSth():
    try:
        # 1.目标 url。
        url = 'https://s.weibo.com/top/summary?cate=realtimehot'
        # 模拟浏览器请求头
        headers = {
            'User-Agent': "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"}

        # 2.发送请求
        data = requests.get(url, headers=headers).text
        # 转换
        html = etree.HTML(data)

        # 3.解析数据         xpath 取出来的数据是一个列表。
        # 排名
        rank = html.xpath('//td[@class="td-01 ranktop"]/text()')
        # 事件
        affair = html.xpath('//td[@class="td-02"]/a/text()')
        affair.pop(0)  # 忽略微博热搜的置顶推荐内容。   # .pop(n) :删除列表第 n+1 个元素。
        # 热度
        view = html.xpath('//td[@class="td-02"]/span/text()')

        # 链接
        link = html.xpath('//td/a/@href')
        link_try = html.xpath('//td/a/@href_to')
        link.pop(0)
        # 处理链接数据（因为链接的 html 位置可能存在不同的地方，所以做了以下判断）
        index = 0
        for i, sku in enumerate(link):  # 这里的 i 和 sku 是什么？这里的 i 和最后保存时最后的代码里的 i 一样吗？
            if sku == "javascript:void(0);":
                link[i] = link_try[index]
                index += 1

        # 4.保存数据为 csv。
        date = datetime.now().strftime('%Y-%m-%d %H-%M-%S')

        # 删除没有热度的热搜（隐藏的热搜）
        rank_new = copy.deepcopy(rank)
        for r in range(len(rank_new)):
            if not rank_new[r].isdigit():
                rank.remove(rank_new[r])
                del affair[r]
                del link[r]

        with open('./' + date + '.csv', 'w', newline='', encoding='utf-8-sig')as f:
            writer = csv.writer(f)
            writer.writerow(['排名', '事件', '热度', '链接'])
            for i, rank in enumerate(rank):
                writer.writerow([rank, affair[i], view[i], 'https://s.weibo.com' + link[i]])
        # 5.睡眠120秒。
        time.sleep(120)
    except:
        print(time.strftime("%Y-%m-%d %X"))
        print("requests speed so high,need sleep!")
        time.sleep(10)
        print("continue...")


while True:
    doSth()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
RE_ABANDON 2021-09-27 15:14
关注
你调试看下返回的html，内容不对，自然xpath获取不到东西了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

微博热搜数据爬取与分析
2024-07-12 18:11

- **数据爬取**：利用Python编程语言和相关的网络爬虫库（如Scrapy、Requests等），编写脚本自动抓取微博热搜榜的数据。 - **数据清洗**：对爬取到的数据进行预处理，去除无效或重复的信息，确保数据质量。 - **数据...
Python微博热搜榜信息爬取项目.zip
2020-06-03 09:48

在微博热搜爬取项目中，你需要学会如何构造合适的URL以访问微博热搜榜单页面，然后解析网页结构，定位到热搜关键词及其相关信息（如热度、排名等）。在数据解析方面，BeautifulSoup库允许通过CSS选择器或XPath...
Python实战：微博热搜数据爬取与可视化分析（含源码）
2025-10-03 14:59

兔师傅的博客微博热搜数据爬取与可视化分析项目摘要本项目基于Python技术栈开发了一套微博热搜数据采集与可视化系统，包含数据爬取、存储和可视化三大功能模块。通过requests库调用微博API获取JSON格式热搜数据，使用pandas进行...
微博热搜爬取生成词云.rar
2021-05-13 10:32

在本项目中，“微博热搜爬取生成词云.rar”是一个包含Python代码的压缩包，用于爬取微博的热搜数据并生成词云图。这个过程涉及到了几个关键的IT知识点，让我们逐一深入探讨。首先，我们要了解的是“爬虫”技术。...
Python爬虫实战之爬取微博热搜
2024-04-24 10:31

会AIGC的小孩的博客总之，使用Python爬取微博热搜榜单是一种获取有价值信息的方法。在实际应用中，我们需要根据具体情况选择合适的爬虫方法，并遵守相关法律法规和网站的使用规定。希望本文对你理解和使用Python爬取微博热搜榜单有所...
抓取_爬取微博热搜_
2021-10-03 00:06

从标题"抓取_爬取微博热搜_"和描述"每隔十分钟抓取微博热搜榜，抓取时间为12个小时"中，我们可以提取出以下几个关键知识点： 1. **网络爬虫**：网络爬虫是通过模拟浏览器行为，自动遍历网页并提取所需信息的程序。...
Python 爬虫项目实战（二）：爬取微博热搜榜
2024-08-02 17:01

苒汐在想你ᵃ的博客 robots.txt大多数网站都有一个robots.txt文件，规定了哪些页面允许被爬取，哪些不允许。爬虫应当尊重这些规则。通过以上方法和原则，可以编写高效、可靠且合规的网络爬虫来满足数据采集的需求。
Python网络爬虫，爬取微博热搜！
2024-06-22 15:31

Python_trys的博客从网页代码中可以获取到信息(1)热搜的名字都在的子节点里(2)热搜的排名都在的里(注意置顶微博是没有排名的！(3)热搜的访问量都在的子节点里(1)先设置url地址，然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序...
【经典爬虫案例】用Python爬取微博热搜榜！
2024-06-17 10:42

雅雅酱o的博客【经典爬虫案例】用Python爬取微博热搜榜！
想爬取微博热搜，Python告诉你该这么做！
2024-09-14 16:56

喝汽水么的博客我记得，微博热搜类别，是有个"爆"的，就是热度最高的那种，突然蹿升的最热的热点，爆炸性的。经过分析，此页面没有XHR链接通过，也就是说，没有采用AJAX异步技术。页面其他元素，热搜标题、排名、热度、类别等获取...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 9月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月26日

微博热搜是爬取不了吗？

1条回答 默认 最新

问题事件

1条回答默认最新