我想爬取历史微博热搜，我需要把下面的代码（网上找的代码，自己改不动了）跑起来


from datetime import datetime,timedelta
import re
import requests
import xlwt
cookie ='Hm_lvt_eafafe9dd9041f948d8897cb295170d5=1627023856,1627027237; Hm_lpvt_eafafe9dd9041f948d8897cb295170d5=1627028614'
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',"Cookie":cookie}
def gen_dates(b_date, days):
    day = timedelta(days=1)
    for i in range(days):
        yield b_date + day*i
def get_date_list():
    #这里自己设置时间
    start = datetime.strptime("2021-7-20", "%Y-%m-%d").date()
    #.date()可以只截取日期
    end = datetime.strptime("2021-7-23", "%Y-%m-%d").date()
    datelist = []
    for d in gen_dates(start, (end-start).days):
        datelist.append(d)
    return datelist
#获取数据的文字部分（热搜词条）和时间（我只需要这两个）
def GetMiddleStr(final_set,content,time):
    try:
        print(re.match(content,'topic'))
        wenzi = re.match(content,'topic')
        url = re.match(content,'date')
        #final_set.add((url,wenzi,time))
    except:
        return 0
def export(result_set,date_str):
    excel = xlwt.Workbook(encoding="utf-8")
    sheet = excel.add_sheet("sheet1")
    sheet.write(0, 0, "热搜")
    sheet.write(0, 1, "时间")

    ex = 'D:/360/'+'Test.xls'
    i = 0
    for t in result_set:
        sheet.write(i + 1, 0, t[0])
        sheet.write(i + 1, 1, t[1])
        i += 1
    excel.save(ex)
def main():
    final_set = set()
    url = 'https://weibo.zhaoyizhe.com/'
    for i in range(len(get_date_list())):
        date_str = str(get_date_list()[i].year)+'-'+str(get_date_list()[i].month)+'-'+str(get_date_list()[i].day)
        print(url)
        data = {
        'date' : date_str
        }
        r = requests.post(url,data=data,headers=headers)
        result = r.content.decode('utf-8')
        print(result)
        result = result.split('},{')
        result[0] = result[0].strip('[{')
        for j in range(len(result)):
            GetMiddleStr(final_set,result[j],date_str)
        export(final_set,date_str)
        final_set = set()
        
if __name__ =="__main__":
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
忍气吞声埋头苦干 2021-07-24 01:33
关注
import requests
headers={
'Host':'google-api.zhaoyizhe.com',
'Connection':'keep-alive',
'Pragma':'no-cache',
'Cache-Control':'no-cache',
'Accept':'application/json, text/plain, /',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
'Origin':'https://weibo.zhaoyizhe.com',
'Sec-Fetch-Site':'same-site',
'Sec-Fetch-Mode':'cors',
'Sec-Fetch-Dest':'empty',
'Referer':'https://weibo.zhaoyizhe.com/',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9',
}
resp = requests.get('https://google-api.zhaoyizhe.com/google-api/index/mon/list',headers=headers)
print(resp.text)
再试试

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

微博热搜是爬取不了吗？ python 爬虫
2021-09-26 17:31

回答 1 已采纳你调试看下返回的html，内容不对，自然xpath获取不到东西了
python爬虫问题，在网页代码找不到自己想要的数据 python 爬虫
2022-02-24 11:15

回答 2 已采纳那个网站啊.你看下是不是写在接口中.F12开发者模式.选择XHR看下
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
一行代码爬取微博热搜数据，看看这个爬虫是怎么爬的
2021-09-26 18:16

简说Python的博客文章目录一、前言二、专栏概要三、直接来：爬取微博热搜数据3.1 找到数据源，页面分析3.2 一行代码爬取微博热搜3.3 爬虫初学者看这里，爬虫入门模板教程如何爬去微博热搜3.3.1 热搜标题3.3.2 热搜热度3.3.3 热搜排名...
python爬取的内容想添加到代码里面 python
2022-01-07 14:44

回答 6 已采纳 Python有两个相关的东西，一个叫eval，一个叫exec。它们可以实现执行字符串中的代码（不同的是eval不支持复杂代码）。不够是吧？对不起，我们还有一个叫runfile的东西。Debugger
python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
python爬微博热榜 python
2021-12-28 21:22

回答 1 已采纳用selenium是最简单的
Python 网络爬虫与数据采集（一）
2022-01-30 21:28

秃顶的博客 Python 网络爬虫与数据采集第1章序章网络爬虫基础1 爬虫基本概述1.1 爬虫是什么1.2 爬虫可以做什么1.3 爬虫的分类1.4 爬虫的基本流程1.4.1 浏览网页的流程1.4.2 爬虫的基本流程1.5 爬虫与反爬虫1.5.1 爬虫的攻与防...
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
为什么我python爬虫代码爬百度可以爬bilibili不行 python 有问必答
2021-07-24 14:01

回答 3 已采纳 bilibili加了反扒，你代码没加请求头user-agent，禁止访问了。有帮助麻烦点个采纳【本回答右上角】，谢谢~~ 改成下面的就行 from urllib.request import url
Python爬虫爬取新浪微博使用requests做网页下载器部分 python 新浪微博爬虫
2017-01-31 09:25

回答 1 已采纳 http://download.csdn.net/detail/eastmount/9501273
Python爬虫有什么用，网友纷纷给出自己的答案，爬虫能做的还是很多的
2021-11-29 16:40

Java进阶营菌的博客之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。 @陈乐群 ...
VScode中Python代码不高亮显示？？ python vscode 有问必答
2022-04-10 22:05

回答 2 已采纳安装这两个插件然后设置颜色主题或者你也可以安装其它你喜欢的然后颜色主题插件
python爬虫可以爬哪些网站-网络爬虫都能干什么？有哪些网站的数据可以爬取？...
2020-11-11 14:39

weixin_39790102的博客 1、网络爬虫都能干什么@冰蓝之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的...
【项目记录】雪球网股票组合数据爬虫（包括雪球模拟登录代码）
2018-09-20 15:44

囚生CY的博客室友上半年跟了一个做机器学习方向的导师做股票投资组合的项目，暑假...这里分享一下我在爬取雪球网数据时遇到的问题，一方面是对自己项目的一个小结，另一方面给其他需要爬取雪球网数据的小伙伴们提供一些参考，也...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月23日

悬赏问题

¥15 微信会员卡接入微信支付商户号收款
¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向
¥15 如何用python向钉钉机器人发送可以放大的图片？

我想爬取历史微博热搜，我需要把下面的代码（网上找的代码，自己改不动了）跑起来

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新