requests模块使用笔记

在使用requests爬网页信息时，没有报错，但是结果只显示“[]” 问题遇到的现象和发生背景

# coding=utf-8
import requests
import re
import pandas as pd
import xlwt

url='https://movie.douban.com/top250'
# 定义抓取函数--df.content
def get_content(url):
    # 过滤无效信息
    header ={
        'User-Agent':'Mozilla5.0 (Windows NT 10.0; Win64; x64) AppleWebKit537.36 (KHTML, like Gecko) Chrome103.0.0.0 Safari537.36'
    }
    # 使用get方法获取网页响应信息
    df=requests.get(url,headers=header)
    # 展示响应信息全部内容
    return df.content
    print(df.content)

get_content(url)
# 固定定义获取函数--reslut
def get_text(url):
    da = get_content(url)
    # 使用正则表达式来提取信息
    zz='''class=
                            span class=title>(.*)<span'''
    compile = re.compile(zz)
    # 使用正则在响应内容中匹配信息
    result=re.findall(compile,str(da))  #要注意findall的时候要把要匹配的原内容格式调为str（）#
    return result
# 填入要抓取的网页响应内容
print(get_text(url))
names=get_text(url)
for name in names:
    print(names)
    # 现在显示的结果是【】！！！
# 保存到Excel
count = 0
workbook = xlwt.Workbook()
sheet = workbook.add_sheet(sheetname="汇总表")
for each in range(0, 100):
    sheet.write(count, 0, names)  # row, column, value
    count = count + 1
workbook.save('Excel_test1.xls')
print("已完成")

运行结果及报错内容 :
[]
已完成

进程已结束,退出代码0

我的解答思路和尝试过的方法：
1.刚开始以为是python解释器和环境变量的路径不对应导致的，但是试过了全部的python.exe的路径。都是一样的结果（[])
2.后面怀疑是pycharm的结果显示问题，去了jupyter试，结果还是一样([])

我想要达到的结果：
找出为什么结果显示是[]的原因并解决。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

Mr__FOUR 2022-08-15 17:26

关注

1.你获取的是二进制的数据（df.content --》 df.text ）
2.正则写错了（zz = r'(\w.?)'）//zz = r'(\w.?)'
结果：

代码：

# coding=utf-8
import requests
import re
import pandas as pd
import xlwt

url = 'https://movie.douban.com/top250'


# 定义抓取函数--df.content
def get_content(url):
    # 过滤无效信息
    header = {
        'User-Agent': 'Mozilla5.0 (Windows NT 10.0; Win64; x64) AppleWebKit537.36 (KHTML, like Gecko) Chrome103.0.0.0 Safari537.36'
    }
    # 使用get方法获取网页响应信息
    df = requests.get(url, headers=header)
    # 展示响应信息全部内容
    # print(df.text)
    return df.text  # content
    print(df.content)


get_content(url)


# 固定定义获取函数--reslut
def get_text(url):
    da = get_content(url)
    # 使用正则表达式来提取信息
    zz = r'<span class="title">(\w.*?)</span>'

    compile = re.compile(zz)
    # 使用正则在响应内容中匹配信息
    result = re.findall(compile, str(da))  # 要注意findall的时候要把要匹配的原内容格式调为str（）#
    return result


# 填入要抓取的网页响应内容
# print(get_text(url))
names = get_text(url)
for name in names:
    print(name)
    # 现在显示的结果是【】！！！
# 保存到Excel
count = 0
workbook = xlwt.Workbook()
sheet = workbook.add_sheet(sheetname="汇总表")
for each in range(0, 100):
    sheet.write(count, 0, names)  # row, column, value
    count = count + 1
workbook.save('Excel_test1.xls')
print("已完成")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(3条)

报告相同问题？

关注问题

requests模块使用笔记 python
2022-08-15 15:14

回答 4 已采纳 1.你获取的是二进制的数据（df.content --》 df.text ）2.正则写错了（zz = r'(\w.?)'）//zz = r'(\w.?)'结果：代码： # coding=utf-8
没有requests 的模块 python 有问必答
2021-12-06 15:36

回答 3 已采纳打开win+R 输入 cmd,然后输入下面命令安装requests pip install requests 下面有个python做的图片下载器例子,你可以参考参考 p
python爬虫 requests模块错误 python 爬虫
2023-03-06 21:55

回答 3 已采纳 curr_url 没有获取到数据，提交了一个None，结果访问的地址就是 http://None了
python requests模块下载文件,python中如何使用requests模块下载文件并获取进度提示？...
2021-04-26 18:00

戴孟君的博客 Reference:.../usr/bin/env python3import requestsfrom contextlib import closing"""作者：微微寒链接：https://www.zhihu.com/question/41132103/answer/93438156来源：知乎著作权归作者所有。商业...
python requests模块下载超时的问题 python
2021-01-17 10:49

回答 4 已采纳 requests.get 有 timeout 选项： response = requests.get('http://www.baidu.com', timeout=5)
求解答requests模块的安装问题 python 有问必答
2022-01-13 16:07

回答 3 已采纳编译器和cmd的环境不一致。你要在编译器里装requests啊
python requests模块数据传入问题 python
2021-07-25 14:28

回答 1 已采纳 param={"jitXOrderDetailModule":{ "orderSns":[], "stats":[], "abnormalStats":[], "goodSns":[], "trans
python线程池（threadpool）模块使用笔记详解
2020-02-10 21:06

python 一语呢喃的博客这篇文章主要介绍了python线程池（threadpool）模块使用笔记详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧最近在做一个视频设备管理的项目，设备包括（摄像机，DVR,NVR等），...
pycharm中的requests模块失效 pycharm python
2021-08-01 23:50

回答 1 已采纳卸载了重新装试试
requests模块在centos上安装完成但使用时还是用不了 python 有问必答
2021-11-18 23:48

回答 1 已采纳 centos默认自带python2的，，执行py文件，用python3 xxx.py指令执行，，
Python爬虫的requests模块能模拟 python 有问必答
2021-09-24 12:58

回答 1 已采纳私聊
python学习笔记8：网络编程--requests模块
2017-07-09 09:43

weixin_30256505的博客使用requests模块，pip install requests 安装即可。 requests 模块是基于urllib模块进行开发的，urllib用起来比较麻烦：传参数的话，都得是bytes类型，返回数据也是bytes类型，还得解码。所以我直接丢弃之一、...
用requests模块爬百度文本显示错误 python
2021-10-12 14:55

回答 1 已采纳我这边跑没什么问题，你删除最后一行还会报错？是python2还是3
课堂笔记14-模块
2020-05-24 19:50

littlespider889的博客课堂笔记 1. 模块模块化指将⼀个完整的程序分解成⼀个个的⼩模块通过将模块组合，来搭建出⼀个完整的程序模块化的优点⽅便开发⽅便维护模块可以复⽤ # print(__name__) # 在模块中定义变量 a = 1 b = 2 _c = ...
学习笔记(05):Python爬虫开发-requests模块巩固深入案例之豆瓣电影
2020-02-10 13:58

于喝水的博客 import requests import json if __name__ =="__main__": url="https://movie.douban.com/j/chart/top_list?" param = { "type":"11", "interval_id": "100:90", "action":"", "start": "0", "limit": "20", ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月15日

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度

requests模块使用笔记

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新