Python爬虫爬取的文件空白

实验内容为爬取百度贴吧星空吧的30条回复数大于等于3以上的帖子，将帖子及其所有回复内容保存到以帖子标题命名的html文件中。
个人代码：

#引入第三方库
from bs4 import BeautifulSoup
import requests
#查找信息
i,num=0,0#页码，记录帖子数量
while num<30:
    code=requests.get(url="https://tieba.baidu.com/f?kw=星空&ie=utf-8&pn="+str(i*50))#发送网址请求，i决定页码
    code.encoding = 'utf-8' 
    code=BeautifulSoup(code.text, "html.parser")#转文本
    content=code.find_all('div', class_='t_con cleafix')#找到所有帖子
    for item in content:
        reply_num=item.find_all("span",class_="threadlist_rep_num center_text")#找到各个帖子下的回复数
        if int(reply_num[0].text)>=3:#如果回复数至少为3
            num+=1#记录一个帖子，数量+1
            inf=item.find('a', class_= 'j_th_tit')#获取帖子信息
            title=inf.attrs["title"].strip()#获取帖子标题
            href=inf.attrs['href']#获取帖子超链接
            web='https://tieba.baidu.com'+href#获取帖子网址
            code1=requests.get(url=web)#发送网址请求
            code1.encoding = 'utf-8' 
            code1=BeautifulSoup(code1.text, "html.parser")#转文本
            content1=code1.find_all("div",class_="d_post_content j_d_post_content ")#获取帖子内容与回复内容
            f=open('E:/files/experienment_5/'+title+'.html',"a")
            for j in content1:
                f.write(j.text)#写入文件
            f.close()
    i+=1

跑下来最成功的一次是30个html文件是空白的，其他情况要么是无响应，要么是中间报错

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-10-30 00:40
关注
【以下回答由 GPT 生成】

问题分析:

根据提供的代码，文件生成为空白的原因可能有以下几个可能性：

获取网页内容的部分有错误，导致无法正确获取贴吧帖子和回复的信息。
写入文件部分有问题，导致无法正确将信息写入文件。
爬取帖子和回复的逻辑有误，导致无法正确获取帖子和回复的数量和内容。

解决方案: 根据代码和问题描述，可能存在以下几个问题，下面逐个解决：

获取网页内容的部分有错误，导致无法正确获取贴吧帖子和回复的信息。请检查以下内容：

确保requests库已正确安装。

确保能够正确访问https://tieba.baidu.com/f?kw=星空&ie=utf-8&pn=0，并得到正确的返回结果。

可尝试使用以下代码来测试是否能够正确获取网页内容：

import requests url = "https://tieba.baidu.com/f?kw=星空&ie=utf-8&pn=0" response = requests.get(url) print(response.text)

如果能够输出网页内容，则说明获取网页内容的部分没有问题。如果无法正确输出网页内容，可能需要检查网络连接或请求头等问题。

写入文件部分有问题，导致无法正确将信息写入文件。请检查以下内容：

确保文件的路径存在，且有写入权限。

修改文件的打开模式为"w"，即每次运行都重新创建文件。

修改代码如下：

f = open('E:/files/experienment_5/' + title + '.html', 'w') for j in content1: f.write(j.text) # 写入文件 f.close()

爬取帖子和回复的逻辑有误，导致无法正确获取帖子和回复的数量和内容。请检查以下内容：

确保在获取帖子和回复时的选择器和属性正确。

确保获取的帖子数量符合预期。

可以先输出获取到的帖子和回复数量，以及帖子和回复的内容，检查是否正确。

修改代码如下：

for j in content1: print(j.text) print("帖子数量:", num)

如果能够正确输出帖子和回复的内容，并且帖子数量符合预期，则说明爬取逻辑没有问题。

综上所述，根据以上解决方案检查和修改代码，可以解决生成文件为空白的问题。

【相关推荐】

这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7479761
这篇博客也不错, 你可以看下采集一幅彩色图像，使用python然后将其转化成灰度图像，分别加入高斯白噪声和椒盐噪声，再分别进行 3×3 的均值滤波和中值滤波，显示原图像、加噪图像和滤波结果图像，并比较四种滤波结果。
您还可以看一下 CSDN就业班老师的Python全栈工程师特训班第十四期-直播回放课程中的 Python全栈工程师特训班第十四期-第十二周-爬虫第三周-03小节, 巩固相关知识点
除此之外, 这篇博客: python中使用html前端页面显示图像预测结果（改进）中的 改进之处主要是代码，页面都没有发送改变： 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫爬取会计师协会网站的指定文章
2024-01-22 22:56

在这个教程中，我们将专注于如何使用Python爬虫来获取会计师协会网站上的特定文章内容。这个过程涉及到了网页解析、HTTP请求和数据处理等多个环节。首先，我们需要导入Python中的相关库。最常用的两个库是`...
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
python爬虫：爬取A站视频信息
2024-10-04 13:11

F码崽的博客一、爬取任务选取acfun视频分享网站（https://www.acfun.cn）作为数据来源，使用python编程，通过网络爬虫技术爬取100个视频的相关信息。爬取数据字段：UP主用户名、用户ID、视频标题、视频上传时间、观看量、...
用python爬虫爬取海量高清美女图片，亲测2021年12月20日可用，适合初学者
2021-12-20 19:41

qq_53899799的博客因为近期在自学python，想着先通过一些项目提升对这个编程语言的兴趣，而且爬虫也是python中对基本功要求较低的项目，就根据所学内容编写了一个爬虫项目爬取某网站的图片。温馨提示：爬虫学得好，牢饭吃到饱，学习...
【Python爬虫实战入门】：笔趣阁小说爬取，一篇教你爬虫入门
2024-07-16 18:59

爱喝兽奶的荒天帝的博客 requests简介requests模块官方文档requests 是 Python 编程语言中一个常用的第三方库，它可以帮助我们向 HTTP 服务器发送各种类型的请求，并处理响应。向 Web 服务器发送 GET、POST 等请求方法；在请求中添加自定义...
Python爬虫爬取静态网页实例一：爬取内涵段子吧上的段子
2019-08-07 18:02

寂静丿星空的博客这里讲一个爬取静态网页内容的实例，Python一般利用正则表达式爬取静态静态网页的内容，而且因为静态网页源代码固定，不会发生变化，所以比较简单，这里选内涵段子吧作为例子。内涵段子吧里的段子分为很多页，大家...
touTiao爬虫今日头条python爬取数据生成词云.rar
2024-05-31 14:28

标题中的“touTiao爬虫今日头条python爬取数据生成词云”暗示了这是一个关于使用Python编程语言构建爬虫来抓取今日头条网站上的数据，并进一步处理这些数据以生成词云的项目。词云是一种视觉化的数据展示方式，常...
python爬取网页数据步骤,python爬虫爬取网页数据
2024-06-17 17:10

2401_85476533的博客 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序...
第一个 Python 爬虫实战：爬取静态网页文本内容
2025-10-29 23:24

python 爬虫工程师的博客本文介绍了使用Python进行静态网页爬取的基础技术，重点讲解了requests和BeautifulSoup两个核心库的使用方法。文章以豆瓣读书Top250为例，详细展示了发送GET请求、解析HTML结构、提取关键信息（标题、链接、图片地址...
python爬虫爬取一次数据多长时间_「Python爬虫系列讲解」1. 网络数据爬取概述
2020-12-03 07:10

weixin_39551554的博客专栏地址：http://suo.im/5Rh1z1 1 网络爬虫1.1 背景引入随着互联网的迅速发展，万维网已成为大量信息的载体，越来越多的网民可以通过互联网搜索引擎获取所需要的信息。事实上，市面上通用的搜索引擎是存在一定...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月29日

Python爬虫爬取的文件空白

1条回答 默认 最新

问题事件

1条回答默认最新