【Python爬虫相关】如何让导出的TXT文件包含遍历过的所有内容

问题遇到的现象和发生背景

导出的TXT文件不包含所有页面的内容，只有最后一个页面的内容

练习地址：http://spiderbuf.cn/trainingbox?level=4

问题相关代码，请勿粘贴截图

import requests
from bs4 import BeautifulSoup
for i in range(5):
    url ='http://spiderbuf.cn/trainingbox?level=4&pageno='+str(i+1)
    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'}
    dataSource =requests.get(url,headers=headers)
    dataText = dataSource.text
    soup = BeautifulSoup(dataText,'lxml')

    with open('03.txt','w',encoding='utf-8') as fp:
        for trs in soup.select('tr'):
                tds=trs.select('td')
                s=''
                for td in tds:
                    td_text=td.get_text()
                    s+=str(td_text)+'|'
                print(s)
                fp.write(s + '\n')
fp.close()

运行结果及报错内容

打印是能打印出所有页面结果的，但文件是没有包含所有页面结果的，只有第五页也就是最后一页的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
LiuPig刘皮哥 2022-01-12 16:49
关注
with open('03.txt','w',encoding='utf-8') as fp: 改为： with open('03.txt','a',encoding='utf-8') as fp: 'w' 会覆盖掉 a 追加
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

【Python爬虫相关】如何让导出的TXT文件包含遍历过的所有内容 python 爬虫
2022-01-12 16:40

回答 2 已采纳 with open('03.txt','w',encoding='utf-8') as fp: 改为： with open('03.txt','a',encoding='utf-8') as fp:
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
Python简单爬虫导出CSV文件的实例讲解
2020-09-20 07:18

在本文中，我们将深入探讨如何使用Python进行简单的网络爬虫，并将抓取的数据导出到CSV文件。这个实例主要分为以下几个步骤： 1. **模拟登录**：首先，我们需要模拟登录到目标网站。在这个例子中，我们创建了一个名...
如何用Python 3遍历循环下载CSV文件中内容链接的图片？ python 爬虫
2018-11-07 15:02

回答 2 已采纳把 i=1放在for link in links:的上面如果不放for循环上面，i每次循环都被初始化为 1 了，i = i+1虽然加了1,但是下一次循环，i又被初始化为1了。这样不管下载多少张
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python遍历所有部门 python
2022-03-13 00:40

回答 1 已采纳数据里存在一个字典里有两个同样的键如果字典是正常的。可以试试这种思路遍历所有的字典列表通过循环找出每一个部门的上级部门路径， while parent_id != ''把部门及上级部门路径
python爬虫课件+代码.zip
2021-07-25 12:18

同时，合法和道德的爬虫原则也很重要，尊重网站的robots.txt文件，避免对服务器造成过大压力，遵守相关法律法规。总之，"python爬虫课件+代码.zip"提供的学习资源涵盖了Python爬虫的基础到进阶，包括请求与响应...
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
python把爬虫内容导出为excel_python制作爬虫并将抓取结果保存到excel中
2020-11-30 11:10

weixin_39695954的博客学习Python也有一段时间了，各种理论知识大体上也算略知一二了，今天就进入实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。第一步：分析网站的请求过程我们在查看拉勾网上的招聘信息的时候，搜索Python，...
python爬虫写完后数据库内容与打印内容不符 python 有问必答爬虫
2021-08-12 15:40

回答 2 已采纳这是终端显示行数有限制原因，由于输出内容较多，不能全部从头至尾显示出来，最后在终端窗口显示的是最后的数据。如果要获得全部数据，将数据写入csv或txt文档就能全部看到了。
Python爬虫实例讲解
2023-02-22 10:07

Python爬虫是编程领域中一个热门的技术，尤其在数据挖掘、数据分析和自动化任务中发挥着重要作用。本实例将深入讲解Python爬虫的基本概念、常用库和实战技巧，旨在帮助初学者快速入门并能够实际操作。首先，Python...
python爬虫源码-zhihu-spider-master.zip
2024-05-28 10:33

【Python爬虫源码-Zhihu-Spider-Master】是一个专用于爬取知乎网站数据的Python项目。这个项目的核心是利用Python编程语言构建网络爬虫，以抓取并处理知乎上的各种信息，如问题、答案、用户资料等。Python在爬虫领域...
没有解决我的问题, 去提问