【Python爬虫相关】如何让导出的TXT文件包含遍历过的所有内容

问题遇到的现象和发生背景

导出的TXT文件不包含所有页面的内容，只有最后一个页面的内容

练习地址：http://spiderbuf.cn/trainingbox?level=4

问题相关代码，请勿粘贴截图

import requests
from bs4 import BeautifulSoup
for i in range(5):
    url ='http://spiderbuf.cn/trainingbox?level=4&pageno='+str(i+1)
    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'}
    dataSource =requests.get(url,headers=headers)
    dataText = dataSource.text
    soup = BeautifulSoup(dataText,'lxml')

    with open('03.txt','w',encoding='utf-8') as fp:
        for trs in soup.select('tr'):
                tds=trs.select('td')
                s=''
                for td in tds:
                    td_text=td.get_text()
                    s+=str(td_text)+'|'
                print(s)
                fp.write(s + '\n')
fp.close()

运行结果及报错内容

打印是能打印出所有页面结果的，但文件是没有包含所有页面结果的，只有第五页也就是最后一页的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
LiuPig刘皮哥 2022-01-12 16:49
关注
with open('03.txt','w',encoding='utf-8') as fp: 改为： with open('03.txt','a',encoding='utf-8') as fp: 'w' 会覆盖掉 a 追加
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

【Python爬虫相关】如何让导出的TXT文件包含遍历过的所有内容 python 爬虫
2022-01-12 16:40

回答 2 已采纳 with open('03.txt','w',encoding='utf-8') as fp: 改为： with open('03.txt','a',encoding='utf-8') as fp:
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
python把爬虫内容导出为excel_python制作爬虫并将抓取结果保存到excel中
2020-11-30 11:10

weixin_39695954的博客学习Python也有一段时间了，各种理论知识大体上也算略知一二了，今天就进入实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。第一步：分析网站的请求过程我们在查看拉勾网上的招聘信息的时候，搜索Python，...
如何用Python 3遍历循环下载CSV文件中内容链接的图片？ python 爬虫
2018-11-07 15:02

回答 2 已采纳把 i=1放在for link in links:的上面如果不放for循环上面，i每次循环都被初始化为 1 了，i = i+1虽然加了1,但是下一次循环，i又被初始化为1了。这样不管下载多少张
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python遍历所有部门 python
2022-03-13 00:40

回答 1 已采纳数据里存在一个字典里有两个同样的键如果字典是正常的。可以试试这种思路遍历所有的字典列表通过循环找出每一个部门的上级部门路径， while parent_id != ''把部门及上级部门路径
python遍历一个目录，输出所有文件名
2023-07-26 06:45

python 筱水花的博客【代码】python遍历一个目录，输出所有文件名。
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python-docx遍历删除所有图片 python
2022-07-08 09:33

回答 3 已采纳 from docx import Document doc_save = '/home/john/Downloads/20220630.docx' doc = Document(doc_save)
python 爬虫生成markdown文档
2024-01-11 14:57

gzu_01的博客本文介绍的案例为使用python爬取网页内容并生成markdown文档，首先需要确定你所需要爬取的框架结构，根据网页写出对应的爬取代码。
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
怎么利用python爬虫爬数据然后导出csv文档_爬虫入门教程⑨— 用html和csv文件保存爬取到的数据...
2021-01-13 05:35

王翰海的博客经过努力，我们终于拿到了数据了。那么下一步就是要将我们获取到的数据保存...主要的数据保存方法有写入到文本：txt，csv，excel...保存到数据库：本地的sqlite、MySQL、mongodb...由于保存到数据库的操作需要了解...
Python 爬虫框架Scrapy
2023-01-09 18:20

Shinersmile的博客在scrapy中，会专门定义一个用于记录数据的类，实例化一个对象，利用这个对象来记录数据。每一次，当数据完成记录，它会离开spiders，来到Scrapy Engine（引擎），引擎将它送入Item...定义这个类的py文件，是items.py。
没有解决我的问题, 去提问