binggo6656 2022-01-12 16:40 采纳率: 71.4%
浏览 29
已结题

【Python爬虫相关】如何让导出的TXT文件包含遍历过的所有内容

问题遇到的现象和发生背景

导出的TXT文件不包含所有页面的内容,只有最后一个页面的内容

练习地址:http://spiderbuf.cn/trainingbox?level=4

问题相关代码,请勿粘贴截图
import requests
from bs4 import BeautifulSoup
for i in range(5):
    url ='http://spiderbuf.cn/trainingbox?level=4&pageno='+str(i+1)
    headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'}
    dataSource =requests.get(url,headers=headers)
    dataText = dataSource.text
    soup = BeautifulSoup(dataText,'lxml')

    with open('03.txt','w',encoding='utf-8') as fp:
        for trs in soup.select('tr'):
                tds=trs.select('td')
                s=''
                for td in tds:
                    td_text=td.get_text()
                    s+=str(td_text)+'|'
                print(s)
                fp.write(s + '\n')
fp.close()

运行结果及报错内容

打印是能打印出所有页面结果的,但文件是没有包含所有页面结果的,只有第五页也就是最后一页的结果

  • 写回答

2条回答 默认 最新

  • LiuPig刘皮哥 2022-01-12 16:49
    关注
    with open('03.txt','w',encoding='utf-8') as fp:
    改为:
    with open('03.txt','a',encoding='utf-8') as fp:
    
    
    'w'  会覆盖掉
    a 追加
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月20日
  • 已采纳回答 1月12日
  • 创建了问题 1月12日

悬赏问题

  • ¥15 网络科学导论,网络控制
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)