python爬取文章不能按顺序循环

爬取写下的文件全是同一个内容，
以下为代码：

#coding=GB18030
import urllib.request
from bs4 import BeautifulSoup
import re
import os

urls = ["https://www.bilibili.com/read/cv13853928?from=category_0","https://www.bilibili.com/read/cv13900955?from=category_0","https://www.bilibili.com/read/cv14392664?from=category_0","https://www.bilibili.com/read/cv14290608?from=category_0","https://www.bilibili.com/read/cv14269554?from=category_0","https://www.bilibili.com/read/cv14023818?from=category_0","https://www.bilibili.com/read/cv14367119?from=category_0","https://www.bilibili.com/read/cv14310331?from=category_0","https://www.bilibili.com/read/cv14312166?from=category_0","https://www.bilibili.com/read/cv14395382?from=category_0","https://www.bilibili.com/read/cv14340236?from=category_0","https://www.bilibili.com/read/cv14312107?from=category_0","https://www.bilibili.com/read/cv14381493?from=category_0","https://www.bilibili.com/read/cv14312157?from=category_0","https://www.bilibili.com/read/cv14342795?from=category_0","https://www.bilibili.com/read/cv14319354?from=category_0","https://www.bilibili.com/read/cv14381629?from=category_0","https://www.bilibili.com/read/cv14353230?from=category_0","https://www.bilibili.com/read/cv14309947?from=category_0","https://www.bilibili.com/read/cv14369822?from=category_0","https://www.bilibili.com/read/cv14394980?from=category_0","https://www.bilibili.com/read/cv14337802?from=category_0","https://www.bilibili.com/read/cv14365402?from=category_0","https://www.bilibili.com/read/cv14361551?from=category_0","https://www.bilibili.com/read/cv14346357?from=category_0","https://www.bilibili.com/read/cv14398923?from=category_0","https://www.bilibili.com/read/cv14314809?from=category_0","https://www.bilibili.com/read/cv14315884?from=category_0","https://www.bilibili.com/read/cv14361893?from=category_0","https://www.bilibili.com/read/cv14395601?from=category_0","https://www.bilibili.com/read/cv14326983?from=category_0","https://www.bilibili.com/read/cv14324884?from=category_0","https://www.bilibili.com/read/cv14327098?from=category_0","https://www.bilibili.com/read/cv14371294?from=category_0","https://www.bilibili.com/read/cv14350914?from=category_0","https://www.bilibili.com/read/cv14354339?from=category_0"]

def text_create(name, msg):
    desktop_path = "C:\\txt\\"  
    full_path = desktop_path + name  
    file = open(full_path, 'w',encoding="utf-8")
    file.write(msg)  
    # file.close()
    
filePrefix = 'text'   #文件前缀
fileSuffix = '.txt'    #文件后缀
fileNum = 31          #文件个数
 
for i in range(1, fileNum):
    fileName = filePrefix + str(i) + fileSuffix
    for i in range(1,fileNum):
        i=i+1
        url=urls[i]
        a=urllib.request.urlopen(url)
        htmlstr=a.read().decode('UTF-8')
        soup=BeautifulSoup(htmlstr,'html.parser')
        y=re.compile(r'<p>([\s\S]*?)</p>')
        text=y.findall(str(soup))      
        x=''
        for i in range(0,len(text)):
            x=x+text[i]
            text1=re.sub("</?\w+[^>]*>",'',x) 
            text2=text1.replace("。",'。\n\n\0\0') 
            text_create(fileName, text2)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2021-12-14 01:48

关注

这样改一下即可：

def text_create(name, msg):
    desktop_path = "F:\\txt\\"
    full_path = desktop_path + name
    file = open(full_path, 'w', encoding="utf-8")
    file.write(msg)


    # file.close()
filePrefix = 'text'  # 文件前缀
fileSuffix = '.txt'  # 文件后缀
fileNum = 31  # 文件个数
for i in range(fileNum):  
    fileName = filePrefix + str(i) + fileSuffix
    url = urls[i]
    a = urllib.request.urlopen(url)
    htmlstr = a.read().decode('UTF-8')
    soup = BeautifulSoup(htmlstr, 'html.parser')
    y = re.compile(r'<p>([\s\S]*?)</p>')
    text = y.findall(str(soup))
    print(text)
    x = ''
    for j in range(0, len(text)):
        x = x+text[j]
        text1 = re.sub("</?\w+[^>]*>", '', x)
        text2 = text1.replace("。", '。\n\n\0\0')
        text_create(fileName, text2)

如有帮助，请点击采纳按钮。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
Python爬取网页图片
2020-07-15 01:06

Lotay_天天的博客 Python爬取网页图片一、爬取的网站内容爬取http://www.win4000.com/meinvtag26_1.html的COS图片这个网页相当于一个相册，每一个相册内有6-9张高清大图，每个相册都有自己单独的名字二、爬取的网站域名 win4000...
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
Python 学习 02 —— Python如何爬取数据
2021-07-08 23:24

老板来碗小面加蛋~的博客文章目录系列文章二、Python爬虫1、任务介绍2、爬虫简介3、基本流程3.1、准备工作3.1.1、分析页面3.1.2、编码规范3.1.3、导入模块3.1.4、程序流程3.2、获取数据3.3、解析数据3.4、保存数据3.4.1、Excel表存储3.4.1、...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
【新人推荐】Python爬取巨潮资讯网指定PDF
2023-10-29 18:32

快被笑死的博客由于会计、金融等毕业论文数据需要爬取数据，这里教大家怎么批量简单爬取巨潮咨询网指定的PDF。该例子为获取对应股票对应年份带有“董事会”与“决议会议”的PDF。至此，所有的PDF都已下载到PDF目录下，请读者依据...
python爬取音乐 python
2023-01-11 17:11

回答 2 已采纳可以先从post data中查看url请求时提交的参数，根据参数名在js源码中检索，大致梳理一下代码执行的流程，在可疑处附近打上断点
用python爬取漫画！
2021-05-25 18:31

Python与Excel之交的博客今日教大家用Python爬取某网站的全部漫画，让你想看什么漫画就看什么漫画！本文代码量有的多，请耐心看完！如果不想看分析网页，可拉取到爬取思路和实现代码区域，查看基本思路和代码！经过作者测试，测试过的漫画都...
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月14日

悬赏问题

¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥80 部署运行web自动化项目

python爬取文章不能按顺序循环

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新