python爬取大量网页出现卡顿问题

用python爬取新浪新闻，在爬到260多篇的时候程序就会卡在正则表达式匹配处，单独爬取该网页没有问题，求问原因
import urllib2
import urllib
import re
import time
from bs4 import BeautifulSoup
def getContent(url,index):
headers = {'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}
myRequest = urllib2.Request(url,headers = headers)
for tries in range(5):

    try:

        myResponse = urllib2.urlopen(myRequest)
        myPage = myResponse.read()
        time.sleep(1)
        break
    except:
        if tries < 5:
            print 'Attempt to reconnect'

            continue
        else:
            print 'connection failed'


textContent = re.findall('<div class="article article_16" id=".*?">(.*?)<p class="article-editor">',myPage,re.S)
while len(textContent) == 0:
    textContent = re.findall('<div class="article article_16" id=".*?">(.*?)<p class="article-editor">',myPage,re.S)
retContent = re.findall('<p.{0,100}?>(.*?)</p>',textContent[0],re.S)
while len(retContent) == 0:
    retContent = re.findall('<p.{0,100}?>(.*?)</p>',textContent[0],re.S)
#print len(retContent)
file = open(str(index)+'.txt','w')
for text in retContent:     
    file.write(text)
file.close() 
print str(index)+'.txt has been written'

#def crawler_urllist(start,end,typeNum):#para type : string
#create date list
partialUrl = ['http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=','&spec=&type=&date=','&ch=01&k=&offset_page=0&offset_num=0&num=40&asc=&page=']
format = "%Y-%m-%d"
beginDate = datetime.datetime.strptime(start,format)
endDate = datetime.datetime.strptime(end,format)
oneDay = datetime.timedelta(days = 1)
diffDay = endDate - beginDate
dateList = []
for i in range(diffDay.days + 1):
dateList.append(datetime.datetime.strftime(beginDate,format))
beginDate += oneDay
retList = []

    for i in range(len(dateList)):
        url = partialUrl[0] + typeNum + partialUrl[1] + dateList[i] + partialUrl[2]
        page = 0
        while True:

            page += 1
            continueFlag,myPage = getContent(url + str(self.page))
            print(url + str(self.page))
            #print self.page
            #print self.initUrl + str(self.page)
            if continueFlag:
                self.pages.append(myPage)
            else:
                self.page = 0
                break                   
        else:
            time.sleep(1)
    date_url_list = open(typeNum + '.txt','w')
    for item in retList:
        date_url_list.write(item)
        date_url_list.write('\n')           
    date_url_list.close()
    return type + '.txt'

i = 1
urlFile = open('DomesticNewsUrlList.txt','r')
naviurlList = urlFile.readlines()
urlList = list(set(naviurlList))[0].split()
#urllist1 = urlList[0:5]
for url in urlList:
getContent(url,i)
#time.sleep(1)
i += 1

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
mega4221 2016-12-03 10:59
关注
给request加上timeout看看，sleep时间在加大一点，正则匹配哪里try一下

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python 爬取的代码与网页上的代码不同 python 爬虫
2022-03-10 00:27

回答 1 已采纳这种结果用正则表达式提取就行，不能用xpath，另外如果结果数据类型为json的话可以把他转换成字典取值。python里面有json，jsonpath等模块就可以搞这种字符串的。有帮助的话采纳一下哦！
Python爬虫：爬取手机App数据，记得安装配置Charles
2021-08-16 19:37

李元静的博客这也是时代的进步，从PC端到移动端，而且还有像小红书一样的App，其根本不提供PC端网页，只有App，要爬取这些数据，普通的Python爬虫肯定已经淘汰。所以，我们需要借助Charles来抓取手机的HTTP与HTTPS数据包。尽然...
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python 爬取网页里面的xhr文件。 css html5 python
2019-05-07 20:14

回答 1 已采纳首先，在常规头部获取请求的url，然后查看请求方法，获取请求状态，如果是失败，就说明不是这个。然后，请求头部，将所有的headers放到requests的headers参数里面(可以包含cooki
如何用python爬取一个网页上的问题与答案的两部分文字部分？？ python
2019-06-29 17:19

回答 2 已采纳其实就是对网站获得的数据做一个整理，用正则表达式找出你想要的东西就行 ``` from bs4 import BeautifulSoup import requests url="https:
python爬取微信公众号_Python爬取微信公众号(中间人代理法)
2020-12-03 11:16

weixin_39725844的博客 1、环境：ubuntu16.04 + redis + mysql + python3.5 + anyproxy + android + pm2 + npm + node一台爬虫服，python3环境，建议在ubuntu16.04下，不用再装一次python3。一台代理服，root权限，anyproxy环境和pm2环境，...
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
Python利用requests爬取网页遇到的payload问题 python 有问必答爬虫
2021-08-13 14:31

回答 5 已采纳网站多少
python爬取百度手机号网页 python 有问必答
2021-09-24 13:08

回答 2 已采纳可以用requests.post获取，需要将参数正确传递。代码可以这么写： import requests import time num=input('input cellphone number:
随笔：使用Python爬取知乎上相关问题的所有回答
2023-10-24 20:14

QHG7C0的博客项目中数据分析的需要自己从知乎某个专门的问题上爬数据，但众所周知，知乎的问题的显示方式有点胃疼（指滑动后下翻加载更多回答，还经常卡住），翻了翻网上的教程发现有的要么就是很老了要么就是付费的，本着开源...
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取过程_记录一次关于python爬取视频的过程
2020-11-20 21:39

weixin_39689428的博客前两天突然间脑子抽风想要用python来爬一下视频网站，获取视频。一开始无从下手，在网上搜了很多相关的博客，然而也并未找到一个理想的解决方案，但是好在最终能够将视频网站的视频给爬下来，尽管吃相难看了点。特此...
Python代码--爬取音乐
2022-06-24 14:42

少冰九分糖的博客 /usr/bin/env python # -*- coding: utf-8 -*- # ------------------------------ '''''' USER_AGENT_LIST = [ 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; Hot Lingo 2.0)', 'Mozilla/5.0 ...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

python爬取大量网页出现卡顿问题

2条回答 默认 最新

悬赏问题

2条回答默认最新