诗子黎 2021-08-02 21:18 采纳率: 50%
浏览 170
已结题

Python爬虫,假死解决方法

这是我的代码:

import urllib.request
from bs4 import BeautifulSoup
import re
import codecs
import lxml
import requests
headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
    }
url = "https://www.23apex.com/xiaoshuo/99545.html"
response = requests.get (url,headers=headers)
soup = BeautifulSoup(response.content,'lxml')
f=codecs.open("斗罗大陆外传史莱克天团1111111111.txt","wb","utf-8")
for link in soup.find_all ('a'):
    x=link.get('href')
    r2=re.compile('/xiaoshuo/99545/',re.I)
    if r2.search(x):
        print (x)
        print (link.text)
        url = 'https://www.23apex.com'+x
        print (url)
        print ("开始爬取....")
        response = requests.get (url,headers=headers)
        print ("正在解析网页....")
        soup = BeautifulSoup(response.content,'lxml')
        print ("解析完成!")
        a = soup.find(id = 'content')
        b = a.get_text()
        f.write(link.text)
        f.write('\n')
        f.write(b)
        f.write('\n\n')
        print ("本章节爬取完成")
        
f.close()

爬几页后,就会出现假死状态。

img

用的是Python3.9.6

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 8月10日
    • 创建了问题 8月2日

    悬赏问题

    • ¥15 #MATLAB仿真#车辆换道路径规划
    • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
    • ¥15 数据可视化Python
    • ¥15 要给毕业设计添加扫码登录的功能!!有偿
    • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
    • ¥15 微信公众号自制会员卡没有收款渠道啊
    • ¥15 stable diffusion
    • ¥100 Jenkins自动化部署—悬赏100元
    • ¥15 关于#python#的问题:求帮写python代码
    • ¥20 MATLAB画图图形出现上下震荡的线条