西轩 2022-05-12 17:23 采纳率: 100%
浏览 215
已结题

Python: 'NoneType' object has no attribute 'string'

爬个网文试手,开始用的soup.select()能正常爬取,后发现有相同类名爬取到多余内容,改用find()整不会了

img

报错如图

img

顺带问问章节a标签的href有分页怎么遍历
/booktxt/342/1005998.html
例如/booktxt/342/1005998_%d.html

import requests
from bs4 import BeautifulSoup


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
url = 'http://m.cits0871.com/booktxt/342/index_%d.html'
for pageNum in range(1,2):
    # 对应页码的url
    new_url = format(url%pageNum)
    
    page_text = requests.get(url=new_url,headers=headers).text
    soup = BeautifulSoup(page_text,'lxml')
    p_list = soup.find('div',class_='recommend').find_next(class_='recommend').find_all('p')
    #print(p_list)
    fp = open('./Ntxs.txt','w',encoding='utf-8')
    for link in p_list: 
        title = link.a.string
        print(title)
        detail_url = 'http://m.cits0871.com'+link.a['href']
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='Readarea ReadAjax_content
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功')
  • 写回答

2条回答 默认 最新

  • 溪风沐雪 2022-05-12 17:31
    关注

    我估计是link下边没有a,你取了没有的元素再调用string属性就报这个错了,你打印一下link看看吧

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 5月21日
  • 已采纳回答 5月13日
  • 创建了问题 5月12日

悬赏问题

  • ¥20 有偿,求个自动门设计思路
  • ¥15 心率变异性联合机器学习预测子宫颈癌 FIGO 分期
  • ¥15 WebSocket的问题
  • ¥15 BDSBAS-B1C和B1C信号有什么不同
  • ¥15 在半圆平面内随机生成点坐标
  • ¥15 系统容量变化的几种多址方式TDMA, CDMA,FDMA,OFDMA 对比,应该给的是一个曲线 图,随着系统容量的增加,几种多址方式性能的对比 图,MATLAB程序仿真折线图
  • ¥15 用visual Studio 写c ++只运行上一个旧代码的运行结果是怎么回事
  • ¥15 系统容量变化的几种多址方式(TDMA,FDMA,OFDMA,CDMA)对比(相关搜索:曲线图)
  • ¥15 worldclim 历史及未来气候数据矫正
  • ¥15 ajax服务器不能下载