西轩 2022-05-12 17:23 采纳率: 100%
浏览 175
已结题

Python: 'NoneType' object has no attribute 'string'

爬个网文试手,开始用的soup.select()能正常爬取,后发现有相同类名爬取到多余内容,改用find()整不会了

img

报错如图

img

顺带问问章节a标签的href有分页怎么遍历
/booktxt/342/1005998.html
例如/booktxt/342/1005998_%d.html

import requests
from bs4 import BeautifulSoup


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
url = 'http://m.cits0871.com/booktxt/342/index_%d.html'
for pageNum in range(1,2):
    # 对应页码的url
    new_url = format(url%pageNum)
    
    page_text = requests.get(url=new_url,headers=headers).text
    soup = BeautifulSoup(page_text,'lxml')
    p_list = soup.find('div',class_='recommend').find_next(class_='recommend').find_all('p')
    #print(p_list)
    fp = open('./Ntxs.txt','w',encoding='utf-8')
    for link in p_list: 
        title = link.a.string
        print(title)
        detail_url = 'http://m.cits0871.com'+link.a['href']
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='Readarea ReadAjax_content
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功')
  • 写回答

2条回答 默认 最新

  • 溪风沐雪 2022-05-12 17:31
    关注

    我估计是link下边没有a,你取了没有的元素再调用string属性就报这个错了,你打印一下link看看吧

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
  • 不会长胖的斜杠 后端领域新星创作者 2022-05-12 17:45
    关注

    改成str(link.a)试试

    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 5月21日
  • 已采纳回答 5月13日
  • 创建了问题 5月12日

悬赏问题

  • ¥15 STM32U575 pwm和DMA输出的波形少一段
  • ¥30 android百度地图SDK海量点显示标题
  • ¥15 windows导入environment.yml运行conda env create -f environment_win.yml命令报错
  • ¥15 这段代码可以正常运行,打包后无法执行,在执行for内容之前一直不断弹窗,请修改调整
  • ¥15 C语言判断有向图是否存在环路
  • ¥15 请问4.11到4.18以及4.27和4.29公式的具体推导过程是怎样的呢
  • ¥20 将resnet50中的卷积替换微ODConv动态卷积
  • ¥15 通过文本框输入商品信息点击按钮将商品信息列举出来点击加入购物车商品信息添加到表单中
  • ¥100 这是什么压缩算法?如何解压?
  • ¥20 upload上传实验报错500,如何解决?(操作系统-windows)