西轩 2022-05-12 17:23 采纳率: 100%
浏览 216
已结题

Python: 'NoneType' object has no attribute 'string'

爬个网文试手,开始用的soup.select()能正常爬取,后发现有相同类名爬取到多余内容,改用find()整不会了

img

报错如图

img

顺带问问章节a标签的href有分页怎么遍历
/booktxt/342/1005998.html
例如/booktxt/342/1005998_%d.html

import requests
from bs4 import BeautifulSoup


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
url = 'http://m.cits0871.com/booktxt/342/index_%d.html'
for pageNum in range(1,2):
    # 对应页码的url
    new_url = format(url%pageNum)
    
    page_text = requests.get(url=new_url,headers=headers).text
    soup = BeautifulSoup(page_text,'lxml')
    p_list = soup.find('div',class_='recommend').find_next(class_='recommend').find_all('p')
    #print(p_list)
    fp = open('./Ntxs.txt','w',encoding='utf-8')
    for link in p_list: 
        title = link.a.string
        print(title)
        detail_url = 'http://m.cits0871.com'+link.a['href']
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='Readarea ReadAjax_content
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功')
  • 写回答

2条回答 默认 最新

  • 溪风沐雪 2022-05-12 17:31
    关注

    我估计是link下边没有a,你取了没有的元素再调用string属性就报这个错了,你打印一下link看看吧

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 5月21日
  • 已采纳回答 5月13日
  • 创建了问题 5月12日

悬赏问题

  • ¥65 永磁型步进电机PID算法
  • ¥15 sqlite 附加(attach database)加密数据库时,返回26是什么原因呢?
  • ¥88 找成都本地经验丰富懂小程序开发的技术大咖
  • ¥15 如何处理复杂数据表格的除法运算
  • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)
  • ¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗?
  • ¥200 uniapp长期运行卡死问题解决
  • ¥15 latex怎么处理论文引理引用参考文献
  • ¥15 请教:如何用postman调用本地虚拟机区块链接上的合约?
  • ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?