西轩 2022-05-12 17:23 采纳率: 100%
浏览 229
已结题

Python: 'NoneType' object has no attribute 'string'

爬个网文试手,开始用的soup.select()能正常爬取,后发现有相同类名爬取到多余内容,改用find()整不会了

img

报错如图

img

顺带问问章节a标签的href有分页怎么遍历
/booktxt/342/1005998.html
例如/booktxt/342/1005998_%d.html

import requests
from bs4 import BeautifulSoup


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
url = 'http://m.cits0871.com/booktxt/342/index_%d.html'
for pageNum in range(1,2):
    # 对应页码的url
    new_url = format(url%pageNum)
    
    page_text = requests.get(url=new_url,headers=headers).text
    soup = BeautifulSoup(page_text,'lxml')
    p_list = soup.find('div',class_='recommend').find_next(class_='recommend').find_all('p')
    #print(p_list)
    fp = open('./Ntxs.txt','w',encoding='utf-8')
    for link in p_list: 
        title = link.a.string
        print(title)
        detail_url = 'http://m.cits0871.com'+link.a['href']
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='Readarea ReadAjax_content
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功')
  • 写回答

2条回答 默认 最新

  • 溪风沐雪 2022-05-12 17:31
    关注

    我估计是link下边没有a,你取了没有的元素再调用string属性就报这个错了,你打印一下link看看吧

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 5月21日
  • 已采纳回答 5月13日
  • 创建了问题 5月12日

悬赏问题

  • ¥15 腾讯IOA系统怎么在文件夹里修改办公网络的连接
  • ¥15 filenotfounderror:文件是存在的,权限也给了,但还一直报错
  • ¥15 MATLAB和mosek的求解问题
  • ¥20 修改中兴光猫sn的时候提示失败
  • ¥15 java大作业爬取网页
  • ¥15 怎么获取欧易的btc永续合约和交割合约的5m级的历史数据用来回测套利策略?
  • ¥15 有没有办法利用libusb读取usb设备数据
  • ¥15 为什么openeluer里面按不了python3呢?
  • ¥15 关于#matlab#的问题:训练序列与输入层维度不一样
  • ¥15 关于Ubuntu20.04.3LTS遇到的问题:在安装完CUDA驱动后,电脑会进入卡死的情况,但可以通过键盘按键进入安全重启,但重启完又会进入该情况!