Studying!!! 2020-05-10 16:26 采纳率: 100%
浏览 256

这个错误啥意思!求大佬帮忙

#爬取三国演义小说的所有章节和章节内容http://www.shicimingju.com/book/sanguoyanyi.html
import requests

from bs4 import BeautifulSoup

if name=='__main__':

    headers = {
    'User Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36'
}
     url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
     page_text = requests.get(url=url,headers=headers).text
     print(page_text)
#在首页中解析出章节的标题和详情页的url
#1.实例化对象,需要将页面源码数据加载到该对象中
     soup = BeautifulSoup(page_text,'lxml')
#解析章节标题和详情页url
     li_list = soup.select('.book-mulu >ul >li')
     fp = open('./sanguo.text','w',encoding='utf-8')
     for li in li_list:
           title = li.a.string
           detail_url = 'http://www.shicimingju.com'+li.a['herf']
    #对详情页发起请求,解析出章节内容
           detail_page_text = requests.get(url=detail_url,headers=headers).text
    #解析出详情页相关的章节内容
           detail_soup = BeautifulSoup(detail_page_text,'lxml')
           div_tag = detail_soup.find('div',class_='chapter_content')
           content = div_tag.text
           fp.write(title+':'+content+'\n')
           print(title,'爬取成功!!!')

            运行结果如下:
    <h1>Bad Message 400</h1><pre>reason: Illegal character 0x20</pre>
  • 写回答

1条回答 默认 最新

  • threenewbee 2020-05-10 19:19
    关注

    运行结果没看到,代码没有缩进
    无法调试
    建议你修改问题后再来帮你看

    评论

报告相同问题?

悬赏问题

  • ¥20 pyTMD库该如何使用
  • ¥20 怎么在comsol“磁场和电场”物理场里设置永磁体
  • ¥20 统计计算,抽样重要性重抽样
  • ¥15 Pyqt 如何安全立即中止Qthread?
  • ¥15 一般HR面试程序员会问什么问题
  • ¥15 fluent udf 编写问题
  • ¥15 Fluent udf编写问题
  • ¥15 如何安装vue.js
  • ¥15 anaconda打开Jupyter notebook输出结果死循环导致卡死
  • ¥15 C++加密解密问题解惑答疑