python爬虫一半失败

爬小说。只爬了10章就报错了。


import requests
from bs4 import BeautifulSoup

#获得章节链接、标题
def get_novel_chaters():
    root_url = "http://www.qixivur.com/news/ts48.html"
    r = requests.get(root_url)
    r.encoding="utf-8"
    soup = BeautifulSoup(r.text,"html.parser")

    data = []
    for dd in soup.find_all("dd"):
        link = dd.find("a")
        if not link:
            continue
        data.append(("http://www.qixivur.com%s"%link['href'],link.get_text()))
        # print(link)
    return data
#获得链接内容
def get_chapter_content(url):
    r = requests.get(url)
    r.encoding='utf-8'
    soup = BeautifulSoup(r.text, "html.parser")
    return soup.find('div',id="TextContent").get_text()

novel_chapters = get_novel_chaters()
total_cnt = len(novel_chapters)
idx = 0

for chapter in get_novel_chaters():
    # print(chapter)
    idx+=1
    print(idx,total_cnt)
    url,title = chapter
    with open("%s.txt"%title,"w",encoding="utf-8") as fout:
        fout.write(get_chapter_content(url))

1 1102
2 1102
3 1102
4 1102
5 1102
6 1102
7 1102
8 1102
9 1102
10 1102
Traceback (most recent call last):
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\models.py", line 434, in prepare_url
    scheme, auth, host, port, path, query, fragment = parse_url(url)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\urllib3\util\url.py", line 397, in parse_url
    return six.raise_from(LocationParseError(source_url), None)
  File "<string>", line 3, in raise_from
urllib3.exceptions.LocationParseError: Failed to parse: http://www.qixivur.comjavascript:;

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:/Professional_documents/pythonProject/web_crawler/爬小说/main.py", line 36, in <module>
    fout.write(get_chapter_content(url))
  File "D:/Professional_documents/pythonProject/web_crawler/爬小说/main.py", line 21, in get_chapter_content
    r = requests.get(url)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\api.py", line 73, in get
    return request("get", url, params=params, **kwargs)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\api.py", line 59, in request
    return session.request(method=method, url=url, **kwargs)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\sessions.py", line 573, in request
    prep = self.prepare_request(req)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\sessions.py", line 496, in prepare_request
    hooks=merge_hooks(request.hooks, self.hooks),
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\models.py", line 368, in prepare
    self.prepare_url(url, params)
  File "D:\Professional_documents\pythonProject\web_crawler\venv\lib\site-packages\requests\models.py", line 436, in prepare_url
    raise InvalidURL(*e.args)
requests.exceptions.InvalidURL: Failed to parse: http://www.qixivur.comjavascript:;

Process finished with exit code 1

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

cjh4312 2023-02-13 21:49

关注


import requests
from lxml import etree
url='http://www.qixivur.com/news/ts48.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
dd=requests.get(url,headers)
html=etree.HTML(dd.text)
name=html.xpath('//*[@id="list-chapterAll"]/dl/dd/a//text()')
targets=html.xpath('//*[@id="list-chapterAll"]/dl/dd/a/@href')
for n,i in enumerate(targets):
    dd=requests.get(f"http://www.qixivur.com{i}")  
    html=etree.HTML(dd.text)
    data=html.xpath('//*[@id="TextContent"]/p//text()')
    s='\n   '.join(str(j) for j in data)
    with open(f'e:/novel/{name[n]}.txt','w+',encoding='utf-8') as file:
        file.write(s)
        file.close()

编辑记录

报告相同问题？

关注问题

Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
python 爬虫XHR获取失败 python 爬虫
2017-10-22 15:00

回答 2 已采纳你要用post去请求，我使用的是request库 import requests url = 'http://www.bjbus.com/home/ajax_news_list.php' hea
python爬虫需要学习哪些语言 java mysql python 有问必答
2021-07-14 10:26

回答 3 已采纳参考：https://www.cnblogs.com/cherish-cxh/p/10025979.html熟悉多线程编程、网络编程、HTTP协议相关开发过完整爬虫项目（最好有全站爬虫经验，这个下面会
解决python爬虫假死问题(程序偷停问题)
2024-01-31 10:09

红目香薰的博客解决python爬虫假死问题(程序偷停问题)
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
Python爬虫，一天抓取100万张网页的酷炫操作！
2019-09-17 19:51

Python老王的博客 Python爬虫这两年貌似成为了一项必备技能，无论是搞技术的，做产品的，数据分析的，金融的，初创公司做冷启动的，都想去抓点数据回来玩玩。这里面绝大多数一共都只抓几万或几十万条数据，这个数量级其实大可不必写...
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
入门python，看完这个300行代码的例子，足矣~
2020-04-28 21:35

桑梓南的博客你还在为python苦恼么？一个例子全搞定！一个300行的代码，竟然包含了138个知识点。列表，元组，字典，集合，字符串，也有他们的基本操作，有面向对象的类，循环语句，选择语句，函数的创建，包的导入，文件的读取...
python基础—并发编程
2022-10-21 17:30

飞得更高肥尾沙鼠的博客这里写目录标题并发编程（并发，并行，同步，异步）通俗理解并发编程中的相关核心概念进程什么是进程进程调度并发与并行进程的状态同步和异步 Python进程的实现 multiprocessing包 Process模块 process模块...
【代码】Python基础和编程规范
2021-04-29 00:25

山顶夕景的博客 python中的对象之间的赋值是按引用传送的。（1）copy()浅拷贝，只拷贝父对象，不会拷贝对象的内部的子对象。（2）deepcopy()深拷贝，拷贝父对象及其子对象。 #!/usr/bin/python ## -*-f= coding:utf-8 -*- import ...
踩坑的Python爬虫：新手如何在一个月内学会爬取大规模数据？
2020-04-26 21:34

学术严谨的博客 Python爬虫为什么受欢迎如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

悬赏问题

¥15 MSR2680-XS路由器频繁卡顿问题
¥15 VB6可以成功读取的文件，用C#读不了
¥15 如何使用micpyhon解析Modbus RTU返回指定站号的湿度值，并确保正确？
¥15 C++ 句柄后台鼠标拖动如何实现
¥15 有人会SIRIUS 5.8.0这个软件吗
¥30 comsol仿真等离激元
¥15 静电纺丝煅烧后如何得到柔性纤维
¥15 (标签-react native|关键词-镜像源)
¥100 照片生成3D人脸视频
¥15 伪装视频时长问题修改MP4的时长问题，

python爬虫一半失败

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新