百度了问题是无效的url，

运行结果及报错内容 requests.exceptions.MissingSchema: Invalid URL '写在连载前': No scheme supplied. Perhaps you meant http://写在连载前?

我的解答思路和尝试过的方法

百度了无效url，网址协议应该是对的

我想要达到的结果


```python

import requests
from lxml import etree
import os
from multiprocessing import Pool


def Chapterspider(self):

    """章节爬虫，参数传入目录，返回(章节名称， 对应页面链接)的列表"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36' }
    content = requests.get(url, headers=headers).content
    html=etree.HTML(content)
    chapter_names=html.xpath('//dd/a/text()')
    chapter_links=html.xpath('//dd/a/@href')
    return chapter_names, chapter_links
def Chapterdownload(turple):
    """章节下载成对应的txt，这个url参数指每一页的链接，chapter_link"""
    url=turple[0]
    name=turple[1]
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
    }
    rsp=requests.get(url,headers=headers)
    content=rsp.content
    html=etree.HTML(content)
    content_list=html.xpath('//div[@id="content"]//text()')
    content_list=Remove_r(content_list,"\r")
    content_list=Formatlist(content_list)[:-2]
    dir_name="小说2"
    isExists=os.path.exists(dir_name)
    if not isExists:
        os.makedirs(dir_name)
    with open(dir_name+'/'+name+'.text','w',encoding='utf-8') as f:
        f.writelines(content_list)
    print(content_list)
    print(url)
    print(name,'爬取完毕')

def Remove_r(list,a):
    """去除列表中含字符串a的项"""
    while True:  # 无限循环，利用break退出
        if a not in list:
            break
        else:
            list.remove(a)
    return list


def Formatlist(list):
    """去除只有/r的项后，还要把每项的特殊字符去掉     和\r"""
    for i in range(len(list)):
        if '\r' in list[i]:
            list[i]=list[i].replace('\r','\n')
        if '\xa0\xa0\xa0\xa0' in list[i]:
            list[i]=list[i].repalce('\xa0\xa0\xa0\xa0', '')
    return list


if __name__ == '__main__':
    chapter_links=[]
    url="https://www.xbiquwx.la/10_10582/"
    chapter_names,chapter_links_before=Chapterspider(url)
    for i, j in zip (chapter_names,chapter_links_before):
        j=url+j
        chapter_links.append(j)
    print(chapter_links)
    # # 生成链接和章名一一对应的字典
    link_find_name=dict(zip(chapter_names,chapter_links))
    canshu=[]
    for link, name in link_find_name.items():
        canshu.append((link,name))
    pool = Pool(processes=4)
    pool.map(Chapterdownload, canshu)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
快乐小土狗 2022-07-23 21:03
关注
写反了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

百度了问题是无效的url， python 问答团队
2022-07-23 20:41

回答 1 已采纳写反了
百度网盘本地路径无效怎么办？软件工程
2023-03-11 14:06

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ如果你使用的是百度网盘PC客户端，你可以尝试以下解决方法：确保本地路径不存在同名文件夹：如果你在百度网盘上设置了下载路径，客户端会默认把文件下载到该路径下，如果该路径下已
如何解决字母是无效语法的问题 python 有问必答
2021-12-17 22:31

回答 2 已采纳 def judge():少了nums参数改成def judge(nums):第5行print（少了）右括号 while nums!="": 应该改成 while n!="": def
【编程语言】AWK 极简教程
2023-02-23 13:13

禅与计算机程序设计艺术的博客 1概述AWK 是一种解释执行的编程语言。它非常的强大，被设计用来专门处理文本数据。AWK 的名称是由它们设计者的名字缩写而来 ——Afred Aho, Peter Weinberger与Brian Kernighan。由 GNU/Linux 发布的 AWK 版本通常被...
Golang url.Parse总是返回无效的控制字符URL
2019-05-02 03:34

回答 2 已采纳 proxyUrl := "https://www.proxy-list.download/api/v1/get?type=http&country=US" The content of t
c++基类的成员函数调用无效的问题 c++ 开发语言有问必答
2022-04-04 21:00

回答 1 已采纳 Sphere继承Circle,同时也会继承Circle成员x,y,radius，当调用Sphere::setR()时，实际上是将参数赋值给父类Circle中的变量radius而不是Sphere的变量r
R语言file函数错误，无效的“description”属性 r语言有问必答
2022-04-04 17:28

回答 2 已采纳是用files函数， list.files(dir(pattern = "*.log")) 匹配类型写成：dir(pattern = "*.log")
还在被人说“你不会百度吗”，行哥介绍8种百度搜索高级语法技巧（建议收藏）...
2020-07-15 08:50

一行玩python的博客昨天知乎有个“你不会百度吗”的问题上了热搜，这句话在很多技术群里会经常出现，毕竟对于基础问题百度图文并茂，比直接问人快多了。所以不出意外该问题下3430个回答基本每个人都有说过这句话，从...
关于springMVC url地址无效问题
2016-07-16 05:46

回答 4 已采纳 test1 前面怎么有两条斜杠？！？！
AWS预签名URL ACL公共读取无效签名
2017-05-05 13:21

回答 1 已采纳 It was and error on the aws service end, the url is not being signed.
matlab中无效表达式问题 matlab
2022-11-05 11:11

回答 1 已采纳加个空格就好了 title(['适应度曲线' '终止代数=' num2str(maxgen)]);
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
WordCloud中mask无效的问题 python
2022-01-16 19:55

回答 1 已采纳你那个 j1.jpg 大概长啥样，不能太复杂。要简单图案。
2.Python编程环境搭建
2023-09-20 11:02

光头小白的博客编译器（解释器）、编辑器和用户（程序员）都依赖后缀区分当前源文件属于哪种编程语言 源文件的编码格式 Python 源文件是一种纯文本文件，会涉及编码格式的问题，也就是使用哪种编码来存储源代码 Python 3.x 已经将 ...
Linux高并发服务器开发之网络编程
2023-12-31 15:01

Xf3n1an的博客 Linux网络编程
没有解决我的问题, 去提问