scrapy 在爬取下级链接列表时，url内容会多出很多未知字符

import scrapy
from ajk.items import AjkItem
class AjkDataSpider(scrapy.Spider):
     name = 'ajk_data'
     #allowed_domains = ['suzhou.anjuke.com']
     start_urls = ['https://suzhou.anjuke.com/sale/gaoxinsz/']
     #高新区一级解析 获取
     def parse(self, response):
        #解析：名称和内容
        li_list = response.xpath('//ul[@id="houselist-mod-new"]/li')
        #all_data = []#存储所有解析到数据
        for li in li_list:
            item = AjkItem()
            item['house_type'] = li.xpath('./div[2]/div[2]/span[1]/text()').extract()        #房屋户型
            item['floorage'] = li.xpath('./div[2]/div[2]/span[2]/text()').extract()          #建筑面积
            item['storey'] = li.xpath('./div[2]/div[2]/span[3]/text()').extract()            #所在楼层
            item['Construction_time'] = li.xpath('./div[2]/div[2]/span[4]/text()').extract() #建筑时间
            item['Total_price'] =li.xpath('./div[3]/span[1]/strong/text()').extract()        #房屋总价
            li_url = li.xpath('./div[2]/div[1]/a/@href').extract()[0] #这个地方爬取url内容会自动多出很多不存在字符
            print(li_url)
            yield scrapy.Request(url=li_url,meta={'item':item},callback=self.parse_two)
     #详细页解析
     def parse_two(self, response):
         item = response.meta['item']
         item['Unit_Price'] =response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[3]/div[2]/text()').extract()
         item['community'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[1]/div[2]/a/text()').extract()
         item['position'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[4]/div[2]/p/a[2]/text()').extract()
         item['House_category'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[10]/div[2]/text()').extract()
         item['property_right'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[13]/div[2]/text()').extract()
         item['renovation'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[12]/div[2]/text()').extract()
         item['Housing_years'] = response.xpath('//*[@id="content"]/div[3]/div[1]/div[3]/div/div[1]/ul/li[15]/div[2]/text()').extract()
         yield item

Li_url 列表内容是这样的

这个到导致我的parse_two 里边的标签内容获取不到

问题1：我这个获取不到数据是否是这个原因引起

问题2：如果是是我编写代码问题吗

问题3：li_url 列表中的网址，只是提取‘?’之前数据，再存储这个提取怎样操作，谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
李佑辰 2023-05-21 13:24
关注
这种情况可能是因为在获取子链接的时候，没有对链接中的特殊字符进行处理，导致链接中包含一些未知字符。可以使用 urllib.parse 模块中的 quote 和 unquote 函数对链接进行编码和解码，避免链接中出现特殊字符。

具体来说，可以在 Spider 的代码中使用 quote 和 unquote 函数进行编码和解码。示例代码如下：

import scrapy from urllib.parse import urljoin, quote, unquote class MySpider(scrapy.Spider): name = "myspider" start_urls = ["http://example.com/"] def parse(self, response): # 获取子链接 sub_links = response.xpath("//a/@href") for url in sub_links: # 对链接进行编码和解码 url = urljoin(response.url, url) encoded_url = quote(url, safe=":/") decoded_url = unquote(encoded_url) # 处理链接 # ... yield scrapy.Request(decoded_url, callback=self.parse_subpage) def parse_subpage(self, response): # 处理子页面 # ...

在上面的代码中，我们使用了 quote 函数对链接进行编码，并使用 unquote 函数将编码后的链接解码回来。使用 safe 参数指定哪些字符不需要编码，保留它们在链接中的含义。

通过对链接进行处理，可以避免链接中出现特殊字符，从而避免在爬取过程中出现未知字符。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
Python多手段爬取百度图片Request+scrapy分别爬取，百度图片地址解密
2019-09-17 20:01

Sound_of_ Silence的博客好长一段时间没怎么碰爬虫，我估计得熟悉...2.框架 scrapy 网页分析：这里我以风景图为关键词，输入后获得地址为‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&amp...
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
scrapy模拟浏览器爬取51job(动态渲染页面爬取)
2021-09-11 12:49

爱遛弯的布谷的博客动态渲染页面爬取，就是模拟浏览器的运行方式，可以做到在浏览器中看到是什么内容爬取的源码就是相应的内容，实现了可见即可爬。这个方法在爬虫过程中会打开一个浏览器加载该网页，自动操作浏览器浏览各个网页，...
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
爬虫框架Scrapy（8）使用 LinkExtractor 提取链接
2021-03-23 22:40

Python@达人的博客文章目录使用 LinkExtractor 提取链接1. 提取链接的方法（1）使用Selector（2）使用LinkExtractor2. LinkExtractor 提取链接的规则（1）allow（2）deny（3）allow_...在爬取一个网站时，想要爬取的数据通常分布在多
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
Python scrapy学习之爬取2k唯美壁纸详细过程笔记及讲解
2019-08-02 21:55

Sound_of_ Silence的博客 Scrapy 爬取图片时候绕了很多圈子，才明白了走了很大的弯路，幸亏绕出来了（大话可能说得有点早~），赶紧记录一下心得体会：创建爬虫时的参数选择：一是普通创建爬虫法： scrapy genspider xxx xx.com, 这种...
scrapy爬虫
2019-01-26 11:31

进击的Z同学的博客 scrapy爬虫更多文章欢迎访问个人博客 www.herobin.top 技术选型 scrapy vs requests + beautifulsoup 1.requests和beautifulsoup都是库，scrapy是框架 2.scrapy框架中可以加入...4.scrapy方便扩展，提供了很...
没有解决我的问题, 去提问

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度

scrapy 在爬取下级链接列表时，url内容会多出很多未知字符

1条回答 默认 最新

悬赏问题

1条回答默认最新