2 zoudick97 zoudick97 于 2016.03.06 09:42 提问

scrapy 报错:Missing scheme in request url: h

用Python的scrapy写了一个从网页下图片的爬虫,报错:Missing scheme in request url: h
去百度了也google了都说是相对地址不完整要搞成绝对地址,我用urljoin试了没用,直接用完整的图片地址也没有用。
求大神帮助。
[code=python]import scrapy
from imageSpider.items import ImagespiderItem

class image_Spider(scrapy.Spider):
name="imgSpider"
allowed_domains=["image.baidu.com"]
start_urls=["http://image.baidu.com/"]

def parse(self,response):
    oriList=response.xpath('//div[@class="img_pic_wrap_layer"]/img/@src').extract()
    for each in oriList:
        each=response.urljoin(each)
        item=ImagespiderItem()
        item['image_urls']=each
        yield item[/code]

[code=python]# -*- coding: utf-8 -*-

Define here the models for your scraped items

#

See documentation in:

http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class ImagespiderItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
image_urls=scrapy.Field()
images=scrapy.Field()
[/code]

1个回答

caozhy
caozhy   Ds   Rxr 2016.03.07 05:27
已采纳
zoudick97
zoudick97 解决了,image_urls应该是一个列表,不是一个字符串。 谢谢你。
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
scrapy下载图片时,图片链接报错Missing scheme in request url: %s' % self._url
抓取的URL存下来的时候可能为字符串,scrapy提取的时候只提取到第一个字母 h 。 解决方案: image_url = post_node.css('dt.img a img::attr(onerror)').extract_first('') # 获取图片 front_image_url = [image_url if 'http:' in image_url else ('h
Scrapy爬取图片: raise ValueError('Missing scheme in request url: %s' % self._url)
Scrapy爬取图片 raise ValueError('Missing scheme in request url: %s' % self._url)
解决ValueError('Missing scheme in request url: %s' % self._url)
使用scrapy的ImagesPipeline爬取图片的时候,运行报错 Traceback (most recent call last): File "/home/lcy/.local/lib/python2.7/site-packages/twisted/internet/defer.py", line 653, in _runCallbacks current.result =
解决scrapy下载图片时相对路径转绝对路径的问题
这段时间一直在研究利用scrapy抓取图片的问题,我发觉,用官网的http://doc.scrapy.org/en/0.12/topics/images.html的donwload item images的教程只能处理html中包含绝对路径的图片,对于javascript动态生成
ValueError: Missing scheme in request url: h
相关URL必须是一个List,所以遇到该错误只需要将url转换成list即可。 例如: start_urls = ['someurls'] 如果是images_url也是如此,使用item存储的时候改成list即可。 item['images_urls'] = ['image_url']
ValueError('Missing scheme in request url :%s'%self._url')
这是因为在利用scrapy抓取网页时的setting配置中有一个相关的图片配置, ITEM_PIPELINES = { 'article_scrapy.pipelines.ArticleScrapyPipeline': 300, 'scrapy.pipelines.images.ImagesPipeline':1, } 系统会默认将其
ValueError: Missing scheme in request url: scrapy 爬取图片的报错解决方案
用python的scrapy框架爬取图片时,运行报错信息如下:ValueError: Missing scheme in request url: //cdn.shopify.com/s/files/1/1182/9792/products/ARD1040_3_100x.jpg?v=1527112369 2018-05-24 23:02:44 [scrapy.core.scraper] ERROR...
scrapy爬虫(以东方烟草网为例)
scrapy爬虫 相对网址转绝对网址 递归爬取
解决 ValueError: Missing scheme in request url: h
start_url 应该是应该列表,不能是元组!2018-06-11 16:01:13 [scrapy.core.engine] INFO: Spider opened2018-06-11 16:01:13 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items...
python scrapy request页面抓取异常报错及处理
scrapy.Request Missing scheme in request url: