m0_61228182 2021-10-18 11:17 采纳率: 100%
浏览 134
已结题

python for循环 只爬取最后一页的内容

img


本来想要随便爬几页动漫的标题和标签,结果连翻页都搞不定
希望各位能指点一下,感谢

  • 写回答

2条回答 默认 最新

  • CSDN专家-HGJ 2021-10-18 14:14
    关注

    代码这样修改一下,应该可以,代码中为了测试将Item写成了一个类,你可以去掉它,用导入语句:

    import scrapy
    class MovieItem(scrapy.Item):
        name=scrapy.Field()
    
    class MeijuSpider(scrapy.Spider):
        name="meiju"
        allowed_domains=['imomoe.live']
        
        def start_requests(self):
            starts_urls = [
                f'http://www.imomoe.live/search.asp?page={i}&searchword=%BE%E7%B3%A1&searchtype=-1' for i in range(1, 5)]
            #url = "'http://www.imomoe.live/search.asp?page=1&searchword=%BE%E7%B3%A1&searchtype=-1'"
            headers = {'USER_AGENT': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    'Chrome/91.0.4472.106 Safari/537.36 '}
            for url in starts_urls:
                yield scrapy.Request(url, headers=headers, callback=self.parse)
        
        def parse(self,response):
            movies = response.xpath(
                '//div[@class="area"]/div[@class="fire l"]/div[@class="pics"]/ul/li')
            item=MovieItem()
            for each_movie in movies:
                print(each_movie)            
                item['name']=each_movie.xpath('./h2/a/@title').extract()[0]
                yield item
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 10月26日
  • 已采纳回答 10月19日
  • 创建了问题 10月18日

悬赏问题

  • ¥15 PADS Logic 原理图
  • ¥15 PADS Logic 图标
  • ¥15 电脑和power bi环境都是英文如何将日期层次结构转换成英文
  • ¥20 气象站点数据求取中~
  • ¥15 如何获取APP内弹出的网址链接
  • ¥15 wifi 图标不见了 不知道怎么办 上不了网 变成小地球了
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部