m0_61228182 2021-10-18 19:17 采纳率: 100%
浏览 127
已结题

python for循环 只爬取最后一页的内容

img


本来想要随便爬几页动漫的标题和标签,结果连翻页都搞不定
希望各位能指点一下,感谢

  • 写回答

2条回答 默认 最新

  • CSDN专家-HGJ 2021-10-18 22:14
    关注

    代码这样修改一下,应该可以,代码中为了测试将Item写成了一个类,你可以去掉它,用导入语句:

    import scrapy
    class MovieItem(scrapy.Item):
        name=scrapy.Field()
    
    class MeijuSpider(scrapy.Spider):
        name="meiju"
        allowed_domains=['imomoe.live']
        
        def start_requests(self):
            starts_urls = [
                f'http://www.imomoe.live/search.asp?page={i}&searchword=%BE%E7%B3%A1&searchtype=-1' for i in range(1, 5)]
            #url = "'http://www.imomoe.live/search.asp?page=1&searchword=%BE%E7%B3%A1&searchtype=-1'"
            headers = {'USER_AGENT': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    'Chrome/91.0.4472.106 Safari/537.36 '}
            for url in starts_urls:
                yield scrapy.Request(url, headers=headers, callback=self.parse)
        
        def parse(self,response):
            movies = response.xpath(
                '//div[@class="area"]/div[@class="fire l"]/div[@class="pics"]/ul/li')
            item=MovieItem()
            for each_movie in movies:
                print(each_movie)            
                item['name']=each_movie.xpath('./h2/a/@title').extract()[0]
                yield item
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月27日
  • 已采纳回答 10月19日
  • 创建了问题 10月18日

悬赏问题

  • ¥15 matlab用simulink求解一个二阶微分方程,要求截图
  • ¥30 matlab解优化问题代码
  • ¥15 写论文,需要数据支撑
  • ¥15 identifier of an instance of 类 was altered from xx to xx错误
  • ¥100 反编译微信小游戏求指导
  • ¥15 docker模式webrtc-streamer 无法播放公网rtsp
  • ¥15 学不会递归,理解不了汉诺塔参数变化
  • ¥15 基于图神经网络的COVID-19药物筛选研究
  • ¥30 软件自定义无线电该怎样使用
  • ¥15 R语言mediation包做中介分析,直接效应和间接效应都很小,为什么?