python for循环只爬取最后一页的内容

本来想要随便爬几页动漫的标题和标签，结果连翻页都搞不定
希望各位能指点一下，感谢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2021-10-18 14:14

关注

代码这样修改一下，应该可以，代码中为了测试将Item写成了一个类，你可以去掉它，用导入语句：

import scrapy
class MovieItem(scrapy.Item):
    name=scrapy.Field()

class MeijuSpider(scrapy.Spider):
    name="meiju"
    allowed_domains=['imomoe.live']
    
    def start_requests(self):
        starts_urls = [
            f'http://www.imomoe.live/search.asp?page={i}&searchword=%BE%E7%B3%A1&searchtype=-1' for i in range(1, 5)]
        #url = "'http://www.imomoe.live/search.asp?page=1&searchword=%BE%E7%B3%A1&searchtype=-1'"
        headers = {'USER_AGENT': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                'Chrome/91.0.4472.106 Safari/537.36 '}
        for url in starts_urls:
            yield scrapy.Request(url, headers=headers, callback=self.parse)
    
    def parse(self,response):
        movies = response.xpath(
            '//div[@class="area"]/div[@class="fire l"]/div[@class="pics"]/ul/li')
        item=MovieItem()
        for each_movie in movies:
            print(each_movie)            
            item['name']=each_movie.xpath('./h2/a/@title').extract()[0]
            yield item

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 11:23

回答 1 已采纳爬下一页就好了
python爬虫如何用for循环翻页 python 有问必答
2021-07-04 08:59

回答 3 已采纳重点还是从网页上分析翻页的网址构造情况，即baseurl及请求的url要写准确,另外可能需要补充一些请求参数。
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 01:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
python循环爬取页面_使用for或while循环来处理处理不确定页数的网页数据爬取
2020-12-09 03:06

weixin_39605345的博客本文转载自以下网站: Python For 和 While 循环爬取不确定页数的网页 https://www.makcyun.top/web_scraping_withpython16.html需要学习的地方有两种方法。第一种方式使用 For 循环配合 break 语句，尾页的页数设置...
python爬取小说的代码没有执行循环 python 开发语言爬虫
2022-09-07 14:06

回答 1 已采纳这是按照你的改的，因为你没拿到链接。其实你这需求用re会更方便。 import requests from bs4 import BeautifulSoup if __name__ == '__m
用Python爬取智慧树问题时，没办法入到soup.find_all（）的for循环中 python
2021-08-27 07:54

回答 1 已采纳因为你数据没有抓取到, 所以打印没输出
python爬取猫眼top写入excel 提示string index out of range？ list python
2021-04-07 15:47

回答 2 已采纳明显跑到那里时超限了，data里元素数量肯定不到五个，输出一下看看data具体是什么就知道了，问题应该是你get_one_page(）里，你解析出来的数据有一组是特殊的，不到五个
python多线程爬虫爬取电影天堂资源
2024-03-15 04:43

Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影资源信息,包括电影名称、年份、类型...
python爬虫检索超出范围报错 python 爬虫
2022-09-08 08:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
多进程爬取豆瓣电影出现异常 python
2021-08-10 08:43

回答 2 已采纳 Process(target = parse_url,args = url) 这里的args 参数需要是一个元组形式，可以写成args=（url，）
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 13:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
python爬取换页_Python爬虫翻页只爬取了第一页内容？
2020-11-22 21:02

weixin_39938312的博客写这种类型的翻页代码要注意书写顺序, 首先写第一页的, 测试之后在最外面加个循环就好了.下面是细节问题:首先第一页和第二页的url格式不太一样, 第一反应应该是测试一下第一页能不能套用第二页的格式, 一般情况下,...
python用for循环一直出现最后一个值_在Python中用for循环从beautifulsoup中抓取只返回最后一个resu...
2020-12-14 21:21

weixin_39717443的博客我设法做到了这一点，但是当我重新运行代码时，代码不再给我相同的输出：当我运行for循环时，它不再返回所有12372条记录，而是保存最后一条记录。在我的代码的缩写版本是：from bs4 import BeautifulSoupBirthsSoup ...
python爬虫爬取百度百科页面.zip
2024-02-02 03:35

for page in range(1, 6): # 假设我们只爬取前5页 url = f'https://baike.baidu.com/item/Python/167288?fromTitle&page={page}' response = requests.get(url) soup = BeautifulSoup(response.text, '...
python用for循环读取图片_python 使用for循环简单爬取图片（1）
2021-02-10 11:28

weixin_40008870的博客现在的网站大多做了反爬处理，找一个能爬的网站还真不容易。下面开始一步步实现：1.简单爬录目图片1 importurllib.request2 importre34 defgethtml(url):5 page=urllib.request.urlopen(url)6 html=page.read()....
没有解决我的问题, 去提问