scrapy如何循环抓取所有类似的页面

我是刚刚开始学习爬虫，模仿网上一个例子自己写了一个，想循环抓取所有页面新闻标题和链接，但是只能抓取到起始页面的。

这是抓取的起始页面

从下面可以看到列表有很多，我想抓取所有的新闻条目，每一页的地址仅一个数字不同

spider文件夹下的关键代码如下所示

 # -*- coding:utf-8 -*-

from scrapy.spiders import Spider
from scrapy.selector import Selector
from ahutNews.items import AhutnewsItem
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor

class AhutNewsSpider(Spider):
    name = 'ahutnews'
    allowed_domains="ahut.edu.cn"
    start_urls=['http://news.ahut.edu.cn/list.jsp?a7t=314&a7p=2&a7c=20&urltype=tree.TreeTempUrl&wbtreeid=1002']
    rules=(
            Rule(LinkExtractor(allow=r"/list.jsp\?a7t=314&a7p=*"),
            callback="parse",follow=True),
        )


    def parse(self, response):

        hxs = Selector(response)
        titles = hxs.xpath('//tr[@height="26"]')
        items = []
        for data in titles:
            item = AhutnewsItem()

            title=data.xpath('td[1]/a/@title').extract()
            link=data.xpath('td[1]/a/@href').extract()

            item['title'] = [t.encode('utf-8') for t in title]
            item['link'] = "news.ahut.edu.cn" + [l.encode('utf-8') for l in link][0]
            items.append(item)
        return items

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-02-27 23:00
关注
http://www.tuicool.com/articles/jyQF32V

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 10:32

回答 1 已采纳 self.xidian_next_page确定有值吗
scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
基于Scrapy与Django的职位画像系统源码——数据抓取与Echarts可视化
2024-03-25 18:24

项目概述：本项目是一个基于Python语言的职位画像系统，集成了Scrapy与Django框架，实现了数据抓取与Echarts可视化展示。该系统主要由Python、HTML、JavaScript、CSS和Shell等多种语言编写，包含532个文件，其中HTML...
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
如何使用带有Scrapy的admin-ajax.php从网站上抓取数据 ajax php python
2018-07-11 12:56

回答 1 已采纳 I finally found how to do so, I am sure this is not the best way but at least I did what I wanted
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
Python 后端爬虫Scrapy 框架使用
2018-12-04 14:41

cx羽的博客 Python 后端爬虫Scrapy 框架使用：
scrapy genspider，创建文件失败 python
2022-05-30 21:19

回答 1 已采纳编码错了，不能用gbk,因为你这儿有二进制数据，你的用utf8
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
scrapy抓取关注者返回403，加请求头也报403，尝试添加了其他的请求头依然403，怎么解决 python
2021-07-25 16:57

回答 1 已采纳服务器拒绝了你的连接，你的ip可能被封了
基于Django框架的BookRecommandSystemWeb源码，集成Python与Scrapy数据采集
2024-03-25 21:30

在数据采集方面，项目采用了Scrapy框架进行高效数据抓取。技术栈以Python为主，辅以HTML、CSS和JavaScript实现前端交互。文件结构详细：项目共包含159个文件，具体分布如下： - Python源文件（.py）：68个，主要...
scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
scrapy抓取豆瓣网细化抓取到的信息（2）
2020-08-27 14:09

攻城狮小关的博客 3.制作爬虫 ... 编写细致化的爬虫文件如下注意代码之间的缩进规则，没有红波浪的下划线即没有错误，鼠标移动到红波浪的下划线位置会提示错误 ...然后我们到main.py中运行爬虫程序...（1）在cmd执行程序下输入scrapy c
基于scrapy以Django为后端的校园资讯采集的微信小程序
2022-04-22 23:58

Gowi_fly的博客一个采用scrapy爬虫以Django为后端的微信小程序项目地址：https://github.com/WGowi/USCCampusEastStreet 文章目录USCCampusEastStreet第一章系统概要分析1.1 系统总体设计1.1.1 系统组成部分分析1.1.2 系统运行...
没有解决我的问题, 去提问

悬赏问题

¥15 gwas 分析-数据质控之过滤稀有突变中出现的问题
¥15 没有注册类 (异常来自 HRESULT: 0x80040154 (REGDB_E_CLASSNOTREG))
¥15 知识蒸馏实战博客问题
¥15 用PLC设计纸袋糊底机送料系统
¥15 simulink仿真中dtc控制永磁同步电机如何控制开关频率
¥15 用C语言输入方程怎么
¥15 网站显示不安全连接问题
¥15 51单片机显示器问题
¥20 关于#qt#的问题：Qt代码的移植问题
¥50 求图像处理的matlab方案