python scrapy爬虫抓取的内容只有一条，怎么破？？

目标URL：http://218.92.23.142/sjsz/szxx/Index.aspx（工作需要）
主要目的是爬取网站中的信件类型、信件主题、写信时间、回复时间、回复状态以及其中链接里面的具体内容，然后保存到excel表格中。里面的链接全部都是POST方法，没有出现一个具体的链接，所以我感觉非常恼火。
目前碰到的问题：
1、但是我只能抓到第一条的信息，后面就抓不到了。具体是这条：市长您好：我是一名事...
2、 scrapy运行后出现的信息是：
15:01:33 [scrapy] INFO: Scrapy 1.0.3 started (bot: spider2)
2016-01-13 15:01:33 [scrapy] INFO: Optional features available: ssl, http11
2016-01-13 15:01:33 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'spider2.spiders', 'FEED_URI': u'file:///F:/\u5feb\u76d8/workspace/Pythontest/src/Scrapy/spider2/szxx.csv', 'SPIDER_MODULES': ['spider2.spiders'], 'BOT_NAME': 'spider2', 'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5', 'FEED_FORMAT': 'CSV'}
2016-01-13 15:01:36 [scrapy] INFO: Enabled extensions: CloseSpider, FeedExporter, TelnetConsole, LogStats, CoreStats, SpiderState
2016-01-13 15:01:38 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2016-01-13 15:01:38 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2016-01-13 15:01:38 [scrapy] INFO: Enabled item pipelines:
2016-01-13 15:01:38 [scrapy] INFO: Spider opened
2016-01-13 15:01:38 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-01-13 15:01:38 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-01-13 15:01:39 [scrapy] DEBUG: Filtered duplicate request: - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Redirecting (302) to from
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Scraped from
第一条的信息（太多了，就省略了。。。。）
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
…………
后面的差不多，就不写出来了
2016-01-13 15:01:41 [scrapy] INFO: Stored csv feed (1 items) in: file:///F:/快盘/workspace/Pythontest/src/Scrapy/spider2/szxx.csv
2016-01-13 15:01:41 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 56383,
'downloader/request_count': 17,
'downloader/request_method_count/GET': 3,
'downloader/request_method_count/POST': 14,
'downloader/response_bytes': 118855,
'downloader/response_count': 17,
'downloader/response_status_count/200': 16,
'downloader/response_status_count/302': 1,
'dupefilter/filtered': 120,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2016, 1, 13, 7, 1, 41, 716000),
'item_scraped_count': 1,
'log_count/DEBUG': 20,
'log_count/INFO': 8,
'request_depth_max': 14,
'response_received_count': 16,
'scheduler/dequeued': 17,
'scheduler/dequeued/memory': 17,
'scheduler/enqueued': 17,
'scheduler/enqueued/memory': 17,
'start_time': datetime.datetime(2016, 1, 13, 7, 1, 38, 670000)}
2016-01-13 15:01:41 [scrapy] INFO: Spider closed (finished)

具体的代码如下（代码写的不好，误喷）：
import sys, copy

reload(sys)
sys.setdefaultencoding('utf-8')
sys.path.append("../")

from scrapy.spiders import CrawlSpider
from scrapy.http import FormRequest, Request
from scrapy.selector import Selector
from items import Spider2Item

class Domeszxx(CrawlSpider):
name = "szxx"
allowed_domain = ["218.92.23.142"]
start_urls = ["http://218.92.23.142/sjsz/szxx/Index.aspx"]
item = Spider2Item()

def parse(self, response):

    selector = Selector(response)

    # 获得下一页的POST参数
    viewstate = ''.join(selector.xpath('//input[@id="__VIEWSTATE"]/@value').extract()[0])
    eventvalidation = ''.join(selector.xpath('//input[@id="__EVENTVALIDATION"]/@value').extract()[0])
    nextpage = ''.join(
            selector.xpath('//input[@name="ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage"]/@value').extract())
    nextpage_data = {
        '__EVENTTARGET': 'ctl00$ContentPlaceHolder1$GridView1$ctl12$cmdNext',
        '__EVENTARGUMENT': '',
        '__VIEWSTATE': viewstate,
        '__VIEWSTATEGENERATOR': '9DEFE542',
        '__EVENTVALIDATION': eventvalidation,
        'ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage': nextpage
    }
    # 获得抓取当前内容的xpath
    xjlx = ".//*[@id='ContentPlaceHolder1_GridView1_Label2_"
    xjzt = ".//*[@id='ContentPlaceHolder1_GridView1_LinkButton5_"
    xxsj = ".//*[@id='ContentPlaceHolder1_GridView1_Label4_"
    hfsj = ".//*[@id='ContentPlaceHolder1_GridView1_Label5_"
    nextlink = '//*[@id="ContentPlaceHolder1_GridView1_cmdNext"]/@href'

    # 获取当前页面公开答复的行数
    listnum = len(selector.xpath('//tr')) - 2

    # 获得抓取内容
    for i in range(0, listnum):
        item_all = {}
        xjlx_xpath = xjlx + str(i) + "']/text()"
        xjzt_xpath = xjzt + str(i) + "']/text()"
        xxsj_xpath = xxsj + str(i) + "']/text()"
        hfsj_xpath = hfsj + str(i) + "']/text()"

        # 信件类型
        item_all['xjlx'] = selector.xpath(xjlx_xpath).extract()[0].decode('utf-8').encode('gbk')
        # 信件主题
        item_all['xjzt'] = str(selector.xpath(xjzt_xpath).extract()[0].decode('utf-8').encode('gbk')).replace('\n',
                                                                                                              '')
        # 写信时间
        item_all['xxsj'] = selector.xpath(xxsj_xpath).extract()[0].decode('utf-8').encode('gbk')
        # 回复时间
        item_all['hfsj'] = selector.xpath(hfsj_xpath).extract()[0].decode('utf-8').encode('gbk')

        # 获取二级页面中的POST参数
        eventtaget = 'ctl00$ContentPlaceHolder1$GridView1$ctl0' + str(i + 2) + '$LinkButton5'
        content_data = {
            '__EVENTTARGET': eventtaget,
            '__EVENTARGUMENT': '',
            '__VIEWSTATE': viewstate,
            '__VIEWSTATEGENERATOR': '9DEFE542',
            '__EVENTVALIDATION': eventvalidation,
            'ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage': nextpage
        }
        # 完成抓取信息的传递
        yield Request(url="http://218.92.23.142/sjsz/szxx/Index.aspx", callback=self.send_value,
                      meta={'item_all': item_all, 'content_data': content_data})

        # 进入页面中的二级页面的链接，必须利用POST方法才能提交，无法看到直接的URL，同时将本页中抓取的item和进入下一页的POST方法进行传递
        # yield Request(url="http://218.92.23.142/sjsz/szxx/Index.aspx", callback=self.getcontent,
        #               meta={'item': item_all})
        # yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=content_data,
        #                   callback=self.getcontent)

    # 进入下一页
    if selector.xpath(nextlink).extract():
        yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=nextpage_data,
                          callback=self.parse)

# 将当前页面的值传递到本函数并存入类的item中
def send_value(self, response):
    itemx = response.meta['item_all']
    post_data = response.meta['content_data']
    Domeszxx.item = copy.deepcopy(itemx)
    yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=post_data,
                      callback=self.getcontent)
    return

# 将二级链接中值抓取并存入类的item中
def getcontent(self, response):
    item_getcontent = {
        'xfr': ''.join(response.xpath('//*[@id="lblXFName"]/text()').extract()).decode('utf-8').encode('gbk'),
        'lxnr': ''.join(response.xpath('//*[@id="lblXFQuestion"]/text()').extract()).decode('utf-8').encode(
                'gbk'),
        'hfnr': ''.join(response.xpath('//*[@id="lblXFanswer"]/text()').extract()).decode('utf-8').encode(
                'gbk')}
    Domeszxx.item.update(item_getcontent)
    yield Domeszxx.item
    return

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-01-19 19:59
关注
http://www.zhihu.com/question/39448545

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf
2021-06-19 20:22

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都...
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 11:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
基于Python的Scrapy爬虫框架设计源码
2024-04-18 15:09

本项目是基于Python的Scrapy爬虫框架设计源码，包含22个文件，其中主要包含12个py源代码文件，4个xml配置文件等。系统采用了Python编程语言，实现了网站爬虫的功能，可以高效地抓取网站数据。项目结构清晰，代码...
这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数? python 爬虫
2021-09-06 00:23

回答 2 已采纳可以用meta累计请求次数，在后续的请求中获取请求次数。 def parse(self, response): meta = {'crawlCnt': 0} if response.met
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
关于#scrapy#的问题，如何解决？ python 爬虫
2023-03-07 18:36

回答 2 已采纳从代码看，你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块，而没有对其他数据块进行处理。你可以尝试使用循环迭代数据块，以便对每个数据块进行相同
基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx
2022-02-13 17:30

本系统采用Scrapy爬虫框架来开发，使用Xpath网页提取技术对下载网页进行内容解析，使用Redis做分布式，使用MongoDB对提取的数据进行存储，使用Django开发可视化界面对爬取的结果进行友好展示，设计并实现了针对链家...
Python的Scrapy模块；解释一下？ javascript pycharm python
2021-07-23 11:36

回答 3 已采纳这个只是爬虫的Spider编写啥也没做没有入口都运行不了顶多实现下面:import requestsurl = 'https://www.santostang.com/'response = re
PythonScrapy爬虫框架学习
2021-01-27 13:29

Scrapy是用Python实现一个为爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。...
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
2021-01-20 04:38

在安装Scrapy前首先需要确定的是已经安装好了Python（目前Scrapy支持Python2.5，Python2.6和Python2.7）。官方文档中介绍了三种方法进行安装，我采用的是使用 easy_install 进行安装，首先是下载Windows版本的...
没有解决我的问题, 去提问

悬赏问题

¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题
¥15 Python时间序列如何拟合疏系数模型

python scrapy爬虫 抓取的内容只有一条，怎么破？？

1条回答

悬赏问题

python scrapy爬虫抓取的内容只有一条，怎么破？？