求助！使用Scrapy爬取股票信息存在txt中，文件内容为空

请求各位大佬帮忙看一下，我的问题所在。最近在学习Scrapy的爬虫框架，对照北理嵩天老师的代码，重新选取网站做的，使用scrapy crawl命令运行时，在cmd命令行中无错误，但是在txt文件内没有内容，下面是我的代码，请各位大佬帮忙debug下。

爬取的网站为股城网：
股票列表链接：https://hq.gucheng.com/gpdmylb.html
个股信息链接：https://hq.gucheng.com/'+ stock

1.Spider中爬虫文件(stocks.py)

import scrapy
import re

class StocksSpider(scrapy.Spider):
    name = 'stocks'
    #allowed_domains = ['hq.gecheng.com']
    start_urls = ['https://hq.gucheng.com/gpdmylb.html']

    def parse(self, response):
        # 对a标签中的链接进行提取
        kv = {'user-agent': 'Mozilla/5.0'}  # 模拟浏览器发送请求
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.findall(r"[S][HZ]\d{6}",href)[0]#通过正则表达式获取正确的股票代码
                url = 'https://hq.gucheng.com/' + stock
                yield scrapy.Request(url,callback=self.parse_stock,headers=kv)
                #第二个参数callback给出了处理当前url给出的新的函数即parse_stock
                #return item
            except:
                continue

    def parse_stock(self, response):
        infoDict = {}  # 对每一个页面生成空字典
        stockInfo = response.css('.stock_top clearfix')
        name = stockInfo.css('.stock_title').extract()[0]
        keyList = stockInfo.css('dt').extract()
        valueList = stockInfo.css('dd').extract()
        for i in range(len(keyList)):
            key = re.findall(r'<dt>.*</dt>', keyList[i])[0][1:-5]
            # key = key.replace('\u2003','')
            # key = key.replace('\xa0', '')
            try:
                val = re.findall(r'<dd>\d+\.?.*</dd>', valueList[i])[0][0:-5]
            except:
                val = '--'
            infoDict[key] = val

        infoDict.update(
            {'股票名称': re.findall('\s.*\(', name)[0].split()[0] + re.findall('\>.*\<', name)[0][1:-1]})
        yield infoDict

2.pipelines.py

class GuchengstocksInfoPipeline(object):
    #openspider指的是当一个爬虫被调用时对应的pipline启动的方法
    def open_spider(self, spider):
        self.f = open('GuchengStockInfo.txt', 'w')

    #close_spider指的是当一个爬虫关闭时对应的pipline启动的方法
    def close_spider(self, spider):
        self.f.close()

    #对每一个item项进行处理时对应的方法，也是最主体的函数
    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

3.配置文件settings

ITEM_PIPELINES = {
    'GuchengStocks.pipelines.GuchengstocksInfoPipeline': 300,
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-11-02 21:00
关注
def parse_stock(self, response):

infoDict = {} # 对每一个页面生成空字典

你需要再ITEMS。py文件内创建一个class，假设是class GupiaoItem，

然后

def parse_stock(self, response):

infoDict = GupiaoItem()

infoDict["类属性"] = **

yield infoDict

试试，

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
scrapy 找不到txt文件是为什么？ python
2021-12-14 09:34

回答 1 已采纳 with open(r'ccgpwin_2021\publishTime','r') as f: preservationTime = f.readline() 有帮助请采纳
用scrapy爬取股票行情
2019-03-12 15:53

lezeqe的博客 PS:以下内容参照于《Python 3 爬虫、数据清洗与可视化实战》的第五章内容P78-P87 目录一、创建scrapy项目二、定义一个item容器三、定义settings文件进行爬虫基本设置四、编写爬虫逻辑五、代码调试一...
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
scrapy爬取股票信息持续失败，求助求助（嵩天老师mooc）
2020-03-20 23:23

Jessie_Z0602的博客完全复制粘贴mooc上源码，还是失败，刚开始以为是网站访问出错，于是增加了user_agent，还是失败，一直是这样的情况：求助啊~求助求个大佬解救下我 ...
爬虫 scrapy 导出json文件时，怎么让不同类之间空一行 python 有问必答
2021-06-26 13:47

回答 1 已采纳这是一个JSON数组，JSON里面不能空行，否则转换可能会出问题。
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
使用scrapy爬取前程无忧51job网站
2020-08-25 06:43

晴时初遇雨的博客求助看下以下哪里出现问题导致拿到了数据但是不能保存到mongodb中 spider主程序的py文件 # -*- coding: utf-8 -*- import scrapy import json import re from Job.items import JobItem class DataSpider(scrapy....
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
【爬虫作业】使用scrapy爬取游戏发售表，存入mongo数据库
2022-06-10 21:44

仙草哥哥的博客一个较为完整的爬虫项目，通过scrapy爬取游戏的发售列表，并保存到mongo数据库中
python从网上获取数据失败怎么解决_求助：scrapy爬取数据失败，反复调试都不成功...
2020-12-09 00:18

weixin_39990819的博客目标：爬取某一学习网站上课程信息，前期调试仅获取课程名称爬虫文件：import scrapyfrom xtzx.items import XtzxItemfrom scrapy.http import Requestclass LessonSpider(scrapy.Spider):name = 'lesson'allowed_...
没有解决我的问题, 去提问

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

求助！使用Scrapy爬取股票信息存在txt中，文件内容为空

2条回答 默认 最新

悬赏问题

2条回答默认最新