在途商贸 2020-03-04 16:18 采纳率: 0%
浏览 398

scrapy每个url提取的数据保存不同的表中,几百个url?

scrapy每个url提取的数据保存mongobd不同的集合zhong,几百个url?
各位大佬怎么处理帮帮忙! 不知道怎么处理

# -*- coding: utf-8 -*-
import scrapy
from dongQiuDi.items import  DongqiudiItem
import  time

class ZuqiuSpider(scrapy.Spider):
    name = 'zuqiu'
    allowed_domains = ['dongqiudi.com']
    start_urls = [
        "https://www.dongqiudi.com/data/1",
        'https://www.dongqiudi.com/data/2',
        "https://www.dongqiudi.com/data/3",
        "https://www.dongqiudi.com/data/4",
        "https://www.dongqiudi.com/data/5",
        "https://www.dongqiudi.com/data/10",
        "https://www.dongqiudi.com/data/16",
        "https://www.dongqiudi.com/data/12",
        "https://www.dongqiudi.com/data/16",
        "https://www.dongqiudi.com/data/19",        #土超
        "https://www.dongqiudi.com/data/55",
        "https://www.dongqiudi.com/data/17",
        "https://www.dongqiudi.com/data/18",
        "https://www.dongqiudi.com/data/20",        #巴西
        "https://www.dongqiudi.com/data/21",        #阿根廷
        "https://www.dongqiudi.com/data/68",        #卡特尔
        "https://www.dongqiudi.com/data/69",        #伊朗
        "https://www.dongqiudi.com/data/71",        #乌兹别克
    ]

    def parse(self, response):
        p_list = response.xpath(".//div[@class='team_point_ranking']/div/div/div/p")
        for p in p_list:

            item = DongqiudiItem()

            item['No'] = p.xpath(
                "./span[1]/text()").extract_first()
            item['image'] = p.xpath(
                "./span[2]/img/@src").extract_first()
            item['name'] = p.xpath(
                "./span[2]/b/text()").extract_first()

            item['sestion'] = p.xpath(
                "./span[3]/text()").extract_first()
            item['win'] = p.xpath(
                "./span[4]/text()").extract_first()
            item['mean'] = p.xpath(
                "./span[5]/text()").extract_first()
            item['lose'] = p.xpath(
                "./span[6]/text()").extract_first()
            item['coal'] = p.xpath(
                "./span[7]/text()").extract_first()
            item['fumbole'] = p.xpath(
                "./span[8]/text()").extract_first()
            item['goaldifference'] = p.xpath(
                "./span[9]/text()").extract_first()
            item['score'] = p.xpath(
                "./span[10]/text()").extract_first()
            yield  item

        time.sleep(1)          #每一个URL,暂停一秒
  • 写回答

1条回答

  • 放风喽 2020-03-05 11:07
    关注

    item设置一个key,value是response.url
    在peplines里面将这个key取出来,创建一个表,就行了

    评论

报告相同问题?

悬赏问题

  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码
  • ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型
  • ¥15 vs2019中数据导出问题
  • ¥20 云服务Linux系统TCP-MSS值修改?
  • ¥20 关于#单片机#的问题:项目:使用模拟iic与ov2640通讯环境:F407问题:读取的ID号总是0xff,自己调了调发现在读从机数据时,SDA线上并未有信号变化(语言-c语言)