HWANGYUKAH 2020-05-26 11:07 采纳率: 0%
浏览 350

用scrapy有数据缺失,求助大佬!感谢

图片说明

爬取代码如下

import scrapy
from bs4 import BeautifulSoup
from dianying.items import DianyingItem
import re

class DianyingspiderSpider(scrapy.Spider):
    name = 'dianyingSpider'
    allowed_domains = ['http://dianying.2345.com/list/----2019---.html']
    start_urls = ['http://dianying.2345.com/list/----2019---.html']
    #start_urls =[]
    #for i in range(1,3):
    #    start_urls.append('http://dianying.2345.com/list/----2019---'+str(i)+'.html')

    def parse(self, response):

        soup = BeautifulSoup(response.text,'lxml')
        anchorTag = soup.find( 'ul',attrs = {'class':"v_picTxt pic180_240 clearfix"})  
        tags = anchorTag.find_all('li',attrs={'media':re.compile('\d{6}')})   #找到不同电影的不同代码

        items = []
        for tag in tags:


            item = DianyingItem()
            item['name']= tag.find('span',attrs={'class':'sTit'}).get_text() #爬取电影名

            item['score'] = tag.find('span',attrs={'class':'pRightBottom'}).get_text().replace('分',' ') #爬取评分

            item['leadingRole'] = tag.find('span',attrs={'class':'sDes'}).get_text() #爬取主演

            items.append(item)
        return items


  • 写回答

1条回答 默认 最新

  • 关注
    评论

报告相同问题?

悬赏问题

  • ¥15 在获取boss直聘的聊天的时候只能获取到前40条聊天数据
  • ¥20 关于URL获取的参数,无法执行二选一查询
  • ¥15 液位控制,当液位超过高限时常开触点59闭合,直到液位低于低限时,断开
  • ¥15 marlin编译错误,如何解决?
  • ¥15 有偿四位数,节约算法和扫描算法
  • ¥15 VUE项目怎么运行,系统打不开
  • ¥50 pointpillars等目标检测算法怎么融合注意力机制
  • ¥20 Vs code Mac系统 PHP Debug调试环境配置
  • ¥60 大一项目课,微信小程序
  • ¥15 求视频摘要youtube和ovp数据集