不吃猫的鱼y 2024-08-07 17:55 采纳率: 81.5%
浏览 19
已结题

Python没爬取到数据,求看这个是什么原因

爬另一个网站也是这么操作的,能爬取到数据,爬这个就获取不到数据,控制台显示0条,我检查了节点感觉没问题呀

img

img

import requests
from fake_useragent import UserAgent
from lxml import etree
import pandas as pd


class driver:
    def __init__(self):
        self.url='https://www.ncss.cn/student/jobs/index.html'#请求url/网址
        self.headers = {'User-Agent':UserAgent().random}#请求头,包含随机生成的User-Agent
        self.df = pd.DataFrame(columns=["职位","薪资","公司名","学历","专业","其它"])#空的DataFrame,用于存储爬取的数据
        
    def get_html(self,url):
        res = requests.get(url, headers=self.headers)
        return res.text
        
    def parse_html(self,html):
        html = etree.HTML(html)
        list = html.xpath('//div[@class="job-list-box"]/div')
        #定义两个数组
        titles = []
        texts = []
        print(len(list))
        
        for li in list:
            title = li.xpath('./div/ul/h5/a/text()')[0]
            titles.append(title) 
            
            text = li.xpath('./div/ul/li/text()')[0]
            texts.append(text)
    
        temp_df = pd.DataFrame({
            "职位":titles,
            "详情":texts
            })
        self.df = pd.concat([self.df,temp_df],ignore_index=True)
        print(self.df)
        
        
    def run(self,pages=1):
        for page in range(1,pages + 1):
            url = f"{self.url}?start={10*(page - 1)}&filter="
            html = self.get_html(url)
            self.parse_html(html)
        self.df.to_excel("../tmp/爬虫数据.xlsx",index=False)
        
if __name__ =='__main__':
    spider = driver()
    spider.run()
    
        
        



  • 写回答

13条回答 默认 最新

  • 到点就困告 2024-08-07 17:59
    关注

    数据来源不是网页源代码,而是这个

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(12条)

报告相同问题?

问题事件

  • 系统已结题 8月16日
  • 已采纳回答 8月8日
  • 创建了问题 8月7日

悬赏问题

  • ¥15 Opencv配置出错
  • ¥15 模电中二极管,三极管和电容的应用
  • ¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
  • ¥15 气象网格数据与卫星轨道数据如何匹配
  • ¥100 java ee ssm项目 悬赏,感兴趣直接联系我
  • ¥15 微软账户问题不小心注销了好像
  • ¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
  • ¥15 curl 命令调用正常,程序调用报 java.net.ConnectException: connection refused
  • ¥20 关于web前端如何播放二次加密m3u8视频的问题
  • ¥15 使用百度地图api 位置函数报错?