python关于request的爬虫和对爬取的数据简单处理

from os import lstat
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import json
from matplotlib import colors, pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签 plt.reParams是一个配置表
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
allUniv = []



def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return ""          #程序运行到这网页爬取完成


def fillUnivList(soup):        #从爬取到的网页中获取自己想要的数据
    data = soup.find_all('tr')
    for tr in data:
        ltd = tr.find_all('td')
        if len(ltd) == 0:
            continue
        singleUniv = []
        for td in ltd:
            singleUniv.append(td.string)
        allUniv.append(singleUniv)
                 


def printUnivList(num):
    print("{1:^4}{2:{0}<15}{3:{0}^5}{4:{0}^8}{5:{0}<10}".format(
        chr(12288), "名次", "学校名称", "综合得分", "星级排名", "办学层次"))
    lst =[]
    for i in range(1,num+1):
        u = allUniv[i]
        lst.append(eval(u[2]))
        print("{1:^4}{2:{0}<15}{3:{0}^5}{4:{0}^8}{5:{0}<10}".format(
            chr(12288), u[0], u[1], u[2], u[3], u[4]))
    df=pd.DataFrame(allUniv)           #把数据放入csv文件
    df.to_csv('D:\\demo\\xsb.csv',index=False,sep=',')

def barpng():         #对前十名的学校的综合得分进行画图
    大学名称=range(10)
    综合得分=[100,98.78,82.14,81.98,81.43,81.34,80.49,80.44,80.41,80.38]
    plt.bar(大学名称,综合得分, label='分数',color = "green")
    plt.legend()
    plt.xticks([0,1,2,3,4,5,6,7,8,9],['北京大学','清华大学','复旦大学','浙江大学','南京大学','上海交通大学','华中科技大学','中国科学技术大学','中国人民大学','天津大学'])
    plt.xlabel("大学名称")
    plt.ylabel("综合得分")
    plt.title(u'中国高校前10星级统计图')
    for i in range(10):
        plt.text(i,综合得分[i]+0.1,"%s"%综合得分[i],va='center')
    plt.show()





def main():
    url = 'http://gaosan.com/gaokao/265440.html'
    html = getHTMLText(url)   #获取网页内容
    soup = BeautifulSoup(html, "html.parser")    #对数据分析
    fillUnivList(soup)    #对获取的网页进行数据分析
    printUnivList(100)    #在终端打印排名
    barpng()    #画柱形图

main()

如果我要只获取排名前一百的大学存入csv文件中，该怎么做

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
碰碰虎 2021-06-23 20:34
关注
df=pd.DataFrame(allUniv) #把数据放入csv文件 df100=df.loc[1:100] #增加一个中间变量 df100.to_csv('D:\\demo\\xsb.csv',index=False,sep=',')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
一个月入门Python爬虫学习,轻松爬取大规模数据
2020-09-20 22:30

3. **灵活性与扩展性**：Python爬虫可以根据实际需求灵活定制，支持多种数据格式的存储和处理，还可以扩展至大规模数据采集。 #### 二、具体学习步骤： ##### 1. 学习Python包并实现基本的爬虫过程 - **基础知识*...
Python爬虫教学——简单爬取网页数据
2023-06-12 13:49

小敢摘葡萄的博客本文是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。
六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
2023-06-19 15:04

大模型工程师老蓝的博客用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。
Python指南：六步教你如何使用python爬虫爬取数据
2024-09-19 10:02

WANGWUSAN66的博客然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制下网页的URL。由于我们需要的是网页上的一类信息，所以我们需要对获取的地址进行分析，提取。用左上角的小框带箭头的标志，如下图，...
python-爬虫（最后附爬取数据的源码）
2021-12-13 12:00

小秃米的博客由于互联网数据的多样性和资源的有限性，根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。只要能通过浏览器访问的数据都可以通过爬虫抓取。爬虫的本质：模拟浏览器打开网页，获取网页中我们想要的那...
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
2020-09-19 21:19

### Python3实现爬虫爬取赶集网列表功能——基于request和BeautifulSoup模块 #### 一、概述在当今互联网时代，数据爬取已经成为了一项非常重要的技能，无论是用于数据分析还是构建自己的应用服务，掌握爬虫技术都...
Python爬虫实战——爬取新闻数据（简单的深度爬虫）
2023-03-02 17:02

府鲜生的博客新闻数据爬取
Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库
2019-08-10 07:39

Scrapy由多个组件组成，包括Spider（爬虫）、Item（数据模型）、Item Pipeline（数据处理管道）、Request/Response（请求/响应）以及Downloader Middleware（下载中间件）。Spider负责解析网页，提取所需信息；Item...
如何用六步教会你使用python爬虫爬取数据
2023-02-22 10:09

AI大模型学习教程的博客用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就...
没有解决我的问题, 去提问

python关于request的爬虫和对爬取的数据简单处理

1条回答 默认 最新

1条回答默认最新