python爬虫编程习题

自选一个大学，从大学的主页上爬出机构的URL、名称、简要介绍、电话、邮箱。再进入下属机构的主页，从中爬出下属机构的URL、名称、简要介绍、电话、邮箱。所有爬出的数据保存于同一个文件中。
（建议使用beautifulsoup,等基础入门的，因为是初学者一名）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

CSDN专家-showbo 2022-12-20 20:05

关注

兰州博文科技学院 http://www.bowenedu.cn/

这个倒是同一个模板。。。不过机构和院系比较少，不过研究bs也差不多了

from bs4 import BeautifulSoup
import requests
from openpyxl import Workbook
header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
url = "http://www.bowenedu.cn/xxgk1/xxjj.htm"

data=[]
html=requests.get(url,headers=header).content.decode('utf-8')
soup = BeautifulSoup(html,"html.parser")
name=soup.find('title').text.split('-')[-1]
intro=soup.find('div',{"id":"vsb_content_4"}).text
ps=soup.findAll('p')
phone=""
email=""
for p in ps:
    if '电 话：' in p.text:
        phone=p.text.replace('电 话：','')
    if '电子信箱：' in p.text:
        email=p.text.replace('电子信箱：','')
data.append([url,name,intro,phone,email])

#院部设置
depts=soup.select('div.menu li.item')[3].select('.secNav a')
for dept in depts:
    url=dept.get('href')
    if ".asp" not in url:
        continue
    name=dept.text
    html=requests.get(url,headers=header).content.decode('gb2312')
    soup = BeautifulSoup(html,"html.parser")

    arr=soup.select('#foot')[0].text.strip().split('    ')
    phone=arr[0].replace('学院咨询电话：','')
    email=arr[1].replace('管理员信箱：','')

    introurl='http://tiyu.bowenedu.cn'+str(soup.select('#guide a')[2].get('href'))

    html=requests.get(introurl,headers=header).content.decode('gb2312')
    isoup = BeautifulSoup(html,"html.parser")
    intro=isoup.select('div.down')[0].text

    data.append([url,name,intro,phone,email])



wb=Workbook()
sheet=wb.worksheets[0]#得到默认的工作簿
sheet.title="兰州博文科技学院"#改名称
sheet.append(['URL','名称','简要介绍','电话','邮箱'])
for item in data:
    sheet.append(item)
 
wb.save("兰州博文科技学院.xlsx")
print('采集完毕')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(5条)

报告相同问题？

关注问题

python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
Python列表编程练习题 python 有问必答
2021-10-12 18:49

回答 1 已采纳 productlist=["手机","电脑","鼠标垫"] x=int(input()) if x==1: print('请输入商品') s=input() productl
python编程练习题 python 有问必答
2021-12-15 09:30

回答 4 已采纳这样？ students=[] with open('score.txt') as f: students=f.readlines() listfail=[] listpass=[] fo
python爬虫练习题
2024-05-18 00:12

Python爬虫是利用Python编程语言编写的一种程序，用于自动化地从互联网上获取信息。它可以模拟人的行为，访问网页并提取所需的数据，常用于数据采集、信息监控、搜索引擎优化等领域。以下是Python爬虫的一般介绍： ...
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
Python 编程练习题，每页一个.pptx
2023-11-09 17:59

Python编程是一种广泛使用的高级编程语言，以其简洁明了的语法和强大的功能深受程序员喜爱。本篇文章将基于“Python 编程练习题，每页一个.pptx”这一主题，深入探讨Python的基础、进阶和应用练习，帮助你提升Python...
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
Python编程练习题、竞赛题、面试题和实战项目题
2023-11-12 19:50

Python编程是一种广泛应用于数据分析、机器学习、Web开发和自动化任务的高级编程语言。这份压缩包包含了一系列的Python编程练习题、竞赛题、面试题以及实战项目题，旨在帮助你全面掌握Python的基础和进阶知识，提升...
仓库只是python核心编程的习题
2024-01-03 19:58

Python编程是一种高级、解释型、面向对象的脚本语言，被广泛应用于网络爬虫、数据分析、机器学习、Web开发等多个领域。它以其简洁明了的语法和强大的功能深受程序员喜爱。"仓库只是python核心编程的习题"这个标题...
Python 核心编程习题解答.zip
2024-01-03 20:27

"Python核心编程习题解答.zip"这个压缩包文件很可能包含了针对Python初学者或者进阶者的一系列编程练习题及其解答，旨在帮助学习者深入理解Python的基础概念和语法。 Python的核心特性包括： 1. **动态类型**：在...
基于python的爬虫练习题（提供全套答案）
2024-05-30 18:11

项目背景随着互联网的快速发展，海量的网络数据成为人们获取信息和开展研究的重要资源。...项目主要使用Python语言，结合requests、BeautifulSoup、Scrapy等常用爬虫库，提供易于上手的编程环境和丰富的实践机会。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月20日

悬赏问题

¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同

python爬虫编程习题

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新