得到初始HTML网页地址
url = " http://www.shanghairanking.cn/rankings/bcur/2024 "
获取HTML网页,向服务器请求资源
r = requests. ( , timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
返回HTTP响应内容的字符串形式,即,url对应的页面内容
html = r.
中国大学排名定向爬虫相关问题
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
1条回答 默认 最新
关注注意:该回答引用自豆包AI智能助手
以下是使用Python的
requests和BeautifulSoup库来爬取软科2024中国大学排名信息的示例代码:import requests from bs4 import BeautifulSoup url = "http://www.shanghairanking.cn/rankings/bcur/2024" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 找到大学排名的表格主体部分 table_body = soup.find('tbody') # 遍历表格的每一行,获取大学名称和排名 for row in table_body.find_all('tr'): cells = row.find_all('td') rank = cells[0].text.strip() university_name = cells[1].text.strip() print(f"排名: {rank}, 大学: {university_name}")请注意:
- 运行代码前请确保已经安装了
requests和BeautifulSoup库。如果没有安装,可以使用pip install requests beautifulsoup4命令进行安装。 - 网站可能存在反爬机制,如果爬取过程中出现问题,可能需要进一步处理反爬措施,例如添加请求头信息等。上述代码在简单的情况下可以正常工作,但对于复杂的网站环境可能需要更多的调整。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报- 运行代码前请确保已经安装了