飞天小英雄 2024-10-09 14:13 采纳率: 88.9%
浏览 8
已结题

中国大学排名定向爬虫相关问题

得到初始HTML网页地址
url = " http://www.shanghairanking.cn/rankings/bcur/2024 "
获取HTML网页,向服务器请求资源
r = requests. ( , timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
返回HTTP响应内容的字符串形式,即,url对应的页面内容
html = r.

  • 写回答

1条回答 默认 最新

  • 广龙宇 新星创作者: 后端开发技术领域 2024-10-09 17:34
    关注

    注意:该回答引用自豆包AI智能助手

    以下是使用Python的requestsBeautifulSoup库来爬取软科2024中国大学排名信息的示例代码:

    import requests
    from bs4 import BeautifulSoup
    
    url = "http://www.shanghairanking.cn/rankings/bcur/2024"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到大学排名的表格主体部分
    table_body = soup.find('tbody')
    
    # 遍历表格的每一行,获取大学名称和排名
    for row in table_body.find_all('tr'):
        cells = row.find_all('td')
        rank = cells[0].text.strip()
        university_name = cells[1].text.strip()
        print(f"排名: {rank}, 大学: {university_name}")
    

    请注意:

    1. 运行代码前请确保已经安装了requestsBeautifulSoup库。如果没有安装,可以使用pip install requests beautifulsoup4命令进行安装。
    2. 网站可能存在反爬机制,如果爬取过程中出现问题,可能需要进一步处理反爬措施,例如添加请求头信息等。上述代码在简单的情况下可以正常工作,但对于复杂的网站环境可能需要更多的调整。
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 10月25日
  • 已采纳回答 10月17日
  • 创建了问题 10月9日