学术论文作者工作经历和教育经历爬虫

爬虫问题，不论方法希望爬取到作者工作信息和教育信息

已有数据是一个Excel表格，版面如图所示

其中，作者栏是一纵列，包括第一作者第二作者等，如何爬取这些信息呢？由于每个作者在其工作单位的个人介绍页面网址端口并不相同，国内也没有统一的学术作者介绍网站，故本人无法编译出统一的代码去定向爬取。国内ChatGPT等人工智能大语言模型因为通过节点连接，无法联网搜索，故也无法帮助本人搜索并导出这些作者的教育和工作信息。可以从百度百科/高校界面/维基百科等任何可信网站获得信息，能爬到即可，不要求是python，八爪鱼也行

有一段代码，但不一定有用，可不用，只要结果，私信获得所有Excel数据

import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
import time
import logging
 
# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 
input_file = 'E:/资料/金融/RA/Python源代码/1234.xlsx'
df = pd.read_excel(input_file)
 
bing_search_url = "https://www.bing.com/search?q={}"
results = []
 
for index, row in df.iterrows():
    authors = row['作者']
    institution = row['作者单位']
 
    author_names = re.split(r'[,\s；;]+', authors)
    author_names = [re.sub(r'\d+$', '', name).strip() for name in author_names if name]
 
    for author_name in author_names:
        try:
            search_query = f"{author_name} {institution} 教育背景 工作经历"
            response = requests.get(bing_search_url.format(search_query), headers={"User-Agent": "Mozilla/5.0"})
            response.raise_for_status()
 
            soup = BeautifulSoup(response.content, 'html.parser')
            found_info = False
 
            for i, result in enumerate(soup.find_all('li', {'class': 'b_algo'}), start=1):
                title = result.find('h2')
                snippet = result.find('p')
 
                if title and snippet:
                    info_text = snippet.get_text().strip()
                    results.append({
                        '作者': author_name,
                        '作者单位': institution,
                        '教育背景与工作经历': info_text
                    })
                    found_info = True
                    logging.info(f'已成功爬取 {author_name} 的信息：{info_text}')
                    break
                if i > 5:
                    break
 
            if not found_info:
                logging.warning(f'未找到 {author_name} 的相关信息')
                results.append({
                    '作者': author_name,
                    '作者单位': institution,
                    '教育背景与工作经历': '未找到'
                })
 
            time.sleep(2)
        
        except requests.exceptions.HTTPError as e:
            logging.error(f'HTTP错误: {e}')
            results.append({
                '作者': author_name,
                '作者单位': institution,
                '教育背景与工作经历': '未找到'
            })
        except Exception as e:
            logging.error(f'爬取 {author_name} 时出错: {e}')
            results.append({
                '作者': author_name,
                '作者单位': institution,
                '教育背景与工作经历': '出错'
            })
 
output_df = pd.DataFrame(results)
output_file = 'E:/资料/金融/RA/Python源代码/authors_bing_education_work_experience.xlsx'
output_df.to_excel(output_file, index=False)
logging.info(f'所有数据已保存至 {output_file}')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

34条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-12-01 12:58
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

答案

🤔 首先，让我们分解这个问题。您想要爬取作者的工作经历和教育经历信息，但是这些信息并不是一个整体，可以通过分析作者个人介绍页来爬取。

数据预处理：首先，您需要将Excel表格中的作者信息转换为 Python 可读的格式，这可能涉及到 JSON、CSV 或 pickle 等格式的转换。
作者个人介绍页爬取：然后，您可以使用 Python 中的爬虫库，例如 requests 和 BeautifulSoup，爬取作者个人介绍页中的工作经历和教育经历信息。
信息提取：在爬取的页面中，您可以使用 regular expression 或 BeautifulSoup 的selectors来提取特定的信息，例如工作年份、工作单位、学历、专业等。

以下是一些可能会有用的 Python 代码：

import requests from bs4 import BeautifulSoup import json # 数据预处理 authors = json.load(open('authors.json')) # 从Excel表格中读取作者信息 # 作者个人介绍页爬取 for author in authors: url = f"https://example.com/{author['name']}" # author的个人介绍页 URL response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 信息提取 work_experience = [] education = [] for item in soup.find_all('li'): if item.text.startswith('工作经历'): work_experience.append(item.text.strip()) elif item.text.startswith('教育'): education.append(item.text.strip()) # 数据存储 author_info = {'name': author['name'], 'work_experience': work_experience, 'education': education} authors_data.append(author_info) # 将爬取的数据存储到 Excel 表格中 with open('authors_data.json', 'w') as f: json.dump(authors_data, f, indent=4)

请注意，这只是一个简单的示例代码，您可能需要根据实际情况进行修改和调整。

另外，如果您使用 ChatGPT 可以帮助您完成爬取和信息提取工作，但是您需要提供实际的个人介绍页 URL 和相关信息，以便ChatGPT正确地爬取和分析信息。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一个使用 Python 编写的学术论文爬虫源码，用于抓取 IEEE Xplore 上的学术论文信息，包括标题、作者、发表年份、引用次数等
2025-07-20 11:25

Python 编写的学术论文爬虫是一种网络爬虫程序，它专门用于自动化地从 IEEE Xplore 等学术数据库中抓取论文的相关信息。这些信息包括论文的标题、作者、发表年份、引用次数等，这些都是进行学术研究和文献综述时非常...
Python爬虫抓取学术期刊数据（Springer、Elsevier） 学术论文数据库抓取：抓取论文标题、摘要与作者信息的 Python 爬虫实现
2025-05-13 23:16

随着互联网的普及，许多学术论文数据库如Springer和Elsevier等，都提供了丰富的论文资源供用户查询和研究。但手动搜集和整理这些信息既耗时又低效，因此Python爬虫技术在学术研究中扮演了越来越重要的角色。Python...
网络爬虫.论文答辩PPT
2022-05-30 15:48

2. **Python和Scrapy框架**：Python是爬虫开发的常用语言，其丰富的库支持使得爬虫开发更加便捷。Scrapy是一个强大的Python爬虫框架，它提供了高效的网页抓取和数据处理功能，包括请求调度、中间件处理、爬取策略等...
材料科学文献挖掘：学术论文爬虫开发指南.pdf
2025-04-27 14:05

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
Python爬虫构建学术论文查重系统的核心算法.pdf
2025-04-25 10:11

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
学术开放获取论文爬虫开发与伦理探讨.pdf
2025-04-28 10:25

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
用爬虫技术实现学术论文影响力评估的数据采集.pdf
2025-04-21 14:25

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
Python 爬虫实战：爬取学术论文数据
2025-02-09 22:11

西攻城狮北的博客本文将深入探讨如何利用 Python 爬虫爬取学术论文数据，从环境搭建到代码实现，每一步都附有详尽说明和代码注释，帮助大家快速上手。本文从环境搭建、代码实现到注意事项，全方位地介绍了 Python 爬虫技术在学术论文...
Python学术论文爬虫实战：爬取知网、万方等平台数据
2025-09-20 12:02

Python爬虫项目的博客本文详细介绍如何使用Python构建一个高效、稳定的学术论文爬虫系统，能够从中国知网、万方数据等主流学术平台抓取论文数据。文章将涵盖爬虫基本原理、最新技术栈、反爬虫策略应对、数据解析与存储等内容，并提供完整...
使用 Python 爬虫抓取 AI 技术相关文章、研究论文和学术报告
2024-12-10 11:27

Python爬虫项目的博客 Python 3.x：作为编程语言。Requests：用于发送 HTTP 请求并获取网页内容，适用于静态网页。Selenium：用于模拟浏览器操作，抓取动态加载的页面，适用于需要 JavaScript 渲染的页面。：用于解析 HTML 页面，提取需要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月1日

学术论文作者工作经历和教育经历爬虫

34条回答 默认 最新

答案

问题事件

34条回答默认最新