【python】[数据抽取]简历文档分句及判断入键？

如：

工作经验2013 /4--至今：上海通方有限公司(50-150人) [ 1 年11个月] 所属行业：互联网/电子商务研发部软件工程师外包到平安金科，开发彩票网站，平安好彩。http://caipiao.wanlitong.com我是在数字彩组，主要负责数字彩的购彩、返彩模块、数字彩活动联调接口以及部分跑批接口编写。期间也被掉到web app组，从事web app的开发。在这里接触到了项目由产生到结束的正规流程，认识到各个部门的合作之重要，积极处理产品和测试提出的问题，满足他们的需求同时提升自己的综合能力。2011 /9--2013 /4：中硕集团(150-500人) [ 1 年7个月] 所属行业：计算机软件技术部PHP程序员主要做公司所需网站。还有dedecms二次开发的管理系统。以下为dedecms制作的简单的医疗网站：http://www.kkebh.com/ http://www.tjcg120.com/http://www.wzwgyy.com/index.htmlhttp://www.cccg120.com/http://www.hljcgebh.com/2011 /2--2011 /9：上海仁缘数码科技有限公司(50-150人) [ 7个月] 所属行业：计算机软件技术部PHP程序员参与开发了CRM客户关系管理系统。还有一个小型的WDM系统。还有一个公司网站。网站网址：http://www.luxuriant.cn/CRM网址：http://crm.luxhunter.com/WDM网址：wdm.luxhunter.com通过这个项目，对面向对象，已经mvc有了进一步的了解

如何才能将这些分离出来：

2013 /4--至今

上海通方有限公司

50-150人

互联网/电子商务

研发部

软件工程师

外包到平安金科，开发彩票网站，平安好彩。http://caipiao.wanlitong.com我是在数字彩组，主要负责数字彩的购彩、返彩模块、数字彩活动联调接口以及部分跑批接口编写。期间也被掉到web app组，从事web app的开发。在这里接触到了项目由产生到结束的正规流程，认识到各个部门的合作之重要，积极处理产品和测试提出的问题，满足他们的需求同时提升自己的综合能力。2011 /9--2013 /4：中硕集团(150-500人) [ 1 年7个月] 所属行业：计算机软件技术部PHP程序员主要做公司所需网站。还有dedecms二次开发的管理系统。以下为dedecms制作的简单的医疗网站：http://www.kkebh.com/

并将这对应到键值

2013 /4--至今判断为工作时间

上海通方有限公司判断为公司名称

50-150人判断为公司规模

互联网/电子商务判断为为公司行业

研发部判断为部门

软件工程师判断为职业

那一段判断为工作内容

因为这些word都是不同的人自己写的，不太统一，不能用像xpath那样规则的方法去提取，所以我想到的是分局再判断录入（如果有更好方案欢迎指出），在这里，希望得到大神的指点，十分感谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

你知我知皆知 2024-08-11 17:44

关注

以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

要从给定的文本中提取关键信息并将其组织成键值对，我们可以使用自然语言处理技术和正则表达式。下面是一个简单的Python脚本示例，它尝试根据提供的文本来识别和提取关键信息。

import re

def extract_key_info(text):
    # 正则表达式匹配日期和职位信息
    pattern = r'\d{4}年\d{1,2}月\d{1,2}日'
    date_match = re.search(pattern, text)
    
    if date_match:
        start_date = date_match.start()
        end_date = date_match.end()
        
        # 提取日期范围
        year_range = text[start_date:end_date].split('至')
        if len(year_range) == 2:
            start_year = int(year_range[0])
            end_year = int(year_range[1])
        else:
            start_year = int(year_range[0])
            end_year = None
        
        # 提取公司名、地点、岗位、行业等信息
        company_pattern = r'(.*)\((.*?)\)'
        industry_pattern = r'(.*), (.*)'
        job_title_pattern = r'.*(.*)\n\(.*\)\n(.*)'
        
        company_matches = re.findall(company_pattern, text)
        industry_matches = re.findall(industry_pattern, text)
        job_title_matches = re.findall(job_title_pattern, text)
        
        return {
            'start_date': (start_year, start_date),
            'end_date': (end_year, end_date),
            'company_name': company_matches,
            'industry': industry_matches,
            'job_title': job_title_matches,
        }
    
    else:
        print("无法找到有效的日期或职位信息")
        return None

# 示例文本
text = """
2013 /4--至今: 上海通方有限公司(50-150人) [ 1 年11个月]

工作经验2013 /4--至今：上海通方有限公司(50-150人) [ 1 年11个月]
所属行业：互联网/电子商务研发部软件工程师外包到平安金科，开发彩票网站，平安好彩。

工作经验2011 /9--2013 /4：中硕集团(150-500人) [ 1 年7个月]
所属行业：计算机软件技术部PHP程序员主要做公司所需网站。还有dedecms二次开发的管理系统。以下为dedecms制作的 简单的医疗网站：
http://www.kkebh.com/

工作经验2011 /9--2013 /4：上海仁缘数码科技有限公司(50-150人) [ 7个月]
所属行业：计算机软件技术部PHP程序员参与开发了CRM客户关系管理系统。还有一个小型的WDM系统。还有一个公司网站。网站网址：
http://www.luxuriant.cn/CRM网址：http://crm.luxhunter.com/WDM网址：wdm.luxhunter.com
"""

result = extract_key_info(text)

if result is not None:
    print(result)
else:
    print("未找到有效的信息")

此脚本首先定义了一个函数extract_key_info，该函数接受一个字符串参数，并返回一个字典，其中包含日期范围、公司名称、地点、岗位、行业等信息。如果找不到有效的日期或职位信息，则返回None。

然后我们提供了一个示例文本，该文本包含了多个不同的工作经历。最后，我们调用这个函数并打印结果。

请注意，这个脚本可能需要一些调整以适应特定的需求，例如，你可能需要更复杂的正则表达式来识别某些格式的日期或职位信息，或者你需要在处理文本时进行更多的预处理。此外，这个脚本仅适用于简单的情况，对于更复杂的数据结构或更精细的分析，可能需要更高级的技术和方法。

报告相同问题？

关注问题

他山之石 | 腾讯多模态内容理解技术及应用
2022-04-19 11:05

kaiyuan_sjtu的博客在实验中，我们使用了约7000万的训练数据，包含纯文本数据、纯图片数据以及图片文本混合数据，其中图文数据约有5000万。从实验结果上来看，我们的模型相较于基线在AUC指标上有了12%左右的提升。 05 文档领域权威性...
用python实现基于自媒体数据的人群聚类分析
2022-06-08 09:16

程序员小王java的博客本设计利用Python编程爬虫搜集微博平台上关于大学生网课的评论，使用SPSS、机器学习、自然语言处理等方法，对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行前端可视化展示以及...
详解python那些强大的NLP库
2024-11-03 18:49

Generalzy的博客参考spaCy官方文档的训练自定义模型指南。开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。用法：为文件类对象或自定义词典的...
[Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解
2019-07-28 16:59

Eastmount的博客本系列文章主要结合Python语言实现知识图谱构建相关工程，具有一定创新性和实用性，非常希望各位博友交流讨论，相互促进成长。前面两篇文章详细讲解了哈工大Pyltp工具，包括中文分词、词性标注、实体识别、依存句法...
【AI 大模型应用开发实战】如何评估生成摘要的结果?
2023-08-07 00:58

光子AI的博客在自然语言处理(NLP)领域，文本摘要是一项重要且具有挑战性的任务。随着深度学习和预训练语言模型的发展，生成式摘要技术取得了显著进展。然而，如何客观、准确地评估生成摘要的质量一直是研究人员面临的一个关键...
AI人工智能领域知识图谱的自然语言处理应用
2025-05-16 22:34

光子AI的博客本文聚焦知识图谱与NLP的技术融合，深入解析实体抽取、关系分类、语义解析等核心技术的实现原理，结合具体案例演示从数据处理到图谱应用的完整流程，帮助读者建立知识图谱驱动NLP任务的技术思维。核心概念部分建立...
2022年总结：感谢十二年的陪伴——分享回归，不忘初心（Eastmount博客总结及未来规划）
2023-05-29 00:46

Eastmount的博客转眼，部分重要的事情将要完成，作者的分享也将逐渐回归，仅以此文感谢读者十二年的陪伴和支持，感谢分享路上所有师长、家人、同学、朋友、博友和读者的陪伴及鼓励。同时，这篇文章将总结和归档作者这些年的博客专栏...
企业级Python文章摘要智能生成方案：从TextRank到ChatGLM2-6B
2025-10-12 15:40

漫画之迷的博客本文将介绍Python文章摘要生成的多种技术方案，从入门级无监督方法到轻量级预训练模型。重点分析了基于统计规则的无监督摘要（如TextRank算法）和两类轻量级预训练模型（ERNIE 3.0 Tiny v2和T5-Pegasus-Chinese ...
【Python】用 Python 从单个文本中提取关键字的四种超棒的方法
2022-04-15 12:00

风度78的博客自然语言处理分析的最基本和初始步骤是关键词提取，在NLP中，我们有许多算法可以帮助我们提取文本数据的关键字。本文中，云朵君将和大家一起学习四种即简单又有效的方法，它们分别是Rake、Yake、Keybert 和 Textrank...
spln1415:自然语言处理中的脚本类库
2021-06-04 01:37

Perl是一种功能强大的脚本编程语言，尤其适合处理文本数据。在自然语言处理中，Perl的灵活性、可读性和丰富的文本处理能力使其成为许多NLP任务的理想选择。Perl的类库系统丰富，提供了许多用于处理语言数据的工具和...
Markdown SEO优化写作：用Miniconda-Python3.10生成关键词丰富文章
2025-12-30 19:47

孟园香的博客通过Miniconda与Python3.10搭建可复现的Markdown写作环境，结合RAKE算法和Jupyter实现关键词自动提取与数据驱动创作，提升技术文章的搜索引擎可见性，解决依赖混乱、团队协作难等问题。
python构建知识图谱_Python从零开始构建知识图谱
2020-12-18 22:51

weixin_39667797的博客为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。作者：知乎—wxj630地址：https://www.zhihu.com/people/wxj630知识图谱是...
自然语言处理之文本摘要：TF-IDF：自然语言处理前沿技术与文本摘要
2025-06-01 23:17

zhubeibei168的博客在信息爆炸的时代，每天都有大量的文本数据产生，从新闻文章、学术论文到社交媒体帖子。文本摘要技术旨在从这些长文本中提取或生成关键信息，帮助用户快速理解文本的主要内容，节省时间，提高效率。例如，新闻摘要...
自然语言处理之文本摘要：TF-IDF：关键词提取与TF-IDF
2025-06-01 23:12

zhubeibei168的博客抽取式摘要的核心在于识别哪些句子或片段最能代表整个文档的内容，而这一过程往往依赖于文本中词语的统计特征，如词频（TF）和逆文档频率（IDF）。文本预处理：包括分词、去除停用词、标点符号等。计算TF-IDF值。
大模型上下文太长怎么办？全面解析长文本处理技术与实战
2025-10-22 21:31

北辰alk的博客第五章：实战应用与性能评估 5.1 完整解决方案集成 5.2 性能优化建议总结核心解决方案关键技术亮点实践建议未来展望作者：北辰alk 引言随着大语言模型在处理长文档、多轮对话等复杂任务中的广泛应用，上下文...
python线性整数规划求解_自然语言处理系列之文本自动摘要技术(八)基于整数线性规划（ILP）的方法...
2020-12-28 21:35

weixin_39897749的博客请看前文：飘哥：自然语言处理系列之文本自动摘要技术(一)信息摘要概述zhuanlan.zhihu.com飘哥：自然语言处理系列之文本自动摘要技术(二)自动本文摘要zhuanlan.zhihu.com飘哥：自然语言处理系列之文本自动摘要...
自然语言处理之文本摘要：TF-IDF：自然语言理解与TF-IDF
2025-06-01 23:18

zhubeibei168的博客文本摘要的目标是从长文档中提取关键信息，生成一个简短的版本，保留原文的主要内容。TF-IDF可以用于识别文档中最重要的词，从而帮助生成摘要。计算TF-IDF值：对文档中的每个词计算其TF-IDF值。选择高TF-IDF值的句子...
自然语言处理之文本生成：Transformer：文本摘要与Transformer
2025-05-26 21:36

zhubeibei168的博客文本摘要（Text Summarization）是自然语言处理中的一个关键任务，其目标是从长篇文档中提取或生成一个简短的版本，保留原文的主要信息和意义。信息获取效率：在信息爆炸的时代，快速获取关键信息变得至关重要。文本...
法律领域AI应用架构的新方向，自然语言处理指引
2025-08-06 20:28

AI实战架构笔记的博客第三步：上传“训练数据”（比如100份标注好的合同），模型自动微调。多模态融合：处理文本、图像、语音等多种信息；知识增强：结合法律知识图谱，提升语义推理能力；低代码化：降低技术门槛，让法律从业者自己做AI...
Transformer大模型实战为文本摘要任务微调BERT模型
2024-10-04 04:04

光子AI的博客我们的目标是生成以下摘要： Python，编程语言，Web开发，数据分析首先，将文本输入BERT模型，得到每个token的表示： [CLS] Python [SEP] 编程语言 [SEP] Web 开发 [SEP] 数据分析 [SEP] [PAD] [PAD] 然后，根据每...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

【python】[数据抽取]简历文档分句及判断入键？

1条回答默认最新

码龄粉丝数原力等级 --

【python】[数据抽取]简历文档 分句及判断入键？

1条回答 默认 最新

【python】[数据抽取]简历文档分句及判断入键？

1条回答默认最新