中文命名实体——语料处理

读入train文件，文件已经经过BIO标记，格式为text label。

train文件内容如下所示（句中每个字间由空格隔开，text与label之间由若干空格组成，且每句话中text与label间的空格数不固定，每句话‘text+label’占一行）:

扫描或点击关注中金在线客服证券时报记者杨丽花中止国内定增项目两个月后，申达股份就发布了新的非公开发行预案。 O O O O O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O B-PER I-PER I-PER O O O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O

根据《 2 0 1 7 年非公开发行 A 股股票预案》称，拟向包括公司控股股东申达集团在内的不超过 1 0 名 ( 含 1 0 名 ) 特定投资者非公开发行 A 股股票数量不超过 1 4 , 2 0 4 . 8 5 万股，其中申达集团认购股票数量为本次发行股票总量的 3 1 . 0 7 % ，募集资金总额不超过 2 1 . 5 6 亿元 ( 含发行费用 ) ，募集资金扣除发行相关费用后将用于收购 I A C 集团之 S T & A 业务相关资产， I A C 集团拟将上述资产注入新设的 A u r i a 公司，由申达股份通过申达英国公司认购 A u r i a 公司 7 0 % 的股份。 O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O B-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG O O B-ORG I-ORG I-ORG I-ORG O O O O B-ORG I-ORG I-ORG I-ORG O O B-ORG I-ORG I-ORG I-ORG I-ORG I-ORG I-ORG O O O O O O O

将其转换为

扫 O

描 O

或 O

点 O

击 O

关 O

注 O

中 B-ORG

金 I-ORG

在 I-ORG

线 I-ORG

……

的格式（每行由一个字和一个标签组成，字与标签中间由空格隔开，字和标签的对应方式是每句话中‘字’的相应位置（第几个）与句子后跟的‘标签’的位置（第几个）对应，句与句之间用空行间隔），将转换后的结果保存到文件。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

CSDN专家-天际的海浪 2021-04-14 15:36

关注

import re
with open("输出文件.txt","w",encoding="utf-8") as outfile:
    with open("train.txt","r",encoding="utf-8") as fileObj:
        for line in fileObj:
            s = re.match(r'^(.+?)\s+([\-\w\s]+)$',line,re.S)
            li1 = re.findall(r"\S+",s.group(1))
            li2 = re.findall(r"\S+",s.group(2))
            for w,k in zip(li1,li2):
                print(w,k)
                outfile.write(w+" "+k+"\n")
            print()
            outfile.write("\n")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

msra公开命名实体训练语料
2018-06-04 14:57

《msra公开命名实体训练语料》是针对自然语言处理领域中的一个重要任务——命名实体识别（NER）而设计的一份训练资源。这份语料库由微软亚洲研究院（Microsoft Research Asia，简称MSRA）提供，旨在帮助研究者和...
中文自然语言处理学习笔记（二）——语料库的安装与使用
2024-04-02 10:56

l~l~long的博客这章笔记一步步介绍语料库概念与使用，安装NLTK，实现对线上语料库内容的获取与分析，最后实现构建一个斗罗大陆小说的本地语料库。
自然语言处理之——词性标注和命名实体识别
2022-01-25 11:39

xiao | yang的博客基于上次分享的分词技术介绍，本次继续分享在分词后与词相关联的两个技术：词性标注和命名实体识别。词性是词汇基本的语法属性，也可以称为词类。词性标注的行为就是在给定的中文句子中判定每个词的语法作用，确定每...
深入详解人工智能自然语言处理（NLP）之文本处理：分词、词性标注、命名实体识别
2025-01-10 10:28

猿享天开的博客【自然语言处理】——深入详解人工智能自然语言处理（NLP）之文本处理：分词、词性标注、命名实体识别
人工智能（10）——————自然语言处理
2024-11-07 15:46

長安一片月的博客其实在现在的人工智能领域，很多东西都是...自然语言处理（Natural Language Processing，简称NLP）是指计算机科学与人工智能领域的一门学科，它研究和开发用于使计算机能够理解、处理和生成人类自然语言的技术和方法。
基于深度学习的命名实体识别研究综述——论文研读
2022-10-05 10:57

椒椒。的博客 命名实体识别论文研读。
NLP从零开始------6基础文本处理之命名实体识别
2024-08-02 23:26

人生百态，人生如梦的博客 命名实体识别（Named Entity Recognition，NER）中的“命名实体”一般是指文本中具有特别意义或指代性非常强的实体（比如：人名，地名，时间或者机构组织等）。命名实体可分为实体类、时间类和数字类3大类，以及人名...
Python-大规模中文自然语言处理语料LargeScaleChineseCorpusforNLP
2019-08-10 06:14

《Python在大规模中文自然语言处理语料库中的应用——深入探讨Large Scale Chinese Corpus for NLP》在当今的数字化时代，自然语言处理（NLP）技术已成为人工智能领域的重要分支，尤其在中文信息处理方面，其需求...
命名实体识别问题（NER）系列——隐马尔科夫模型（HMM）
2021-12-10 21:40

Unstoppable~~~的博客一、命名实体识别介绍 命名实体识别(英语:Named Entity Recognition，简称NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等等，并把我们需要识别的词在文本序列中标注出来。例如有一...
PaddlePaddle中文命名实体识别（NER）模型实战演练
2025-12-26 10:27

麦克羊的博客在医疗、金融等场景中，中文命名实体识别面临分词歧义和嵌套实体难题。PaddlePaddle结合ERNIE多粒度掩码与BiLSTM-CRF架构，提供从预训练到部署的全流程支持。通过Taskflow快速调用、模型压缩适配边缘设备，并结合...
解密我们身边的AI魔法——自然语言处理（NLP）
2025-05-29 20:48

Gupao123的博客经过前面的探索，相信大家对自然语言处理（NLP）这项神奇的AI技术已经有了更深入的了解。从让机器听懂我们说话、看懂我们写的文字，到帮助我们跨越语言障碍、洞察海量信息，再到辅助我们创作内容、做出决策，NLP正以...
基于条件随机场(CRF)对中文案件语料进行命名实体识别(NER)
2021-09-04 18:15

小樊努力努力再努力的博客语料类 - **model.py** 模型类 - **utils.py** 工具函数、映射、配置 - **data** 语料 - **requirements.txt** 依赖 ## 运行 ``` pip install -r requirements.txt python main.py ``` .....
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

中文命名实体——语料处理

4条回答默认最新

码龄粉丝数原力等级 --

中文命名实体——语料处理

4条回答 默认 最新

4条回答默认最新