用spacy分词构建元学习数据集时遇到的分词问题

论文FEW-SHOT TEXT CLASSIFICATION WITH DISTRIBUTIONAL SIGNATURES中的Amazon数据集由text raw label组成，text是raw的分词结果，以列表形式存储，这是其中一个样本的text:

list1 = ['i', 'was', 'pleasantly', 'surprised', 'with', 'this', '"', 'out', 'of', 'the', 'box', '"', 'series', '.', ' ', 'good', 'writing', ',', 'good', 'acting', ',', 'laugh', 'out', 'loud', 'situations', '.', ' ', 'devito', 'showing', 'up', 'in', 'the', 'second', 'season', 'gave', 'it', 'a', 'little', 'boost', 'as', 'he', "'s", 'always', 'dependable', 'for', 'turning', 'the', 'mundane', 'into', 'the', 'hilarious', '.', 'it', "'s", 'basically', 'about', '3', 'jackass', 'friends', 'in', 'philly', 'who', 'own', 'a', 'bar', 'and', 'get', 'themselves', 'into', 'offbeat', 'situations', '.', ' ', 'what', 'i', 'liked', 'best', 'is', 'that', 'it', 'is', 'not', 'the', 'clice', 'venue', 'for', 'the', 'young', 'and', 'the', 'beautiful', '.', ' ', 'it', 'often', 'hi', '-', 'lightes', 'the', 'old', 'and', 'the', 'ugly', 'and', 'in', 'doing', 'so', 'cultivates', 'a', 'good', 'portion', 'of', 'the', 'laughs', '.', 'worth', 'you', 'time', 'and', 'money', '....', 'bg']
论文中没有写用的什么分词方法
这是我用spacy的en_core_web_sm对raw分词得到的结果
list2 = ['i', 'was', 'pleasantly', 'surprised', 'with', 'this', '"', 'out', 'of', 'the', 'box', '"', 'series', '.', ' ', 'good', 'writing', ',', 'good', 'acting', ',', 'laugh', 'out', 'loud', 'situations', '.', ' ', 'devito', 'showing', 'up', 'in', 'the', 'second', 'season', 'gave', 'it', 'a', 'little', 'boost', 'as', 'he', "'s", 'always', 'dependable', 'for', 'turning', 'the', 'mundane', 'into', 'the', 'hilarious.it', "'s", 'basically', 'about', '3', 'jackass', 'friends', 'in', 'philly', 'who', 'own', 'a', 'bar', 'and', 'get', 'themselves', 'into', 'offbeat', 'situations', '.', ' ', 'what', 'i', 'liked', 'best', 'is', 'that', 'it', 'is', 'not', 'the', 'clice', 'venue', 'for', 'the', 'young', 'and', 'the', 'beautiful', '.', ' ', 'it', 'often', 'hi', '-', 'lightes', 'the', 'old', 'and', 'the', 'ugly', 'and', 'in', 'doing', 'so', 'cultivates', 'a', 'good', 'portion', 'of', 'the', 'laughs.worth', 'you', 'time', 'and', 'money', '....', 'bg']

所有不匹配的分词结果都是单词中包含'.'，类似hilarious.it，c.g.i
我现在想把spacy分词结果中的包含的'.'的单词手动分开，但是会出现影响到其他只包含'.'的字符串，并没有找到很好的手动分割方法
或者是不是有更合适的分词方法，能直接得到text的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

XINFINFZ 2021-11-09 17:27

关注

其实主要是空格的问题有的句子连接处没打空格就下一句了就会合在一起看我的elif里面的内容解决了这个问题


import spacy
import re
list1 = []
nlp = spacy.load("en_core_web_sm")
str1 = "I was pleasantly surprised with this \"out of the box\" series.  Good writing, good acting, laugh out loud situations.  Devito showing up in the second season gave it a little boost as he's always dependable for turning the mundane into the hilarious.It's basically about 3 jackass friends in Philly who own a bar and get themselves into offbeat situations.  What I liked best is that it is not the clice venue for the young and the beautiful.  It often hi-lightes the old and the ugly and in doing so cultivates a good portion of the laughs.Worth you time and money....bg"
doc = nlp(str1.lower())
for token in doc:
    if str(token)=='"':
        list1.append(str("\""))
    elif '.' in str(token) and str(token).count('.')!=len(str(token)):
        for x in re.findall(r'\w+|\.',str(token)):
            list1.append(x)
    else:
        list1.append(str(token))

报告相同问题？

关注问题

对邮件数据集 (Enron Email Dataset.zip
2024-03-03 21:58

《邮件数据集与人工智能在数据预处理中的应用》邮件数据集，如“Enron Email Dataset.zip”，在人工智能和机器学习领域中具有重要的研究价值。这个数据集包含了前美国能源公司Enron员工的大量电子邮件，提供了丰富...
使用Transformer模型对IMDB电影评论数据集进行情感分类
2023-08-15 16:35

### 使用Transformer模型对IMDB电影评论数据集进行情感分类 #### 概述本文将详细介绍一个基于Transformer的情感分析模型的设计与实现过程。该模型应用于IMDB电影评论数据集上，目的是预测评论的情感倾向性（正面...
weibo命名实体识别数据集的预处理。weiboNER pretreatment.zip
2024-03-02 21:56

在模型构建时，可能会使用tensorflow、pytorch或spaCy等深度学习或NLP库。 5. **深度学习框架**：如TensorFlow和PyTorch，它们提供构建和训练神经网络的高效工具。在NER任务中，这些框架可以用来实现复杂的序列标注...
经过预处理的IC03 IC13 IIIT5K SVT数据集和50k-words Hunspell词典.zip
2024-03-03 11:46

通过这个项目，你可以深入理解数据预处理在AI项目中的重要性，并掌握如何利用这些预处理数据集和工具来构建和优化文本识别模型。无论是进行学术研究还是实际应用，熟悉这些基础知识都将极大地提升你在人工智能领域的...
基于 BPE 实现的中文分词。优化：预处理，并行计算，多字词，多词表.zip
2024-03-02 21:58

总之，"基于BPE实现的中文分词"项目是利用BPE技术进行数据预处理的一个实例，旨在提升机器学习和人工智能模型在中文文本上的表现。通过并行计算和多字词处理，它能够处理大规模文本并适应复杂语言结构，为后续的模型...
垃圾邮件分类（trec06c数据集）特征分词、特征向量化、模型训练
2021-12-12 19:29

这个项目基于“trec06c”数据集，它是一个用于垃圾邮件检测的基准数据集，通常用于评估和训练分类算法。在这个场景中，我们将深入探讨特征分词、特征向量化以及模型训练这三个关键步骤。 **特征分词**是处理文本...
玻森命名实体识别数据集的预处理，按照811进行训练集、验证集与测试集的切分.zip
2024-03-02 21:56

在IT行业中，尤其是在人工智能（AI）领域，数据预处理是一项至关重要的步骤，它对模型的性能有着直接影响。在这个“玻森命名实体识别数据集的预处理”项目中，我们主要关注的是如何有效地处理数据，以便于训练机器...
机器学习与人工智能：NLP分词与文本相似度分析
2025-05-14 17:47

AI仙人掌的博客作者通过构建一个简单的Python NLP对象，展示了如何将文本数据转换为计算机可理解的格式，并计算文本之间的相似度。文章详细解释了分词、停用词去除、n-grams生成等预处理步骤，并介绍了词袋模型的基本概念。最后，...
该repo主要包含了多种数据集的预处理脚本，比如下载数据，切分数据集等.zip
2024-03-03 11:43

在人工智能和机器学习领域，数据预处理是...以上这些内容都是"preprocess-master"子文件夹中的脚本可能涵盖的知识点，这些脚本可以帮助我们有效地准备和优化数据，为后续的人工智能和机器学习模型构建打下坚实的基础。
【Python机器学习】NLP分词——利用分词器构建词汇表（六）——词汇表归一化
2024-08-26 21:26

zhangbin_237的博客在机器学习流水线中，标注的用于训练的数据集必须能够代表模型需要处理的所有可能的特征向量所处的空间，包括能够处理大小写的变化情况。对于10000维的词袋向量，通常必须要有100000条甚至更多的标注数据，才能训练...
文本分词进阶：中英文混合场景下，Jieba、spaCy与HanLP的分词效果对比及优化
2025-10-11 15:01

来酱何人的博客分词结果： ['提出', '一种', '基于', 'BERT+BiLSTM', '的', '中英文混合', '文本分类', '模型', '，', '在', 'CLUE数据集', '上', '准确率', '达', '92.3%']分词结果： ['使用', 'Jieba', '对', '包含', 'spaCy', '...
Building-Chatbots:使用Rasa，Spacy，Wit.Ai等构建聊天机器人
2021-04-28 21:50

在构建聊天机器人领域，Rasa、Spacy和Wit.ai都是关键工具，它们共同帮助开发者创建智能、自然对话的交互式系统。让我们深入探讨这些技术及其在构建聊天机器人中的应用。 **Rasa** 是一个开源的机器学习框架，主要...
NLP之文本分词综述
2023-01-30 17:24

江小皮不皮的博客统计分词：是基于统计模型的分词方法，通过学习大量语料来建立分词模型，从而解决规则分词的一些不足。统计分词算法通常使用HMM、CRF等算法，能够更好地处理OOV和新词，但语料要求比较高，而且实现较为复杂。
大语言模型原理与工程实践：常用数据集的完整构建方式
2024-07-09 02:00

程序员光剑的博客大语言模型原理与工程实践：常用数据集的完整构建方式作者：禅与计算机程序设计艺术 / Zen and the Art of Computer ...关键词：大语言模型, 数据集构建, 自动化文本生成, NLP任务支持, AI系统开发 1.背景介
构建文本生成任务的数据集
2025-01-23 23:19

AI大模型应用之禅的博客文本生成、数据集构建、自然语言处理、机器学习、深度学习、预训练模型、数据清洗、数据标注、数据增强 1. 背景介绍文本生成任务是自然语言处理 (NLP) 领域的核心任务之一，它旨在训练模型能够根据给定的输入生成...
推特应用程序评论数据集.zip
2024-02-14 20:53

该数据集包含了苹果应用商店中关于推特应用的用户评论，为深入理解用户对应用的满意度、情感倾向以及挖掘潜在问题提供了宝贵的素材。首先，我们要明确这个数据集的核心价值——它是一个用于自然语言处理的训练和...
史上最伟大的500首歌曲数据集.zip
2024-02-14 20:32

数据集在IT行业中扮演着至关重要的角色，它们是机器学习、人工智能、数据分析和自然语言处理等领域研究的基础。在这个案例中，我们关注的是一个名为“史上最伟大的500首歌曲数据集”的压缩文件，其中包含了一个CSV...
NLP数据集、模型和基础解决方案 .zip
2023-11-10 07:51

标题 "NLP数据集、模型和基础解决方案 .zip" 暗示了这个压缩包包含的是与自然语言处理（NLP）相关的资源，这可能包括训练数据集、预训练模型以及一些基本的解决方案或者代码库。描述中的内容与标题相吻合，没有提供...
未来已来：全方位掌握【人工智能】的系统学习路线
2024-08-06 22:30

小李很执着的博客 人工智能的系统学习路线，从数学基础、计算机基础，到核心技术和实践应用，再到前沿技术和具体领域的深度学习，涵盖了AI学习的各个方面。通过具体实例和详尽讲解，帮助学习者系统掌握AI知识，积累实践经验，并提供了...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
提问应符合社区要求 11月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月9日

用spacy分词构建元学习数据集时遇到的分词问题

1条回答 默认 最新

问题事件

1条回答默认最新