如何解决XLnet分类存在的问题？

使用XLnet进行文本分类，出现了下面的问题：

def get_inputs(content, tokenizer, max_len=120):
    """ Gets tensors from text using the tokenizer provided"""
    inps = [tokenizer.encode_plus(t, max_length=maxlen, pad_to_max_length=False, add_special_tokens=True) for t in content]
    inp_tok = np.array([a['input_ids'] for a in inps])
    ids = np.array([a['attention_mask'] for a in inps])
    segments = np.array([a['token_type_ids'] for a in inps])
    return inps, inp_tok, ids, segments

def warmup(epoch, lr):
    """Used for increasing the learning rate slowly, this tends to achieve better convergence.
    However, as we are finetuning for few epoch it's not crucial.
    """
    return max(lr +1e-6, 2e-5)

def plot_metrics(pred, true_labels):
    """Plots a ROC curve with the accuracy and the AUC"""
    acc = accuracy_score(true_labels, np.array(pred.flatten() >= .5, dtype='int'))
    fpr, tpr, thresholds = roc_curve(true_labels, pred)
    auc = roc_auc_score(true_labels, pred)

    fig, ax = plt.subplots(1, figsize=(8,8))
    ax.plot(fpr, tpr, color='red')
    ax.plot([0,1], [0,1], color='black', linestyle='--')
    ax.set_title(f"AUC: {auc}\nACC: {acc}");
    return fig

inps, inp_tok, ids, segments = get_inputs(x_train_text, xlnet_tokenizer)

AttributeError                            Traceback (most recent call last)
/tmp/ipykernel_18279/2457827602.py in <module>
----> 1 inps, inp_tok, ids, segments = get_inputs(x_train_text, xlnet_tokenizer)

/tmp/ipykernel_18279/3374919276.py in get_inputs(content, tokenizer, max_len)
      1 def get_inputs(content, tokenizer, max_len=120):
      2     """ Gets tensors from text using the tokenizer provided"""
----> 3     inps = [tokenizer.encode_plus(t, max_length=max_len, pad_to_max_length=False, add_special_tokens=True) for t in content]
      4     inp_tok = np.array([a['input_ids'] for a in inps])
      5     ids = np.array([a['attention_mask'] for a in inps])

/tmp/ipykernel_18279/3374919276.py in <listcomp>(.0)
      1 def get_inputs(content, tokenizer, max_len=120):
      2     """ Gets tensors from text using the tokenizer provided"""
----> 3     inps = [tokenizer.encode_plus(t, max_length=max_len, pad_to_max_length=False, add_special_tokens=True) for t in content]
      4     inp_tok = np.array([a['input_ids'] for a in inps])
      5     ids = np.array([a['attention_mask'] for a in inps])

AttributeError: 'NoneType' object has no attribute 'encode_plus'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2022-01-11 15:14
关注
检查一下传入的tokenizer参数，导致抛出None值无encode_plus属性错误。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何解决XLnet分类存在的问题？ xlnet 有问必答深度学习自然语言处理
2022-01-10 19:57

回答 2 已采纳检查一下传入的tokenizer参数，导致抛出None值无encode_plus属性错误。
深度学习XLnet模型出现问题，如何解决 xlnet 有问必答深度学习自然语言处理
2022-01-07 20:46

回答 1 已采纳参数text应该是一个字符串类型或字符串列表形式。检查一下传入的参数text。试试改一下：for i, text in enumerate(df['abstract2'].tolist())
怎么加载从huggingface拉下来的模型代码 pytorch 深度学习自然语言处理
2022-02-24 14:02

回答 2 已采纳首先huggingface上的预训练模型都是有示例代码的，博主贴的四行代码的中的前两行会检查你本地有没有XLNet这个模型，若没有的话就会从huggingface上下载相应的模型到一个指定的目录下去，
chinese_xlnet_base_L-12_H-768_A-12.zip
2020-06-07 12:51

首先，XLNet的核心理念是对自回归（Autoregressive）和自编码（Autoencoding）的双向依赖关系进行建模，解决了Transformer模型在处理长序列信息时存在的局限性。通过引入自回归预测的目标和掩码机制，XLNet能够利用...
最通俗易懂的XLNET详解
2019-06-24 10:35

爱编程真是太好了的博客虽然排列语言模型能满足目前的目标，但是对于普通的transformer结构来说是存在一定的问题的，为什么这么说呢，看个例子，假设我们要求这样的一个对数似然，pθ(Xzt∣xz<t)p_{\theta} (X_{...
NeurIPS上讲解XLNet的PPT
2020-09-29 14:17

这种方法允许模型在无序的上下文中学习，但其预测过程是独立的，且仍然存在人工噪声——即被掩码的词。 3. XLNet的创新之处： XLNet采用了一种名为Transformer-XL的扩展版Transformer架构，能够处理长距离依赖，...
人工智能，自然语言处理代码
2022-04-13 14:55

`16.9 XLNet`是2019年提出的预训练模型，它是Transformer架构的一个改进版本，采用了全Transformer架构并引入了自回归预训练方法，以解决Transformer存在的局限性，如上下文依赖的问题，XLNet在多项NLP任务上表现出...
NLP重大突破？一文读懂XLNet“屠榜”背后的原理
2019-07-01 12:49

AI科技大本营的博客本文介绍XLNet的基本原理，读者阅读前需要了解BERT等相关模型，不熟悉的读者建议学习BERT课程。语言模型和BERT各自的优缺点在论文里作者使用了一些术语，比如自回归(Autoregressive, AR)语言模型和自编码...
人工智能文本分析 (AI Text Analysis)
2023-07-19 00:46

禅与计算机程序设计艺术的博客 人工智能（AI）和文本分析是现代计算机科学中两个重要的研究领域。随着互联网和社交媒体的普及，文本数据的数量呈指数级增长。如何有效地从这些海量文本数据中提取有价值的信息，成为了一个亟待解决的问题。文本分析...
【NLP相关】XLNET原理以及案例
2023-03-07 11:30

Chaos_Wang_的博客 XLNET模型是自然语言处理领域中最近新兴的模型之一，其创新之处在于引入了...Transformer XL是Transformer模型的扩展版本，其中引入了一种称为“相对位置编码”的机制，以解决Transformer模型中存在的位置信息限制问题
工业界如何解决NER问题？12个trick，与你分享～
2020-07-28 12:45

喜欢打酱油的老鸟的博客 NER是一个已经解决了的问题吗？或许，一切才刚刚开始。例如，面对下面笔者在工作中遇到的12个关于NER的系列问题，你有什么好的trick呢？不着急，让我们通过本篇文章，逐一解答～ Q1、如何快速有效地提升NER性能...
人工智能产品经理及十种AI常用算法
2024-05-29 20:34

Python程序员罗宾的博客基于行业特点，人工智能产品经理首先需要确定哪些是分类问题？哪些是预测问题？解决这些问题适合用什么算法？这些都需要与算法工程师深入的沟通，沟通的基础就是对算法的理解。通常情况下行业问题都比较复杂，很难...
NLP | XLNet ：用于语言理解的广义自回归预训练论文详解
2022-11-09 22:18

夏天｜여름이다的博客 XLNet使用了一种排列的自回归预训练方法。
【NLP】多标签分类【上】
2024-01-10 19:49

Twilight Sparkle.的博客《【NLP】多标签分类》主要介绍利用三种机器学习方法和一种序列生成方法来解决多标签分类问题（包含实验与对应代码）。共分为上下两篇，上篇聚焦三种机器学习方法，分别是：Binary Relevance (BR)、Classifier ...
目前国内AI大厂大模型列表优缺点、原理、使用、案例和注意事项
2024-05-06 00:15

正在走向自律的博客目前国内的AI大厂主要包括阿里巴巴、腾讯、百度、华为、小米等，附加一个智谱（个人觉得很不错的大模型）。下面将分别列出各大厂的大模型列表，并介绍它们的优缺点、原理、使用、案例和注意事项。
人工智能各领域跨界能手——Transformer
2023-03-17 14:20

未来GIS实验室的博客导读：Transformer源自于AI自然语言处理任务；在计算机视觉领域，近年来Transformer逐渐替代CNN成为一个热门的研究方向。此外，Transformer在文本、语音、视频等多模态领域也在崭露头角。本文对Transformer从诞生到...
人工智能-人工神经网络
2024-06-16 15:37

undousing的博客人工神经网络（ANN，Artificial Neural Network）是由大量处理单元互联组成的非线性、自适应信息处理系统。它通过模拟人脑神经元对信息处理的过程和记忆信息的方式抽象出一种分布式并行信息运算方式，克服了传统的...
XLNet：超越BERT的新星
2024-04-29 16:13

禅与计算机程序设计艺术的博客 -XLNet：超越BERT的新星 1.背景介绍 1.1 自然语言处理的重要性自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解和生成人类语言。随着大数据时
NLP（十二）：Transformer-XL和XLNet
2020-08-29 12:09

博途慧算的博客 Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context（Google）（ICLR 2019 被拒）基于一种相对位置编码方式建立循环的transformer建模机制，解决长文本的建模，捕获超长距离依赖。...
Embedding 、词嵌入、向量模型说的是一回事么？AI是如何理解世界？AI人不能不看的Embedding白话科普！
2024-06-28 09:26

冻感糕人~的博客它能够将语言、图像、声音等多样化的信息，转化为一种通用的、数学化的表达形式，为AI开启一扇通往对世界智能理解与创造的大门。向量模型擅长将抽象的概念和具体的事物转化为一系列数值，这些数值在多维空间中按照...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月10日

悬赏问题

¥15 网络科学导论，网络控制
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）

如何解决XLnet分类存在的问题？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新