如何用BERT对多列文本做分类？

问题

想请教一下大家，这个场景怎么用BERT对多列文本做分类呀？
文本数据大概类似这样（7分类），3列都是长文本（超过512）：

id	背景	评论	理由	分类
1	……	……	……	0
2	……	……	……	1
3	……	……	……	0
4	……	……	……	2
5	……	……	……	3
6	……	……	……	4
7	……	……	……	5
8	……	……	……	6
…	……	……	……	…

PS：本人还只会使用Pytorch对单独一列文本用BERT做分类，但不知道如果有这样3列文本列的话，要怎样搭建深度学习网络。

其他

目前自己想的是把3个文本列都分别使用bert提取Embedding之后再拼在一起做分类，但有2个问题：
① 如果分别做的话是不是需要构建3个DataLoder，那这样的后面该怎么输入网络进行训练呀？
② 还有就是不知道用什么函数将Embedding向量拼在一起，大家有什么好的经验嘛？

另外，自己也有想到把3列合成一列，然后再处理，但也不行。一个是因为3列都是长文本，平均1000+，合成一列之后截断的话丢失太多信息了；另外就是，其实整个数据集不光只有文本，还有一些数值数据，所以最后还是要进行向量拼接的（这也是上面的问题），所以还是得知道在Pytorch里面，怎么在模型中间进行向量拼接。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
太阳是白的 2023-02-16 10:13
关注
问题1，你可以使用PyTorch中的Dataset和DataLoader来构建一个数据加载器。你可以先将3个文本列分别使用BERT模型提取嵌入向量，然后将这些向量组合成一个包含3个嵌入向量的列表，将其作为一个样本的特征输入到网络中。然后将标签与特征一起组合成一个Dataset对象，并将其传递到一个DataLoader对象中进行训练。这样你只需要构建一个DataLoader对象即可
对于问题2，你可以使用PyTorch中的torch.cat函数将3个嵌入向量拼接起来。假设你已经得到了3个嵌入向量embeddings1、embeddings2和embeddings3，并且每个嵌入向量的维度为embed_dim，那么你可以使用以下代码将它们拼接成一个维度为3*embed_dim的向量：

import torch concatenated_embeddings = torch.cat((embeddings1, embeddings2, embeddings3), dim=1)

这将返回一个形状为(batch_size, 3*embed_dim)的张量，其中batch_size表示你一次输入的样本数量。
解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Bert-pytorch-英文文本多分类
2023-04-28 21:23

芒果的狗的博客 Bert-pytorch实现英文文本多分类
如何用Python和BERT做中文文本二元分类？| 程序员硬核评测
2019-04-13 21:16

Python大本营的博客作者 | 王树义来源|王树芝兰（ID:nkwangshuyi）兴奋去年，Google的BERT模型一发布出来，我就很兴奋。因为我当时正在用fast.ai的...
【AI大模型】BERT微调文本分类任务实战
2025-07-11 14:20

我爱一条柴ya的博客本文提供了完整的BERT文本分类微调指南，涵盖从数据准备到模型部署的全流程。主要内容包括：1) 数据加载与预处理，支持自定义和公开数据集；2) BERT模型初始化与训练配置，包含学习率、批次大小等参数设置；3) 评估...
基于BERT的文本分类: 使用BERT进行句子级文本分类
2023-09-25 23:02

EbCoder的博客文本分类是自然语言处理领域中的一个重要任务，它涉及将文本分为不同的...然后，我们加载了预训练的BERT模型，并对其进行微调以适应特定的文本分类任务。数据集应该包含两列：一列是文本内容，另一列是对应的类别标签。
如何在 fast.ai 用 BERT 做中文文本分类？
2019-07-29 09:34

nkwshuyi的博客鱼我所欲也，熊掌亦我所欲也。痛点我之前用 BERT ，就没有痛快过。最初，是 Google 发布的原始 Tensorflow 代码，一堆堆参数，一行行代码，扑面而来。让人...
python深度神经网络文本二分类代码_如何用 Python 和 BERT 做中文文本二元分类？...
2020-12-05 15:18

weixin_39783360的博客因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《如何用 Python 和深度迁移学习做文本分类？》一文分享给你)。ULMfit 和 BERT 都属于预训练语言模型(Pre-trained Language Modeling)，具有很多...
使用Pytorch和BERT进行多标签文本分类
2021-04-02 09:23

deephub的博客自然语言处理(NLP)是一种将非结构化文本处理成有意义的知识的人工智能技术。NLP解决了分类、主题建模、文本生成、问答、推荐等业务问题。虽然TF/IDF矢量化或其他高级词嵌入(如GLOVE和Word2Vec)在此类NLP业务问题上...
如何用 Python 和 BERT 做多标签（multi-label）文本分类？
2019-05-21 09:03

nkwshuyi的博客 10余行代码，借助 BERT 轻松完成多标签（multi-label）文本分类任务。疑问之前我写了《如何用 Python 和 BERT 做中文文本二元分类？》一文，为你讲...
文本多标签分类python_如何用 Python 和 BERT 做多标签（multi-label）文本分类？
2020-12-06 03:25

weixin_39822184的博客疑问之前我写了《如何用 Python 和 BERT 做中文文本二元分类？》一文，为你讲解过如何用 BERT 语言模型和迁移学习进行文本分类。不少读者留言询问：王老师，难道 BERT 只能支持二元分类吗？当然不是。BERT 是去年...
使用BERT模型实现文本二分类任务（包括数据不平衡问题）
2024-06-06 23:03

2301_79590979的博客我在这使用的是谷歌给出的基于中文预训练的bert模型，如果你觉得这个模型效果不太好的话，可以使用哈工大或者百度训练的roberta模型，哈工大团队声称百度训练的模型更适合给社交媒体中的文本进行分类，但是直接加到...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月13日

如何用BERT对多列文本做分类？

问题

其他

3条回答 默认 最新

问题事件

3条回答默认最新