问题
想请教一下大家,这个场景怎么用BERT对多列文本做分类呀?
文本数据大概类似这样(7分类),3列都是长文本(超过512):
id | 背景 | 评论 | 理由 | 分类 |
---|---|---|---|---|
1 | …… | …… | …… | 0 |
2 | …… | …… | …… | 1 |
3 | …… | …… | …… | 0 |
4 | …… | …… | …… | 2 |
5 | …… | …… | …… | 3 |
6 | …… | …… | …… | 4 |
7 | …… | …… | …… | 5 |
8 | …… | …… | …… | 6 |
… | …… | …… | …… | … |
PS:本人还只会使用Pytorch对单独一列文本用BERT做分类,但不知道如果有这样3列文本列的话,要怎样搭建深度学习网络。
其他
目前自己想的是把3个文本列都分别使用bert提取Embedding之后再拼在一起做分类,但有2个问题:
① 如果分别做的话是不是需要构建3个DataLoder,那这样的后面该怎么输入网络进行训练呀?
② 还有就是不知道用什么函数将Embedding向量拼在一起,大家有什么好的经验嘛?
另外,自己也有想到把3列合成一列,然后再处理,但也不行。一个是因为3列都是长文本,平均1000+,合成一列之后截断的话丢失太多信息了;另外就是,其实整个数据集不光只有文本,还有一些数值数据,所以最后还是要进行向量拼接的(这也是上面的问题),所以还是得知道在Pytorch里面,怎么在模型中间进行向量拼接。