想用Roberta进行文本分类,找到了代码代入后,出现了下面问题。我的数据集里的x_train设定为文本的'abstract2', y_train 是Label,进行分类。
x_train[0]
"['inflammation', 'constitute', 'concerted', 'series', 'cellular', 'molecular', 'response', 'follow', 'disturbance', 'systemic', 'homeostasis', 'either', 'toxin']"
X_train是这种tokenize的文本,进入下面后出现了问题:
seqlen = x_train['abstract2'].apply(lambda x: len(x.split()))
sns.set_style("darkgrid")
plt.figure(figsize=(8,5))
sns.distplot(seqlen)
IndexError: only integers, slices (:
), ellipsis (...
), numpy.newaxis (None
) and integer or boolean arrays are valid indices.
不知道如何解决?请大家不吝赐教!