各位好,我最近在用BERTopic主题模型分析数据,但是遇到了一个很奇怪的现象
filtered_text = data["processed_sentence"].tolist()
topics, probabilities = topic_model.fit_transform(filtered_text)
每当超过一定数据量时,上面这一步便会报错'ascii' codec can't encode characters in position 18-20: ordinal not in range(128)
绝对不是我的源数据有问题,因为我分段进行了测试,在传入数据量少的情况下,所有数据都可以正常运行,但是一旦输入的数据超过16390条,就必报错以上内容
至于为什么我能知道是16390条呢,因为为了试这个数据量我花了一晚上,16380都可以,就是16390不可以,这个问题真的搞得我吃不好睡不好了