BERTopic主题建模报错

Batches到 100%时就出现以下报错信息：TypeError: 'numpy.float64' object cannot be interpreted as an integer
数据是中文期刊的摘要，不知道是哪里出现问题了。感谢！

import pandas as pd
import jieba
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
file_path = ''
data = pd.read_excel(file_path)

# 读取和合并停用词表
stopwords = set()
for file in ['hit_stopwords.txt', 'scu_stopwords.txt', 'baidu_stopwords.txt', 'cn_stopwords.txt']:
    with open(file, 'r', encoding='utf-8') as f:
        stopwords.update([line.strip() for line in f.readlines()])

# 分词和去除停用词
def preprocess(text):
    words = jieba.cut(text)
    return ' '.join(word for word in words if word not in stopwords)

data['processed'] = data['摘要'].apply(preprocess)

# 加载预训练的中文句子嵌入模型
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 为处理后的文档生成嵌入
embeddings = model.encode(data['processed'].tolist(), show_progress_bar=True)

# 创建BERTopic模型
topic_model = BERTopic(language="multilingual", calculate_probabilities=True)

# 使用文档和生成的嵌入训练模型
topics, probabilities = topic_model.fit_transform(data['processed'], embeddings)

for topic in topic_model.get_topic_info().head(10)['Name']:
    print(topic)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
mmmaaatttllbb 2024-01-30 21:12
关注
参考这个解决了！！https://github.com/MaartenGr/BERTopic/issues/1412

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

金融学学生学哪种编程语言？ java python r语言
2023-03-02 21:36

回答 2 已采纳基于Monster 组和GPT的调写：金融学学生通常学习一些编程语言，如Python、R、MATLAB和C++等。其中，Python和R是最流行的两种编程语言，因为它们易于学习，具有良好的可读性和可
python lstm建模报错：ValueError: too many values to unpack (expected 2) lstm python pytorch
2021-11-25 21:13

回答 1 已采纳 get_train_data() 定义的方法返回就一个值你用x，y两个变量去接收肯定会报错
用R语言建模过程中，提示代码错误 r语言
2023-04-04 17:49

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/752957这篇博客也不错, 你可以看下时间序
Bertopic 运行中报错记录
2023-10-23 10:38

Andy_shenzl的博客【代码】Bertopic 运行中报错记录。
UML统一建模语言的语义 uml
2023-02-15 11:20

回答 3 已采纳基于Monster 组和GPT的调写：是一种用于建立和描述软件系统的标准语言。它包含了各种图形符号和规则，用于描述系统的不同方面，如需求、结构、行为等。其中，类图是UML中用于表示类和类之间关系的一种
关于编程开发的问题（UML建模） java uml
2017-05-30 05:23

回答 1 已采纳敏捷开发的话详细设计最好有
Matlab-Simulink通信系统建模仿真 matlab 开发语言
2022-07-03 22:32

回答 1 已采纳信源模块选错了，不是用BSC，更换成下面这个再按你的测试代码可以计算出误码率： clc,clear,close all; x = 0:0.051:0.1; y = x; %预定义y for i=1:l
【主题建模】一种基于深度学习的主题建模方法：BERTopic（理论篇）
2023-02-07 17:19

G皮T的博客在我的博客中已经写了很多关于主题建模的内容，当你准备了解 BERTopic 时，默认你已经知道了 LSA、pLSA、NFM、LDA 等传统的主题建模方法。关于主题建模的前置知识我在这里不做赘述，感兴趣的同学可以看看我前几篇...
TCGA数据库建模后GEO数据库或ICGC数据库验证 r语言
2023-02-19 23:00

回答 8 已采纳该回答引用ChatGPT 有可能是由于两个数据集的差异性导致的。虽然两个数据集都是肝癌数据，但是不同的实验条件、处理方法、测序平台等都会导致基因表达的差异。在使用外部验证数据集时，可以进行以下步骤来
谁能告诉我数学建模有什么好用的软件语言模型
2022-08-16 14:17

回答 2 已采纳 1.MatlabMatlab是一款商业数学软件，用于算法开发，数据可视化，数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括Matlab和simulink两大部分。可以进行矩阵运算，绘制函数
如何在caret包中Bootstrap抽样结果加入后续建模中 bootstrap r语言机器学习
2023-03-25 11:37

回答 3 已采纳参考GPT：使用“createResample”函数可以获得通过Bootstrap抽样得到的结果矩阵，其中每个样本代表了原始数据中的一组样本。如果要将这些样本用于后续建模，可以将这些样本和原始数据进行
【实验】主题建模工具BERTopic的安装及使用过程中的报错解决方案
2022-10-17 16:48

沐兮Krystal的博客手动安装主题建模工具BERTopic；注意.whl文件需要修改名字；FileNotFoundError: [WinError 3] 系统找不到指定的路径。: 'C:\\Users\\pangu/.cache\\torch\\sentence_transformers\\sbert.net_models_all-MiniLM-L6-...
问下用c++怎么计算这个数学建模，其他语言也可以，有偿 c++ c语言 python
2023-02-20 22:29

回答 3 已采纳用了一个结构体 Person 来表示每个借款人的信息，用了一个循环来模拟一年内的借贷过程，用了一个函数 calcInterest 来计算每天的利息，并根据借款人的还款情况更新借贷记录 #include
LSA、pLSA、LDA、NMF、BERTopic、Top2Vec进行主题建模
2023-01-04 17:25

Mr数据杨的博客在自然语言处理（NLP）中，主题建模是一种技术，用于从文本数据中发现隐藏的语义主题（或主题）。这是一个无监督机器学习问题，即在没有标签或标签的情况下学习模式。主题建模的应用非常广泛，可用于搜索引擎、情感...
【主题建模】不同策略的主题建模方法比较
2023-05-28 16:12

G皮T的博客在自然语言处理（NLP）中，主题建模一词包含了一系列的统计和深度学习技术，用于寻找文档集中的隐藏语义结构。主题建模是一个无监督的机器学习问题。无监督的意思是，算法在没有标签的情况下学习模式。我们作为人类...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月29日

悬赏问题

¥15 封装的 matplotlib animation 不显示图像
¥15 python摄像头画面无法显示
¥15 关于#3d#的问题：d标定算法(语言-python)
¥15 cve，cnnvd漏洞扫描工具推荐
¥15 图像超分real-esrgan网络自己训练模型遇到问题
¥15 如何构建全国统一的物流管理平台?
¥100 ijkplayer使用AndroidStudio/CMake编译，如何支持 rtsp 直播流?
¥15 用js遍历数据并对非空元素添加css样式
¥15 使用autodl云训练，希望有直接运行的代码(关键词-数据集)
¥50 python写segy数据出错

BERTopic主题建模报错

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新