向大佬请教，做LDA主题分析时，多个主题结果一样

如图中所示，我在做一些企业年报的分析，可能数据量比较小（100多篇）。分析的结果总是除了一个主题，其他主题结果一样。这是出什么问题了嘛？数据用Excel转csv保存的，一个报告放在一格中，去掉了换行符号。难道是每个句子放一格嘛？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-11 15:31
关注
1.数据上，读取时要设置header;2.在分词之前，要将各行数据进行处理。这样改：

texts=pd.read_excel(r'data1.xlsx',header=None).astype(str) #通过jieba进行切词生成词袋 text = [jp.cut(i) for i in texts.values.ravel()]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

向大佬请教，做LDA主题分析时，多个主题结果一样 python 有问必答
2021-05-10 22:02

回答 6 已采纳 1.数据上，读取时要设置header;2.在分词之前，要将各行数据进行处理。这样改： texts=pd.read_excel(r'data1.xlsx',header=None).astype(s
gensim得到的LDA主题完全一致(语言-python) python 自然语言处理
2023-02-19 17:45

回答 4 已采纳如果您使用gensim训练LDA模型，但得到的所有主题都完全一致且概率都为0.00，可能有以下几个可能的原因：参数设置不当：LDA模型有许多参数需要调整，如主题数量、迭代次数、alpha和beta等
python做LDA模型出现问题 python
2023-02-28 10:49

回答 2 已采纳 css样式没有引入，这儿抛错了，无效的css参数，你仔细检查一下，这个css参数对不对
python 数据分析与挖局书籍
2017-09-01 17:52

guangyinglanshan的博客之前一直有朋友叫我列一个数据科学的书单，说实话这件事情我是犹豫了很久的。有两个原因，其一是因为自己读书太少才疏学浅，其二我觉得基于我个人观点认为“好”的书其实可能对于很多人是不一定合适的。不过，明天...
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
LDA主题模型输入问题 python 机器学习自然语言处理
2023-02-19 01:28

回答 2 已采纳该回答引用ChatGPT LDA主题模型是一种无监督机器学习方法，可以将文本数据集中的每个文档（例如年报）表示为主题的概率分布，同时将每个主题表示为词汇的概率分布。因此，对于上市公司的年报，我们可以
lda主题模型报错return pd.concat python 深度学习
2023-04-08 00:55

回答 1 已采纳看下这篇博客，也许你就懂了，链接：pd.concat()的用法
我终于加上博士大佬的微信！攒了近百个技术问题，一口气解决！（文末有福利）...
2019-11-10 18:00

Python中文社区的博客昨天，我终于加上了CMU计算机博士大佬 Johnson 的微信了！之前我研究机器学习的时候，遇到了很多小问题，希望这位大佬能帮忙指点一下。毕竟CMU是计算机学科全球排名前...
LDA主题模型数值是怎么计算出来的？ python
2022-08-16 14:52

回答 1 已采纳这篇文章讲的很详细，请看：LDA主题模型的原理及使用教程
LDA主题模型数据量太大怎么办 python 分类有问必答
2021-09-08 09:47

回答 2 已采纳你目前是多少内存？问题解决了吗？
Python文本挖掘lda模型可视化后出错怎么改？ python 有问必答
2021-06-09 14:56

回答 3 已采纳提示编码格式错误，你改成utf-8试试
搜索，推荐，广告系统架构及算法技术资料大合集吐血整理——2020年终分享
2020-01-03 16:42

研发之道的博客 3）sku 搜索，搜索结果和属性导航联动（标类产品）。阿里搜索离线技术团队负责人谈 Hadoop：阿里离线平台、YARN 和 iStream 基于 Apache Flink 的实时计算引擎 Blink 在阿里搜索中的应用 - 20170216 - ...
求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 16:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
揭秘人工智能面试内容：8家国际巨头机器学习面试题目整理
2019-04-04 08:39

喜欢打酱油的老鸟的博客这个大佬在机器学习（语音分析、文本分析和图像分析领域应用）领域有4年以上的从业经验。总的来说，这个领域的大多数工作职位主要包括文本分析（自然语言处理）和图像分析（计算机视觉）。很少有公司招聘语音或音频...
[论文阅读] (01) 拿什么来拯救我的拖延症？初学者如何提升编程兴趣及LATEX入门详解
2020-06-22 23:05

Eastmount的博客为什么我的收藏夹存了很多学习资料和视频，然而却没有再次翻起；为什么无数次告诫自己一定要卸载游戏和社交APP，开始好好学习，但明天又会继续下载去放纵自己。我们忙碌，我们孤独，我们在一遍遍地逃避和自我安慰中...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

向大佬请教，做LDA主题分析时，多个主题结果一样

6条回答 默认 最新

悬赏问题

6条回答默认最新