狐狸总监的编程笨鸟 2022-04-20 12:14 采纳率: 50%
浏览 1844

ValueError: max_df corresponds to < documents than min_df

问题遇到的现象和发生背景

在跑LDA模型的时候报错,应该是在tf-idf向量化的时候报错的。

问题相关代码

n_features = 1000 #提取1000个特征词语
tf_vectorizer = CountVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words='english',
                                max_df = 0.5,
                                min_df = 10)
tf = tf_vectorizer.fit_transform(data.content_cutted)
报错内容
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-11-ee1a3704afca> in <module>
      5                                 max_df = 0.5,
      6                                 min_df = 10)
----> 7 tf = tf_vectorizer.fit_transform(data.content_cutted)

D:\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in fit_transform(self, raw_documents, y)
   1216                              else min_df * n_doc)
   1217             if max_doc_count < min_doc_count:
-> 1218                 raise ValueError(
   1219                     "max_df corresponds to < documents than min_df")
   1220             if max_features is not None:

ValueError: max_df corresponds to < documents than min_df

  • 写回答

4条回答 默认 最新

  • Chartte 2022-06-02 12:57
    关注

    我猜应该是样本量少了,max和min之间的区间相对就太大了,我把min_df改成2就能运行了

    评论

报告相同问题?

问题事件

  • 创建了问题 4月20日

悬赏问题

  • ¥20 公众号如何实现点击超链接后自动发送文字
  • ¥15 用php隐藏类名和增加类名
  • ¥15 算法设计与分析课程的提问
  • ¥15 用MATLAB汇总拟合图
  • ¥15 智能除草机器人方案设计
  • ¥15 对接wps协作接口实现消息发送
  • ¥15 SQLite 出现“Database is locked” 如何解决?
  • ¥15 已经加了学校的隶属邮箱了,为什么还是进不去github education?😭
  • ¥15 求会做聚类,TCN的朋友有偿线上指导。以下是目前遇到的问题
  • ¥100 无网格伽辽金方法研究裂纹扩展的程序