LDA处理csv文件的时候出现编码格式问题

df=pd.read_csv("dataa.csv")
df.head()
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

n_features = 1000
tf_vectorizer = CountVectorizer(strip_accents ='unicode',max_features=n_features,stop_words='english',max_df = 0.5,min_df = 10)
tf = tf_vectorizer.fit_transform(df.content)

ValueError Traceback (most recent call last)
in ()
1 n_features = 1000
2 tf_vectorizer = CountVectorizer(strip_accents ='unicode',max_features=n_features,stop_words='english',max_df = 0.5,min_df = 10)
----> 3 tf = tf_vectorizer.fit_transform(df.content)

/home/wanghan/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.pyc in fit_transform(self, raw_documents, y)
837
838 vocabulary, X = self._count_vocab(raw_documents,
--> 839 self.fixed_vocabulary_)
840
841 if self.binary:

/home/wanghan/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.pyc in _count_vocab(self, raw_documents, fixed_vocab)
760 for doc in raw_documents:
761 feature_counter = {}
--> 762 for feature in analyze(doc):
763 try:
764 feature_idx = vocabulary[feature]

/home/wanghan/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.pyc in (doc)
239
240 return lambda doc: self._word_ngrams(
--> 241 tokenize(preprocess(self.decode(doc))), stop_words)
242
243 else:

/home/wanghan/.local/lib/python2.7/site-packages/sklearn/feature_extraction/text.pyc in decode(self, doc)
119
120 if doc is np.nan:
--> 121 raise ValueError("np.nan is an invalid document, expected byte or "
122 "unicode string.")
123

ValueError: np.nan is an invalid document, expected byte or unicode string.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wnalki 2018-04-01 11:58
关注
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python做LDA模型出现问题 python
2023-02-28 10:49

回答 2 已采纳 css样式没有引入，这儿抛错了，无效的css参数，你仔细检查一下，这个css参数对不对
LDA主题模型输入问题 python 机器学习自然语言处理
2023-02-19 01:28

回答 2 已采纳该回答引用ChatGPT LDA主题模型是一种无监督机器学习方法，可以将文本数据集中的每个文档（例如年报）表示为主题的概率分布，同时将每个主题表示为词汇的概率分布。因此，对于上市公司的年报，我们可以
LDA主题模型中文文本输入问题中文分词机器学习
2023-03-01 16:57

回答 2 已采纳是的，在使用LDA主题模型之前，需要将中文文本进行分词，并将分词后的结果转换为列表形式，然后再进行corpora.Dictionary及dictionary.doc2bow等操作。具体来说，需要经过以
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
2021-08-10 20:55

Eastmount的博客前一篇文章讲述了数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。本文将详细讲解文本挖掘领域的词云热点分析和LDA主题分布分析。两万字基础文章，希望对您有所帮助。欢迎...
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
问个用MATLAB实现的LDA问题 matlab
2016-04-17 14:16

回答 2 已采纳 http://download.csdn.net/detail/gaohong520/5017607
gensim得到的LDA主题完全一致(语言-python) python 自然语言处理
2023-02-19 17:45

回答 4 已采纳如果您使用gensim训练LDA模型，但得到的所有主题都完全一致且概率都为0.00，可能有以下几个可能的原因：参数设置不当：LDA模型有许多参数需要调整，如主题数量、迭代次数、alpha和beta等
openCsv读取csv文件
2019-03-23 17:17

玉标的博客 Java读取csv文件 https://blog.csdn.net/galen2016/article/details/78119658 https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=020033...
向大佬请教，做LDA主题分析时，多个主题结果一样 python 有问必答
2021-05-10 22:02

回答 6 已采纳 1.数据上，读取时要设置header;2.在分词之前，要将各行数据进行处理。这样改： texts=pd.read_excel(r'data1.xlsx',header=None).astype(s
请问LDA的这段代码，为什么不执行也不报错 python 其他有问必答
2021-03-31 09:35

回答 2 已采纳代码只是给出了几个函数，并没有定义类及实例化对象和对函数的调用,当然不会有结果输出。将这些函数写类中：class wordParse: 在最后用,output=wordParse(),outpu
求Java版的LDA源码，急 java
2014-12-18 09:53

回答 1 已采纳在sourceforge.net上有：[JGibbLDA](http://jgibblda.sourceforge.net/ "JGibbLDA") > A Java Implementati
用数据可视化来发现新趋势：基于人工智能的数据可视化
2023-07-04 02:32

禅与计算机程序设计艺术的博客基于人工智能的数据可视化技术主要通过机器学习和深度学习等算法来实现数据挖掘和分析。下面分别介绍这两种技术的算法原理、操作步骤以及数学公式等。实现基于人工智能的数据可视化需要进行数据预处理、特征工程、...
lda主题模型报错return pd.concat python 深度学习
2023-04-08 00:55

回答 1 已采纳看下这篇博客，也许你就懂了，链接：pd.concat()的用法
python 基于LDA算法的长文本主题提取分类并预测类别
2020-04-26 11:53

是云小糊糊的博客讲数据处理成下面数据格式即list套list的数据格式。lad模型代码以及处理数据代码。这里处理数据的核心代码text_deal.py，写在了同级目录（lda_demo）下面。本文主要是用来做文本主题提取，再根据这些主题对现有的...
python保存变量为csv_python excel存储为csv
2020-12-18 13:02

weixin_39695241的博客 Python的小数据存储，用什么格式更有逼格？小数据存储我们在编写代码的时候，经常会涉及到数据存储的情况，如果是爬虫得到的大数据，我们会选择使用数据库，或者excel存储。但如果只是一些小数据，或者说关联性较强...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

LDA处理csv文件的时候出现编码格式问题

2条回答 默认 最新

悬赏问题

2条回答默认最新