Python 进行文本分析分类建模前遇到的小问题

本人在做毕业设计当中，做的是文本挖掘，主题是对某一商品的评论进行区分垃圾与真实评论，已经利用Python对文本数据进行了文本清洗，去重，压缩，分词，去停用词等操作，并利用Gensim对语料库进行了向量转换，现在有以下几个问题，烦请有经验的前辈们指导指导，谢谢各位了！

1、进行完向量转换后，是否要对原始文本数据进行人工标注（垃圾数据与否：0和1），这样的话，如果数据量很大，那么人工标注不是效率很慢吗？（当然我的数据量在完成数据清洗之后只有900多条了，这里只是产生了一个疑惑）
2、如果标注0和1,数据的格式是怎么样的，我要怎么进行分类器的构建，还有两种数据类型的特征构建？
3、有什么适合此情况的分类算法吗？

本人真的才学疏浅，找了很多资料还是没有弄懂接下来一步该如何进行，跪求大家交流交流，谢谢~

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-02-19 15:46
关注
http://lib.csdn.net/snippet/python/55240?knId=1335

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python文本进度条 python
2022-04-13 08:53

回答 3 已采纳你看看是不是你想要的 import time print("starting",end="") for i in range(3): print(".",end="") print("Don
Python：文本字符分布 python 有问必答
2021-05-25 15:27

回答 2 已采纳 s = input('输入字符串：') d = {} for i in s: if i.isalpha(): d[i.lower()] = d.get(i.lower(),
python中read（）函数会丢失txt文本数据的问题 python 有问必答
2021-07-11 02:02

回答 5 已采纳问题已经解决，前面生成文本数据的循环没有结束，程序就已经进入了读取文件的阶段，导致后面的读不全，我第一遍运行的时候超出，第二遍我把前面生成文本的部分注释掉，因为此时文本内的数据已经在第一遍运行时生成完
Python文本数据分析：新闻分类任务
2021-07-08 11:23

Python文本数据分析：新闻分类任务【软件包】 jieba pandas wordcloud matplotlib sklearn 【概念】 IDF：逆文档频率逆文档频率TF-IDF=词(TF)X逆文档频率(IDF)词频(TF)=某词该在文章中出现次数/文出现次数最多的...
求教使用python怎样对本地的未读邮件进行分析。 python 微信小程序
2019-03-07 11:51

回答 1 已采纳如果你本地邮件是用outlook存放的话，可以用mapi接口读取，包括未读的邮件 https://www.jianshu.com/p/58745e22eacb
Python Tkinter 中 Label 组件文本无法左对齐的状况 python 有问必答
2021-08-13 14:13

回答 2 已采纳 # 构造： anchor='w' # 文本区域左对齐，可填'n','s','e',w' justify='left' # 行左对齐，可填'left','right','center' #
python存款买房1问题解答 python 开发语言
2022-10-26 17:29

回答 1 已采纳 total_cost = float(input("请输入总房价: ")) # total_cost为当前房价 annual_salary = float(input("请输入年薪: ")) #
mallet-2.0.8 Gensim LDAMallet Python 文本分类、聚类、主题建模、信息提取
2023-03-26 13:39

MALLET 是一个基于 Java 的包，用于统计自然语言处理、文档分类、聚类、主题建模、信息提取和其他机器学习应用程序到文本。 MALLET 包括用于文档分类的复杂工具：用于将文本转换为“特征”的高效例程、各种算法...
python正负交错数列前n项和 python
2022-05-21 19:49

回答 1 已采纳 a是上一个数的分母，b是当前数的分母，d是一个临时变量，为了实现把当前数和上一个数的分母相加赋值给下个b，也就是下个数的分母。比如第一个数是1，也就是1/1，a=1, 第二个数是1/2，所以,b=2，
python解题小游戏 python
2021-12-29 13:11

回答 1 已采纳 t=int(input()) for i in range(t): inp = list(map(int,input().split())) n,lst = inp[0],inp[1
数学建模Python目标函数加权求和 python 数据结构算法
2022-06-14 12:51

回答 2 已采纳这是一个非线性规划问题。问题的目标函数是 object(x) = s*max([q[i]*x[i] for i in range(1,n+1)]) - (1-s)*sum([(r[i]-p[i])*x
python文本分析利用分类算法实现对文本的数据挖掘
2023-01-30 20:07

python文本分析利用分类算法实现对文本的数据挖掘，主要包括： 1. 语料库的构建，主要包括利用爬虫收集Web文档等； 2. 语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典，使用词袋模型或主题模型表达...
python搬砖问题 python 有问必答
2021-05-15 10:21

回答 3 已采纳 for men in range(16): for women in range(23): child=45-women-men if (men * 3+wo
Python Gensim文本分析——从文本预处理到TFIDF、LDA建模分析
2021-01-21 16:53

本文以中文文本数据作为分析对象，针对中文文本存在的特征进行文本预处理，并调用Gensim工具包实现对文本的TFIDF建模已经LDA建模，从文本中抽取出的特征进行表征文本信息，可用于后续文本相似度、个性化推荐等研究。...
Python文本分析
2019-03-29 15:48

本书遵循结构化和综合性的方法，介绍了文本和语言语法、结构和语义的基础概念和高级概念。从自然语言和Python的基础...使用主题建模和文本摘要分析app或游戏评论, 进行热门电影概要的聚类分析和电影评论的情感分析。
没有解决我的问题, 去提问

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

Python 进行文本分析 分类建模前遇到的小问题

1条回答 默认 最新

悬赏问题

Python 进行文本分析分类建模前遇到的小问题

1条回答默认最新