处理字符串时常用整型数值代替字符串或者进行独热编码，请问两种方法分别在什么情况下适用？

就比如说这样的数据集做预测，Category那一列怎么处理比较合适？还有Category和Genres两列比较相似，如何处理比较妥当？（整个数据集共一万多条）

还有Content Rating那一列，其中大部分都是everyone，但是也有一些别的像少数民族那样出现，那么对于这样特征的数据怎么处理比较合适呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-AlanMax 2021-06-08 21:28
关注
这种直接使用类别的index编码，在分类的时候直接转换成one hot后经过交叉熵计算loss反向传播就行了。如有帮助请采纳

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

这两种字符串拼接方式哪一种好呢？或者说还有更好的拼接方式吗 java 后端
2022-03-29 16:38

回答 6 已采纳这两种都不咋地第二种换汤不换药，还是先拼接一个string再传进stringbuilder里面如果字符串拼接的次数少，那么基本不用考虑内存会被大量字符串塞满的情况，就用string.format()来
用指针和数组分别定义的字符串,修改时为什么前者会出错呢?
2017-05-17 09:00

回答 2 已采纳指针指向的字符串是常量空间，只读，不能修改数组的会分配自己单独的空间，可修改
delphi 字符串查找或者匹配的问题？
2018-08-05 14:07

回答 1 已采纳 ``` Arr : array[0..4] of WideString =( WideString('中国'), WideString('乌拉圭'), WideString('日本'),
NLP 自然语言处理实战
2023-12-26 08:45

AAI机器之心的博客本文将从分词、词频、词向量等基础领域开始讲解自然语言处理的原理，讲解 One-Hot、TF-IDF、PageRank 等算法及 LDA、LDiA、LSA 等语义分析的原理。
为什么字符串也可以进行求余运算？如何计算？ python
2022-01-08 10:42

回答 1 已采纳 A
输入字符串a和b，在字符串a中找出字符串b第一次出现的位置。请问我这个该怎么改？ c语言
2022-04-21 18:10

回答 2 已采纳你这个逻辑有点乱，可以参考这个，有帮助望采纳！ #include <stdio.h> #include <string.h> int main() { char a[255]
请问一下各位，用SelectKBest+chi2进行特征选择时，标签可以是非数值的吗，比如说字符串 python 有问必答自然语言处理
2021-11-02 15:27

回答 1 已采纳不可以，卡方检验做特征选择的时候，特征要注意必须是非负值，标签要转化为数值，如果标签是字符串，可以通过one-hot等方法转换为数值即可
XBG和LGB和CATBOOST 要用哪一种？深度分析
2020-01-27 23:57

微信公众号[机器学习炼丹术]的博客尽管最近几年神经网络复兴，并变得流行起来，但我还是更加关注 boosting 算法，因为在训练样本量有限、所需训练时间较短、缺乏调参知识的场景中，它们依然拥有绝对优势。 2014 年 3 月，XGBOOST 最早作为研究...
link中字符串拼接都有几种方式，哪种效率最高？分别有什么优势劣势？
2015-04-20 11:34

回答 1 已采纳直接相加 string s = "a"; s += "b"; string.Format() s = string.Format("{0}{1}", "a", "b"); Strin
求大神写一条正则表达式或者函数用来替换字符串。内容如下图 sql 正则表达式
2018-03-31 08:54

回答 1 已采纳以下为C#代码，已测试通过： ``` string pattern = @"(select[\s]+[\S]+)[\s]+(from[\s\S]+)[\s]+(order[\s\S]*)";
可以用一维指针进行交换字符串的操作吗？
2018-11-27 05:43

回答 2 已采纳 C语言中实参形参变量之间的数据传递是单向的“值传递”，不可能通过执行调用函数来改变实参指针变量的值，但是可以改变实参变量所指变量的值。你可以使用二级指针做参数来交换
2024年Unity 面试题 |五萬字二佰道| Unity面试题大全，面试题总结【全网最全，收藏一篇足够面试】
2022-02-23 09:47

呆呆敲代码的小Y的博客为什么dynamic font 在 unicode环境下优于 staticfont（字符串编码） 40. 简述StringBuilder和String的区别？（字符串处理） 41. string、stringBuilder、stringBuffer 42. 字典Dictionary的内部实现原理 43. 泛型...
用c#编写一个程序，以最原始的方法进行两个字符串的四则运算 c#
2015-10-06 13:51

回答 2 已采纳可以看到这个程序超位数运行正常，第一个运行22位，第二个运行46位，可以发现该代码有值得优化的地方，就是超过数字2位数后可以不用循环运算，直接跳出循环，用截取去合成最终结果，可以提高运算速度。
CatBoost原理简介
2024-01-15 16:20

沉住气CD的博客计算某个类别出现的概率，加上超参数，生成新的数值型特征。这一策略要求同一标签数据不能排列在一起（即先全是0之后全是1这种方式），训练之前需要打乱数据集。使用数据的不同排列（实际上是4个）。在每一轮建立树...
【机器学习】深入理解CatBoost
2022-03-22 12:00

风度78的博客本文主要内容概览：1....CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器，都是在GBDT算法框架下的一种改进实现。XGBoost被广泛的应用于工业界，LightGBM有效的提升了GBDT的计算效率，而Yandex的C...
没有解决我的问题, 去提问

悬赏问题

¥17 pro*C预编译“闪回查询”报错SCN不能识别
¥15 微信会员卡接入微信支付商户号收款
¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向

处理字符串时常用整型数值代替字符串 或者 进行独热编码，请问两种方法分别在什么情况下适用？

2条回答 默认 最新

悬赏问题

处理字符串时常用整型数值代替字符串或者进行独热编码，请问两种方法分别在什么情况下适用？

2条回答默认最新