( ´艸`) 2019-04-12 01:28
浏览 321

r语言文档-词矩阵乱码怎么解决

在做中文文本聚类的时候,将数据用tm包转换为文档-词矩阵之后就都是乱码了,应该是Rwordseg分词之后的文件编码格式不对,可是怎么改啊55555

#导入_
song <- read.xlsx("C:\\Users\\silencewille\\Desktop\\lunwen\\data\\julei.xlsx")
#用Rwordseg分词
lyric_words <- lapply(1:length(song$lyric), function(i) segmentCN(song$lyric[i], nature = TRUE))
#建立语料库
wordcorpus <- Corpus(VectorSource(lyric_word))
#建立矩阵
Sys.setlocale(locale="Chinese")
dtm1 <- DocumentTermMatrix(wordcorpus,control = list(wordLengths=c(1, Inf), bounds = list(global = c(5,Inf)), removeNumbers = TRUE,weighting = weightTf,encoding = "UTF-8"))

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 使用C#,asp.net读取Excel文件并保存到Oracle数据库
    • ¥15 C# datagridview 单元格显示进度及值
    • ¥15 thinkphp6配合social login单点登录问题
    • ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
    • ¥15 如何在scanpy上做差异基因和通路富集?
    • ¥20 关于#硬件工程#的问题,请各位专家解答!
    • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
    • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
    • ¥30 截图中的mathematics程序转换成matlab
    • ¥15 动力学代码报错,维度不匹配