准备对一个txt文档内容进行TF-IDF处理,首先准备进行分词处理。但是目前不知道如何处理txt文档。
参考帖子http://blog.csdn.net/qq_30843221/article/details/54909788
其中他的样本为
好看 电影 惊悚 悬疑 不错 推荐
机器学习 自然语言处理 信息 检索
机器学习 数据挖掘 人工智能 检索
电影 动画 精彩 好看 不错 加油 推荐
我们的样本为
中文网志年会 中文网志年会 网志 cnbloggercon blog blogger
单身安乐窝 生活 单身 朋友 家庭 情感
佛学学习 佛教 禅 修行 佛法 净土
科幻世界 科幻 科学幻想 非科学 文学 幻想
香港电影 电影 香港 中国 华语 香港电影
概念图\u0026思维导图(心智圖) mindmap conceptmap 思维导图 概念图 心智图
小组管理俱乐部 豆瓣 小组
媒介与传播研究 media 媒介 communication 传播学 journalism
明显不如他规整,请各位指点我是否还需要在做什么处理