m0_59005572 2021-09-22 12:02 采纳率: 100%
浏览 28
已结题

数据挖掘 预处理语言模型

什么是预处理语言模型?什么是预处理语言模型?

 • 写回答

1条回答 默认 最新

 • CSDN专家-黄老师 2021-09-22 12:23
  关注

  预处理语言模型是文本处理,其目的是,从原始html形式的文本中提取有效数据,并处理成构造语言模型(Language Model)所需要的格式。 
  步骤如下:
  预处理。[包括全半角字符转化,去掉注释、CSS样式、标签(单/多行)、&转义字符、url、大段英文数字、单个非中文词、空格等等]
  分词。[可自己开发分词工具,或采用第三方工具,如结巴分词]
  纯数字转成中文读音
  将中文表示的数字进行拆分,如:一百二十三元 –> 一百 二十 三 元
  去掉无用字符,保留中英文字符及部分标点,并按标点分句[可根据需要去掉所有标点]

  本回答被题主选为最佳回答 , 对您是否有帮助呢?
  评论

报告相同问题?

问题事件

 • 系统已结题 10月1日
 • 已采纳回答 9月23日
 • 创建了问题 9月22日

悬赏问题

 • ¥15 在线手电筒追加按钮JS
 • ¥15 调用函数时,无关变量的改变引起函数值的改变
 • ¥15 xy坐标转化为经纬度坐标
 • ¥15 一般三角模糊数的上界值和下届值取中值的多少比较合理?
 • ¥15 关于#python#的问题,请各位专家解答!
 • ¥20 Hbase启动失败,无法启动HMaster
 • ¥20 Lumerical FDTD solutions 中模型的相对阻抗,有效介电常数和有效磁导率的实部和虚部的数据如何获得?
 • ¥100 sql reporting service 远程smtp服务器配置支持
 • ¥15 ppyoloe_r带角度目标检测,loss_cls没法收敛
 • ¥15 淘宝交易指数如何解读,其关联的数据指标是什么