bjzxq 2017-07-31 21:03 采纳率: 0%
浏览 2990

如何进行文本分词和语义分析

求开发者,待遇网上沟通
开发人员要具有比较优秀的语义分析、文本分词能力
做一款校对软件
实现基本的校对功能。同时需要把校对功能做成web接口。WebAPI方式实现校对(网页校对,标准的 ajax 请求, json 返回校对结果。支持错误标红。)
程序大体分两个模式:第一个是根据错误词库识别;第二个通过语法分析、分词算法等技术发现错误词库未包含的错误。
校对需要实现的功能:
1、要求提供足够多的错误词库,错误库覆盖常见字词错误。
2、实现语法分析和语料库统计相结合的方法,具备汉语切分技术、汉语语法分析技术、汉语依存关系分析技术。通过分词、词性标注等语义分析算法,再基于各类词库(包括专业词库、错误词库等),实现对客户提交的文献中的普通中文词汇、英文拼写、标点、数字、科技计量、重句、异形词、领导人姓名职务、领导人排序、政治性问题、目录、标题和图例公式序号等各种类型的错误。(需要开发方提供相关词库,词库数量不低于黑马校对)。
3、支持以下常见错误类型。
领导人姓名、职务搭配、排序错误,涉及台湾等的政治性问题,拼音类错别字,字形类错别字,成语错误,少字错误,多字错误,错位错误,词语搭配错误,的地得错误,语法错误,异形词,繁体字词,“也作”错误,曾用名错误,知识性错误,人名错误,地名错误,英文拼写错误,标点错误,数字性错误。
4、支持自由定义用户库、错误库、重点词监控库、敏感库、建议库、领导人职务库和排序库等词库。可以自由挂接外来词库。
5、程序要求线程安全。需要支持多线程调用。

  • 写回答

1条回答 默认 最新

  • zqbnqsdsmd 2018-06-27 15:46
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 请教:如何用postman调用本地虚拟机区块链接上的合约?
  • ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?
  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 运筹学排序问题中的在线排序
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛