bjzxq 2017-07-31 21:03 采纳率: 0%
浏览 2990

如何进行文本分词和语义分析

求开发者,待遇网上沟通
开发人员要具有比较优秀的语义分析、文本分词能力
做一款校对软件
实现基本的校对功能。同时需要把校对功能做成web接口。WebAPI方式实现校对(网页校对,标准的 ajax 请求, json 返回校对结果。支持错误标红。)
程序大体分两个模式:第一个是根据错误词库识别;第二个通过语法分析、分词算法等技术发现错误词库未包含的错误。
校对需要实现的功能:
1、要求提供足够多的错误词库,错误库覆盖常见字词错误。
2、实现语法分析和语料库统计相结合的方法,具备汉语切分技术、汉语语法分析技术、汉语依存关系分析技术。通过分词、词性标注等语义分析算法,再基于各类词库(包括专业词库、错误词库等),实现对客户提交的文献中的普通中文词汇、英文拼写、标点、数字、科技计量、重句、异形词、领导人姓名职务、领导人排序、政治性问题、目录、标题和图例公式序号等各种类型的错误。(需要开发方提供相关词库,词库数量不低于黑马校对)。
3、支持以下常见错误类型。
领导人姓名、职务搭配、排序错误,涉及台湾等的政治性问题,拼音类错别字,字形类错别字,成语错误,少字错误,多字错误,错位错误,词语搭配错误,的地得错误,语法错误,异形词,繁体字词,“也作”错误,曾用名错误,知识性错误,人名错误,地名错误,英文拼写错误,标点错误,数字性错误。
4、支持自由定义用户库、错误库、重点词监控库、敏感库、建议库、领导人职务库和排序库等词库。可以自由挂接外来词库。
5、程序要求线程安全。需要支持多线程调用。

  • 写回答

1条回答 默认 最新

  • zqbnqsdsmd 2018-06-27 15:46
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 yolov7训练自己的数据集
  • ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
  • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
  • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)
  • ¥20 matlab yalmip kkt 双层优化问题
  • ¥15 如何在3D高斯飞溅的渲染的场景中获得一个可控的旋转物体
  • ¥88 实在没有想法,需要个思路
  • ¥15 MATLAB报错输入参数太多
  • ¥15 python中合并修改日期相同的CSV文件并按照修改日期的名字命名文件
  • ¥15 有赏,i卡绘世画不出