中文词法分析系统
语料库:1998-01-2003版-带音.txt
要求:根据构建的单词词典和双词词典,**用n-gram模型**,或者前向最长匹配,或者后向最长匹配等算法,鼓励用更复杂一些的方法来进行,包括隐马尔科夫模型和条件随机场模型__
- 词词典样式(汉子后的数,代表词频):{( < BOS >27180),(< BOS >19980101-01-001-0011),(19980101-01-001-001迈向1),(迈向充满3),(充满希望13),(希望的20),(的新320),(新世纪45),(世纪——1),(——一九九八年1),(一九九八年新年4),(新年讲话4),(讲话(2),((附288),(附图片288),(图片1206),(1张206),(张)289),()1915),(< EOS >23268),}
- 单词词典样式:{< BOS > 23269,19980101-01-001-001 1,迈向 33,充满 115,希望 491,的 54148,新 2334,世纪 418,—— 154,一九九八年 39,新年 320,讲话 233,( 4282,附 289,图片 618,1 591,张 1218,) 4282,< EOS > }