lyf251619257 2015-05-31 12:27 采纳率: 100%
浏览 3024
已采纳

ICTCLAS分词系统的使用

怎么用ICTCLAS分词系统对一个TXT文档里面的所有中文语料进行分词操作,求大神指点,越详细越好

  • 写回答

1条回答 默认 最新

  • 我不懂电脑 2015-06-02 04:09
    关注

    ICTCLAS分词系统可以高效地实现分词。下面把过程贴出来。
    使用方法,首先到网上下载ICTCLAS,因为我是windows下的C++实现,所以在http://ictclas.org/ictclas_download.aspx下载ICTCLAS2011_Windows_32_c,解压,里面有很好的Demo,Doc,copy API目录下的所有文件(夹)到你所在的工程,在你的源文件加上
    #include "ICTCLAS50.h"
    #pragma comment(lib, "ICTCLAS50.lib") //ICTCLAS50.lib库加入到工程中
    //
    //your code here,可参考Demo里面的代码
    //
    即可。
    大概的函数C++函数接口都在Doc文件下的文档中:

    bool ICTCLAS_Init(const char* pszInitDir=NULL);初始化函数
    返回值

    如果初始化成功返回true, 否则返回false. 如初始化不成功,请查看ictclas.log文件了解详细错误原因.

    参数

    pszInitDir:初始化路径,应包含配置文件(Configure.xml)和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下,此参数可以为null。

    bool ICTCLAS_Exit( );退出,释放内存
    返回值

    成功返回true;否则返回false。

    unsigned int ICTCLAS_ImportUserDict(const char *sFilename,eCodeType eCT)

    //导入用户自定义词典

    返回值

    导入成功的词的个数

    参数

    sFilename: 用户定义词典文件

    eCT:编码格式

    int ICTCLAS_ParagraphProcess(const char sParagraph,int nPaLen,eCodeType eCt,int bPOStagged,char sResult);//对一段文字进行分词
    返回值

    返回结果缓冲区的指针(sResult)以及结果的长度R

    参数

    sParagraph: 原始文字段

    nPaLen: 文字段的长度

    eCodeType: 文字段的编码格式

    bPOStagged: 需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

    sResult: 输出结果

    t_pstRstVec ICTCLAS_ParagraphProcessA(const char *sParagraph,int PaLen,eCodeType eCodeType,int bPOStagged,int &nRstCnt);

    //处理文字段

    返回值

    结果vector的指针,系统调用,用户无法分配以及释放

    struct stResult{

    int start; //start position

    int length; //length

    #ifdef POS_TAGGER

    int iPOS; //POS

    char sPOS[POS_SIZE];//word type

    #endif

    int word_ID; //word_ID

    int word_type; //Is the word of the user's dictionary?(0-no,1-yes)

    int weight;// word weight

    };

    参数

    sParagraph: 原始文字段

    nPaLen: 文字段长度

    eCodeType: 编码格式

    bPOStagged:

    需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

    nRstcnt: 处理结果的长度值。

    详细用法参见Doc文件。

    bool ICTCLAS_FileProcess(const char *sSrcFilename,eCodeType eCt,const char *sDsnFilename,int bPOStagged);//处理txt文件

    返回值

    处理文本文件成功返回true, 否则返回false

    参数

    sSourceFilename: 原始处理文件

    eCodeType: 原始文件编码格式

    sDsnFilename: 存储结果的文件名T

    bPOStagged: 需不需要根据标注集做标记 0 = 做标记 ; 1 = 不标记; 默认为1.

    注意事项

    调用此函数之前需要调用init函数成功,输出格式可以通过ICTCLAS 配置来更改,这个需要研究下配置文件。

    int ICTCLAS_SetPOSmap(int nPOSmap);//设置标注集

    返回值

    成功为1,其他为0

    参数

    nPOSmap :

    ICT_POS_MAP_FIRST 计算所一级标注集

    ICT_POS_MAP_SECOND 计算所二级标注集 PKU_POS_MAP_SECOND 北大二级标注集 PKU_POS_MAP_FIRST 北大一级标注集

    int ICTCLAS_GetWordId(const char *sWord,int nWrdLen,eCodeType eCT);
    返回值
    单词的ID(我觉得是词典里面的存储位置,不清楚词典的具体结构)
    参数

    sWord: 目标单词
    nWrdLen: 单词长度

    eCodeType: 编码格式

    bool ICTCLAS_ResultFree ( t_pstRstVec pRetVec)

    //释放调用ICTCLAS_ParagraphProcessAW得到的vector指针

    返回值

    成功为1,失败为0

    参数

    t_pstRstVec: ICTCLAS_ParagraphProcessAW得到的vector指针

    总结:这些函数都很好用,我需要使用处理文件函数ICTCLAS_FileProcess我出现的问题是:单独调用这个函数没有问题,但是在MFC界面调用两个选择打开文件路径和保存结果文件路径的CFileDialog以后就会出现ICTCLAS_Init初始化失败!郁闷了半天,查看ICTCLAS.log文件,

    Default Path : E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS

    start lic check.

    License succeed!Cannot open user dictionary

    E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.pdat.

    Cannot open file E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.map.

    Cannot open user dictionary E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.pos.

    Load dictionary down!

    并没有异常,加载失败是因为并没有自定义词典。

    仔细排查,发现bool ICTCLAS_Init(const char* pszInitDir=NULL)有一个默认的工作路径,在没有打开CFileDialog的时候默认的路径是exe文件执行路径,但是打开以后若不进行设置,会改变工作路径!这就是为什么点击CFileDialog路径更改,找不到路径下的文件,当然无法初始化了!( pszInitDir:初始化路径,应包含配置文件(Configure.xml)和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下,此参数可以为null)

    解决方案:
    方案1. 在每次调用CFileDialog打开文件后重新设置工作路径
    方案2. 在程序中使用绝对路径
    方案3. CFileDialog的构造函数有8个参数,平时为了省事一般只是指定第一个。其实解决这个问题,只要在第四个参数dwFlags中加上OFN_NOCHANGEDIR即可

    我使用第三个方法解决了^_^!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 arduino控制ps2手柄一直报错
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥85 maple软件,solve求反函数,出现rootof怎么办?
  • ¥15 求chat4.0解答一道线性规划题,用lingo编程运行,第一问要求写出数学模型和lingo语言编程模型,第二问第三问解答就行,我的ddl要到了谁来求了
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥15 maple软件,用solve求反函数出现rootof,怎么办?
  • ¥65 汇编语言除法溢出问题
  • ¥15 Visual Studio问题
  • ¥20 求一个html代码,有偿