天地一扁舟 2015-06-22 04:29 采纳率: 0%
浏览 936

pynlpir在ubuntu下为什么不能对带有中文路径的文件分词

问题是这样的:我在win7环境下用pynlpir对带有中文目录的文件是可以分词的,但是如果在ubuntu环境下,发现分词失败,尝试了几十次,在ubuntu环境下对带有中文路径的文件进行分词,发现无法分词,不知道这是不是一个bug。
下面是我的调用代码:

 from pynlpir import *
#对文件进行分词
def splitFile2(sSrcFileName , sDstFileName):
    if not nlpir.Init(nlpir.PACKAGE_DIR , nlpir.UTF8_CODE , None):
        logging.INFO("初始化分词器失败")
        return False
    #如果路径是unicode字符串,需要转换为由utf-8编码的普通字符串
    if isinstance(sSrcFileName , unicode):
        sSrcFileName = sSrcFileName.encode("utf-8")
    if isinstance(sDstFileName , unicode):
        sDstFileName = sDstFileName.encode("utf-8")
    result = nlpir.FileProcess(sSrcFileName , sDstFileName , False)
    if result == 0:
        sErrorInfo =  "对文件:%s 分词失败" % sSrcFileName
        print sErrorInfo
    nlpir.Exit()
    return True
def testSplit():
    inName = u"/home/chaoma/superboard/中国/a.txt"
    outName = u"/home/chaoma/superboard/中国/a_split.txt"
    splitFile2(inName , outName)
testSplit()

输入文件为:/home/chaoma/superboard/中国/a.txt
a.txt中的内容如下
:3.34探索中点四边形中的关系。任意四边形ABCD中,四边的中点分别为E、F、G、H,连接EF、FG、GH、HE,并测量它们的长度,你发现了什么?量出图中∠1、∠2、∠3、∠4的角度,你又发现了什么?由此,你能得到什么猜想?。

  • 写回答

1条回答

  • Marst Code 2023-06-28 16:38
    关注

    分析思路: 当同个库在不同环境下运行效果不一致,首先考虑的是版本差异问题.

    评论

报告相同问题?

悬赏问题

  • ¥15 数学的三元一次方程求解
  • ¥20 iqoo11 如何下载安装工程模式
  • ¥15 本题的答案是不是有问题
  • ¥15 关于#r语言#的问题:(svydesign)为什么在一个大的数据集中抽取了一个小数据集
  • ¥15 C++使用Gunplot
  • ¥15 这个电路是如何实现路灯控制器的,原理是什么,怎么求解灯亮起后熄灭的时间如图?
  • ¥15 matlab数字图像处理频率域滤波
  • ¥15 在abaqus做了二维正交切削模型,给刀具添加了超声振动条件后输出切削力为什么比普通切削增大这么多
  • ¥15 ELGamal和paillier计算效率谁快?
  • ¥15 蓝桥杯单片机第十三届第一场,整点继电器吸合,5s后断开出现了问题