literaturrrrr 2025-04-07 21:50 采纳率: 0%
浏览 31

有偿求古籍ocr转换

内容是大概十本左右的古籍扫描本,希望转换成文本格式,如果能处理成json格式的话可另外加钱。请提供报价。

img


图片有点糊,实际上比这个更清楚。

  • 写回答

5条回答 默认 最新

  • u013132758 新星创作者: 人工智能技术领域 2025-04-07 21:50
    关注

    让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

    如果还有问题,请评论或点击头像私信,如果有帮助到您, 请关注、采纳、点赞

    1. 关键点分析:
      - 要将十本左右的古籍扫描本进行OCR转换为文本格式,可能还涉及转换为JSON格式。需要考虑到古籍文字的复杂性,可能存在一些难以识别的特殊字符、异体字等。
      - 找到合适的OCR工具或服务,并确定合理的报价。
    2. 解决方案:
      - 开源OCR工具
      • Tesseract:这是一个广泛使用的开源OCR引擎。
      • 安装:在Linux系统上可以通过包管理器安装,如在Ubuntu上执行sudo apt-get install tesseract-ocr;在Windows上可以从Tesseract官方网站下载安装包进行安装。
      • 使用示例(Python):
    import pytesseract
    from PIL import Image
    
    image = Image.open('古籍扫描图片路径.jpg')
    text = pytesseract.image_to_string(image)
    print(text)
    
     - 优点:完全免费且开源,可根据需求进行定制化开发。
     - 缺点:对于古籍这种文字复杂的图像,识别准确率可能有限,尤其是遇到模糊、破损、特殊字体等情况时效果可能不佳。
    
    • 商业OCR服务
      • 阿里云OCR:提供多种OCR服务,包括通用文字识别等。
      • 注册并开通相关服务后,可通过API上传古籍扫描图片进行识别。
      • 优点:准确率相对较高,有专业的技术团队维护和优化,能处理各种复杂图像。
      • 缺点:需要付费使用,根据使用量不同收费标准不同。
    • 百度OCR:也是一款知名的商业OCR服务。
      • 同样通过API调用,上传古籍图片获取识别结果。
      • 优点:功能丰富,识别能力较强。
      • 缺点:收费模式,成本相对较高。
        3. 报价方面:
    • 开源方案:主要成本在于人工操作和可能需要的一些图像预处理等操作,基本没有软件购买成本。如果自己处理,人工成本假设每本古籍处理时间为2小时(包括图像清理、OCR识别、校对等),每小时按50元计算,十本古籍的人工成本大概为10×2×50 = 1000元。
    • 商业方案
      • 阿里云OCR:费用根据具体使用的功能和流量而定。例如通用文字识别按量计费,识别一张图片可能收费几毛钱到一块多不等,十本古籍假设平均每本有100页图片,总共1000张图片左右,费用大概在几百元到上千元。
      • 百度OCR:类似,费用也根据使用量动态计算,大致也在几百元到上千元范围。
        4. 总结:
    • 对于古籍OCR转换,可以选择开源的Tesseract并结合人工校对,但可能需要花费较多时间和精力来保证一定的准确率。商业的阿里云OCR或百度OCR等服务能提供较高准确率,但有一定成本。如果对准确率要求较高且希望快速完成转换,商业服务是较好的选择;如果预算有限且有一定技术能力进行人工辅助,开源方案也可行。

    希望以上解答对您有所帮助。如果您有任何疑问,欢迎在评论区提出。

    评论

报告相同问题?

问题事件

  • 修改了问题 4月8日
  • 创建了问题 4月7日