有偿求古籍ocr转换

内容是大概十本左右的古籍扫描本，希望转换成文本格式，如果能处理成json格式的话可另外加钱。请提供报价。

图片有点糊，实际上比这个更清楚。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫雾凌寒新星创作者: 人工智能技术领域 2025-04-07 21:50
关注
让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

如果还有问题，请评论或点击头像私信，如果有帮助到您, 请关注、采纳、点赞

关键点分析：
- 要将十本左右的古籍扫描本进行OCR转换为文本格式，可能还涉及转换为JSON格式。需要考虑到古籍文字的复杂性，可能存在一些难以识别的特殊字符、异体字等。
- 找到合适的OCR工具或服务，并确定合理的报价。
解决方案：
- 开源OCR工具：
Tesseract：这是一个广泛使用的开源OCR引擎。
安装：在Linux系统上可以通过包管理器安装，如在Ubuntu上执行sudo apt-get install tesseract-ocr；在Windows上可以从Tesseract官方网站下载安装包进行安装。
使用示例（Python）：

import pytesseract from PIL import Image image = Image.open('古籍扫描图片路径.jpg') text = pytesseract.image_to_string(image) print(text)

- 优点：完全免费且开源，可根据需求进行定制化开发。 - 缺点：对于古籍这种文字复杂的图像，识别准确率可能有限，尤其是遇到模糊、破损、特殊字体等情况时效果可能不佳。

商业OCR服务：
阿里云OCR：提供多种OCR服务，包括通用文字识别等。
注册并开通相关服务后，可通过API上传古籍扫描图片进行识别。
优点：准确率相对较高，有专业的技术团队维护和优化，能处理各种复杂图像。
缺点：需要付费使用，根据使用量不同收费标准不同。

百度OCR：也是一款知名的商业OCR服务。
同样通过API调用，上传古籍图片获取识别结果。
优点：功能丰富，识别能力较强。
缺点：收费模式，成本相对较高。
3. 报价方面：

开源方案：主要成本在于人工操作和可能需要的一些图像预处理等操作，基本没有软件购买成本。如果自己处理，人工成本假设每本古籍处理时间为2小时（包括图像清理、OCR识别、校对等），每小时按50元计算，十本古籍的人工成本大概为10×2×50 = 1000元。
商业方案：
阿里云OCR：费用根据具体使用的功能和流量而定。例如通用文字识别按量计费，识别一张图片可能收费几毛钱到一块多不等，十本古籍假设平均每本有100页图片，总共1000张图片左右，费用大概在几百元到上千元。
百度OCR：类似，费用也根据使用量动态计算，大致也在几百元到上千元范围。
4. 总结：

对于古籍OCR转换，可以选择开源的Tesseract并结合人工校对，但可能需要花费较多时间和精力来保证一定的准确率。商业的阿里云OCR或百度OCR等服务能提供较高准确率，但有一定成本。如果对准确率要求较高且希望快速完成转换，商业服务是较好的选择；如果预算有限且有一定技术能力进行人工辅助，开源方案也可行。

希望以上解答对您有所帮助。如果您有任何疑问，欢迎在评论区提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

编程类在线答题系统_.zip
2024-10-11 10:36

1. 编程语言使用：考虑到系统的易用性和通用性，系统主要采用Java和Python两种编程语言开发。Java语言的跨平台性和Python的简洁性，使得系统既稳定又易于维护。 2. 数据库：系统中的数据管理依赖于数据库的支持，...
TWAIN协议，摄像头抓图，百度OCR识别DEMO源码
2018-10-11 11:10

摄像头抓图指的是通过编程方式从电脑连接的摄像头获取图像数据。百度OCR是百度提供的服务，能将图像中的文字识别为可编辑的文本。描述中提到，这个DEMO是针对支持TWAIN协议的设备，意味着它不仅限于摄像头，还可以...
水文专业有偿服务收费标准实用.pdf
2021-12-04 20:07

水文专业有偿服务收费标准实用.pdf
5m258基于HTML5的古籍图书网站+jsp.zip
2026-03-28 22:14

源码都是精心调试，可以有偿支持部署，谢谢支持。适用人群：学习不同技术领域的小白或进阶学习者；可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。项目具有较高的学习借鉴价值，也可拿来修改、二次...
杜绝有偿招生承诺书.docx
2021-11-22 08:50

杜绝有偿招生承诺书.docx
第4章 R语言编程基础——数据整理与预处理
2022-12-04 22:28

村里小公举的博客 4.4 [数据的预处理] 4.1.1 时序数据的预处理 4.1.2 截面数据的预处理[略] 4.1 经济/金融数据库 4.1.1 金融数据与数据库 R 包： RBloomberg 和 IBrokers 有偿 tseries 和 quantmod 美联储 www.stlouisfed.org ， ...
物业公司有偿服务管理办法.pdf
2021-09-30 00:30

物业公司有偿服务管理办法.pdf
恒大万科物业有偿服务明细菜单.pdf
2021-10-28 01:26

恒大万科物业有偿服务明细菜单.pdf
水文专业有偿服务收费标准定义.pdf
2022-01-20 19:00

水文专业有偿服务收费标准定义.pdf
有偿补课：致家长一封信.doc
2021-11-11 08:40

有偿补课：致家长一封信.doc
拒绝有偿补课和有偿家教承诺书.docx
2022-02-03 20:31

拒绝有偿补课和有偿家教承诺书.docx
【QT开发自制小工具】PDF/图片转excel---调用百度OCR API接口
2024-12-25 22:56

oCy的博客前几年WPS还可以免费处理5页以内的PDF转excel，现在必须付费了，而且百度其他在线的PDF转excel都是要收费的，刚好前几年调研过百度OCR的高精度含位置接口，依然是每天可以免费调用50次，本篇是基于此接口，开发免费...
有偿补课自查报告.docx
2022-02-17 08:04

有偿补课自查报告.docx
毕业设计_单片机_可编程放大电路设计_原理图_C代码
2021-04-01 22:18

资源内含程序清单、原理图和PCB。本设计是基于单片机来实现的，单片机使用的是AT89C52。系统说明：用户通过按键选择需要放大的倍数，经由单片机...本资源仅供下载，可有偿提供技术支持和答疑，如有需求请私信联系。
严禁有偿补课自查报告.docx
2022-02-13 22:24

严禁有偿补课自查报告.docx
严禁有偿补课自查报告 .docx
2022-02-08 15:28

严禁有偿补课自查报告 .docx
有偿补课检讨书.docx
2021-12-06 10:27

有偿补课检讨书.docx
有偿补课自查自纠报告5篇.pdf
2022-03-14 15:51

有偿补课自查自纠报告5篇.pdf
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月7日

有偿求古籍ocr转换

5条回答 默认 最新

问题事件

5条回答默认最新