各位大lao,我研究了一天没搞明白怎么才能把超长图里面的内容识别出来,发给ai,他识别一拖啥也不是。
我的目的是将墨墨背单词的词书单词全部搞成txt格式,再复制到我的背单词机里,背单词机有拍照识别与手动录入模式,拍照识别我把超长图放进去之后识别它是一片空白,可能太多了,手动识别的话就是打一个单词换一行,所以我想着用截图工具截了一张囊括所有单词的图,然后用工具把里面的所有信息提取出来,然后再复制到手动录入里面,但没想到提取这一步这么麻烦,太难熬了。
有没有大神教教我该怎么搞?谢谢🙏






各位大lao,我研究了一天没搞明白怎么才能把超长图里面的内容识别出来,发给ai,他识别一拖啥也不是。
我的目的是将墨墨背单词的词书单词全部搞成txt格式,再复制到我的背单词机里,背单词机有拍照识别与手动录入模式,拍照识别我把超长图放进去之后识别它是一片空白,可能太多了,手动识别的话就是打一个单词换一行,所以我想着用截图工具截了一张囊括所有单词的图,然后用工具把里面的所有信息提取出来,然后再复制到手动录入里面,但没想到提取这一步这么麻烦,太难熬了。
有没有大神教教我该怎么搞?谢谢🙏






上午好☀️☀️☀️️
本答案参考通义千问
你的需求是将墨墨背单词的词书图片中的所有单词提取出来,并保存为TXT文件,以便导入到其他设备中使用。这是一个非常常见的需求,但确实需要一些技术手段来实现。以下是一些详细的解决方案:
超长图的问题:
OCR工具的选择:
手动录入的繁琐性:
OCR工具是解决这个问题的最佳方式。以下是具体步骤:
选择OCR工具:
准备工具:
sudo apt install tesseract-ocr # Linux
brew install tesseract # macOS
choco install tesseract # Windows
提取文本:
tesseract your_image.png output_text -l eng # 提取英文文本
from PIL import Image
import pytesseract
image = Image.open('your_image.png')
text = pytesseract.image_to_string(image, lang='eng') # 提取英文文本
print(text)
优化图片:
保存为TXT文件:
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(text)
如果你不想安装任何软件,可以使用在线OCR服务:
推荐网站:
上传图片:
下载文本:
如果OCR工具无法满足需求,可以尝试手动分块处理:
分块截取图片:
逐段识别:
合并结果:
如果你熟悉编程,可以编写一个简单的脚本来完成任务:
Python脚本示例:
from PIL import Image
import pytesseract
import os
def extract_text_from_image(image_path):
image = Image.open(image_path)
text = pytesseract.image_to_string(image, lang='eng')
return text
def process_images_in_folder(folder_path):
all_text = ""
for filename in os.listdir(folder_path):
if filename.endswith('.png') or filename.endswith('.jpg'):
image_path = os.path.join(folder_path, filename)
text = extract_text_from_image(image_path)
all_text += text + "\n"
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(all_text)
folder_path = "path/to/your/images"
process_images_in_folder(folder_path)
使用说明:
output.txt文件。根据你的需求,推荐优先尝试方案一(使用OCR工具提取文本),其次是方案二(在线OCR服务)。如果图片过于复杂,可以结合方案三(手动分块处理)或方案四(自动化脚本)来解决问题。
希望这些方法能帮助你顺利完成任务!