模型训练语料——文本修复

#反思——文本修复
在做模型训练语料的时候，PDF通过识别成文本，现在只做了一些基础的无用信息或错误信息清洗。
但这显然是不够的，因为其中不可避免地会有识别错误，导致句子断裂，缺失等。
因此除了清洗之外，是需要对识别文本进行修复。
正如Qwen3技术报告里面说的：To further expand the pre-training data corpus, we first employ the Qwen2.5-VL model (Bai et al., 2025) to perform text recognition on a large volume of PDF-like documents. The recognized text is then refined using the Qwen2.5 model (Yang et al., 2024b), which helps improve its quality.
需要完善公认的文本。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-07-21 16:26
关注
下午好🌅🌅🌅
本答案参考通义千问

在模型训练语料的处理过程中，文本修复是一个至关重要的环节。尤其是在从PDF等非结构化文档中提取文本时，由于OCR（光学字符识别）或扫描质量的问题，常常会出现识别错误、句子断裂、缺失、标点混乱、语法错误等问题。这些问题会严重影响后续的模型训练效果。

因此，除了基础的清洗外，还需要进行文本修复，以提高文本的质量和可用性。以下是一些关键的文本修复步骤与解决方案，并结合Qwen3技术报告中的方法进行说明：

一、文本修复的关键步骤

1. OCR后文本初步清洗

目的：去除无意义字符、非法符号、重复内容等。
常用方法：
去除特殊字符（如@, #, &等）
删除空白行、空格过多的段落
去除页眉页脚、页码、表格标题等非正文内容

代码示例（Python）：
import re def clean_text(text): # 移除特殊字符 text = re.sub(r'[^a-zA-Z0-9\s]', '', text) # 移除多个空格 text = re.sub(r'\s+', ' ', text).strip() return text

2. 句子完整性修复

问题：OCR识别导致句子断裂，例如“机器学习是AI的重”变成“机器学习是AI的重”。
解决方法：
使用语言模型（如Qwen、BERT等）对不完整句子进行补全。
利用上下文信息判断句子是否完整。

代码示例（使用Hugging Face的Transformers库）：
from transformers import pipeline fill_mask = pipeline("fill-mask", model="bert-base-uncased") sentence = "机器学习是AI的重" result = fill_mask(sentence + "[MASK]") print(result[0]['token_str']) # 输出可能为 "重要"

3. 语法与拼写检查

问题：OCR识别错误导致拼写错误或语法错误。
解决方法：
使用拼写检查工具（如pyspellchecker）
使用语法检查工具（如language-tool-python）

代码示例：
from spellchecker import SpellChecker from language_tool_python import LanguageTool def correct_spelling_and_grammar(text): spell = SpellChecker() words = text.split() corrected_words = [spell.correction(word) if word not in spell else word for word in words] corrected_text = ' '.join(corrected_words) tool = LanguageTool('en_US') matches = tool.check(corrected_text) corrected_text = tool.correct(corrected_text) return corrected_text

4. 句法结构修复

问题：句子结构不完整或逻辑不通。
解决方法：
使用序列标注模型（如BERT、RoBERTa）预测句子结构。
使用生成式模型（如GPT、Qwen）对句子进行重构。

代码示例（使用Qwen API）：
# 假设你有一个调用Qwen API的函数 def repair_sentence(text): prompt = f"请修复以下句子：{text}" response = qwen_api_call(prompt) return response

5. 上下文一致性修复

问题：一段文本中前后语义不一致或逻辑混乱。
解决方法：
使用上下文感知的模型（如Transformer-based models）来理解整体语义。
对于长文本，可以按段落或句子进行修复，再重新组合。

代码示例：
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn") model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn") def repair_paragraph(text): inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True) outputs = model.generate(**inputs, max_length=1024, num_beams=5, early_stopping=True) return tokenizer.decode(outputs[0], skip_special_tokens=True)

二、推荐的文本修复流程（有序列表）

OCR后文本初步清洗

去除无意义字符、非法符号、空白行等。

句子完整性修复

使用语言模型补全不完整句子。

语法与拼写检查

使用拼写检查工具和语法检查工具修正错误。

句法结构修复

使用生成式模型或序列标注模型优化句子结构。

上下文一致性修复

按段落或句子修复，确保整体语义一致。

三、总结

文本修复是提升模型训练语料质量的关键步骤，特别是在从PDF等非结构化文档中提取文本时。通过上述五步流程，可以显著提高文本的准确性和可读性，从而为后续的模型训练提供高质量的数据支持。

如果需要，我也可以为你提供一个完整的文本修复流水线代码，结合OCR后的文本处理、清洗、修复与验证。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据诊断性分析中的文本挖掘与自然语言处理
2026-01-08 23:51

AI应用架构探索者的博客诊断性分析（Diagnostic Analytics）是大数据分析的“医生”，它通过因果推断和...数据验证：用数据（尤其是文本数据）验证假设，找出最可能的根因；行动建议：给出针对性的解决策略（如“优化顺丰快递的配送路线”）。
TinyLlama: An Open-Source Small Language Model——一个开源的小型语言模型
2025-12-17 20:05

Together_CZ的博客 TinyLlama: An Open-Source Small Language Model——一个开源的小型语言模型
人工智能-开源大语言模型完整列表
2024-06-11 11:58

编程指南针的博客 Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和...LLM 通常基于神经网络模型，使用大规模的语料库进行训练，比如使用互联网上的海量文本数据。
数据整理——大数据治理的关键技术
2019-09-20 16:25

砖家穴者叫兽的博客 ● 基于机器学习模型的命名实体识别：预先对一部分文档进行实体标注，产生一系列的<短语，类别>对，利用这些文档进行机器学习模型的训练，然后用这个模型对没有遇到过的文档进行命名实体识别和标注。指代消解是...
打破技术壁垒：国产架构下大模型训练与微调，让自主 AI 触手可及
2025-12-18 08:20

神算大模型APi--天枢646的博客在训练与微调服务中，国产架构实现高性价比与高稳定性，支持弹性算力与边缘端微调，满足中小企业需求。开发者反馈显示，国产平台在成本、效率及自主可控方面优势明显，助力AI创新普惠化。未来，国产算力生态将持续...
数据整理——大数据治理的关键技术
2019-07-08 16:54

唐名威的博客数据整理——大数据治理的关键技术杜小勇1,2,陈跃国1,2,范举1,2,卢卫1,21.中国人民大学信息学院，北京 100872；2.数据工程与知识工程教育部重点...
【大模型应用开发动手做AI Agent】数据的收集与整理
2024-06-27 01:08

光子AI的博客【大模型应用开发动手做AI Agent】数据的收集与整理作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：数据收集, 数据整理, 大型语言模型, 应用场景, 数据质量控制 1.
RL4LLM_Survey 强化学习在大语言模型后训练综述
2026-01-02 14:24

nju_spy的博客海量文本语料的预训练及后续的监督微调奠定了LLM核心能力，但强化学习（RL）已逐渐成为优化LLMs不可或缺的范式，尤其在使其与人类价值观对齐、学习推理与遵循复杂指令方面发挥着关键作用。在本综述中，我们从三个...
揭秘大数据领域数据增强的核心要点
2026-01-15 02:29

AI实战架构笔记的博客比如：文本“我喜欢吃苹果”替换为“我喜爱吃苹果”，“喜欢苹果”的核心语义不变，但“表达方式”的分布扩大了。数据增强不是“技术玄学”，而是**“理解数据本质+匹配任务需求+合理变异”的艺术**。
开源大语言模型完整列表
2024-08-10 10:00

AI小白熊的博客 Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和...LLM 通常基于神经网络模型，使用大规模的语料库进行训练，比如使用互联网上的海量文本数据。
掌握大数据情感分析，提升企业竞争力
2025-09-08 23:00

AI量化价值投资入门到精通的博客本文将带你从0到1掌握“大数据情感分析”技术：从最基础的概念定义，到数据预处理、模型构建、模型评估的全流程技术实现，再到如何将情感分析系统落地到企业实际业务场景（如舆情监控、用户反馈分析、产品迭代），...
AI大型语言模型企业级应用开发架构实战：模型优化原理和技术方案详解
2023-11-10 01:16

光子AI的博客而这些数据量巨大的需求促使研究人员开发出了大型的神经网络模型——这类模型通常被称为“大型语言模型”，它能够捕捉输入文本或图像中存在的所有潜在信息。然而，作为一款成熟的软件系统，如何应用到实际业务场景中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月21日

码龄粉丝数原力等级 --

模型训练语料——文本修复

6条回答默认最新

码龄粉丝数原力等级 --

一、文本修复的关键步骤

1. OCR后文本初步清洗

2. 句子完整性修复

3. 语法与拼写检查

4. 句法结构修复

5. 上下文一致性修复

二、推荐的文本修复流程（有序列表）

三、总结

问题事件

码龄粉丝数原力等级 --

模型训练语料——文本修复

6条回答 默认 最新

一、文本修复的关键步骤

1. OCR后文本初步清洗

2. 句子完整性修复

3. 语法与拼写检查

4. 句法结构修复

5. 上下文一致性修复

二、推荐的文本修复流程（有序列表）

三、总结

问题事件

6条回答默认最新