有这样的PDF文件内容:
10.1
El concepto de prefijación. Sus límites
10.1.1
Prefijación y composición
10.1.1a La prefijación es un proceso morfológico por el que se antepone un
morfema, llamado prefijo, a una palabra ya formada (des-hecho, in-dependiente,
pre-disponer) o a un tema latino o griego (§ 11.8.2a), como en a-morfo, in-erte,
pró-fugo. Además de por esta propiedad, estrictamente posicional, los prefijos se ca
racterizan por otros rasgos que los diferencian de los sufijos y que serán analizados
en este capítulo.
10.1.1b En la gramática tradicional se interpretaban ciertos prefijos como preposi
ciones inseparables. Este criterio asimilaba la prefijación a la composición, que es
el procedimiento morfológico por el que se integran dos o más formas independien
tes en una misma palabra (§ 1.3.2a y capítulo 11). Sin embargo, solo algunos prefijos
cuentan con preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-,
sobre-), e incluso estos se comportan de manera diferente como unidades morfológi
cas que como piezas sintácticas. En la gramática contemporánea se tiende a interpretar
la prefijación como una forma de derivación.
10.1.1c No siempre resultan claras las diferencias entre la composición y la prefi
jación. Las bases léxicas grecolatinas que se suelen denominar elementos compo
sitivos poseen un estatuto intermedio entre las formas ligadas y las libres. Estas
bases compositivas cultas pueden constituir el primer componente de la palabra,
y se asimilan en esto a los prefijos ( filocomunista, logopedia), pero se diferencian de
需要用Python 识别出PDF文件中的段落
或者用正则把序号找到、总之就要分割出段落
把每个段落中所有斜体字符(如filocomunista, logopedia)都要用索引符号替换,避免在翻译引擎中翻译。比如preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-, sobre-), 就要变成preposiciones homónimas (某种标识符),因为斜体的内容在翻译引擎中不翻译
处理好的段落发到DeepL引擎中翻译
翻译好后,再把原来替代的标识符替换回去
把翻译好的段落,新建pptx演示文稿,每页一段,做成外语-中文对照
现在难点是:
我用pdfminer识别,用的page.extract_text(),都是整页文字,不知道怎么划分出原文的段落
怎么用正则找到序号,像是(33.3.1a),然后按照找到的正则匹配,分割段落?
怎么运用DeepL引擎翻译?
怎么添加到pptx幻灯片中,按照每段一页的方式,自动生成幻灯片。如果不行,加到docx中,再把docx转换成pptx也行。