m0_59419041 2022-04-02 18:06
浏览 20
已结题

Python识别PDF段落和翻译问题

有这样的PDF文件内容:

10.1
El concepto de prefijación. Sus límites
10.1.1
Prefijación y composición
10.1.1a La prefijación es un proceso morfológico por el que se antepone un
morfema, llamado prefijo, a una palabra ya formada (des-hecho, in-dependiente,
pre-disponer
) o a un tema latino o griego (§ 11.8.2a), como en a-morfo, in-erte,
pró-fugo. Además de por esta propiedad, estrictamente posicional, los prefijos se ca
racterizan por otros rasgos que los diferencian de los sufijos y que serán analizados
en este capítulo.
10.1.1b En la gramática tradicional se interpretaban ciertos prefijos como preposi
ciones inseparables. Este criterio asimilaba la prefijación a la composición, que es
el procedimiento morfológico por el que se integran dos o más formas independien
tes en una misma palabra (§ 1.3.2a y capítulo 11). Sin embargo, solo algunos prefijos
cuentan con preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-,
sobre-
), e incluso estos se comportan de manera diferente como unidades morfológi
cas que como piezas sintácticas. En la gramática contemporánea se tiende a interpretar
la prefijación como una forma de derivación.
10.1.1c No siempre resultan claras las diferencias entre la composición y la prefi
jación. Las bases léxicas grecolatinas que se suelen denominar elementos compo
sitivos poseen un estatuto intermedio entre las formas ligadas y las libres. Estas
bases compositivas cultas pueden constituir el primer componente de la palabra,
y se asimilan en esto a los prefijos ( filocomunista, logopedia), pero se diferencian de

  1. 需要用Python 识别出PDF文件中的段落

  2. 或者用正则把序号找到、总之就要分割出段落

  3. 把每个段落中所有斜体字符(如filocomunista, logopedia)都要用索引符号替换,避免在翻译引擎中翻译。比如preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-, sobre-), 就要变成preposiciones homónimas (某种标识符),因为斜体的内容在翻译引擎中不翻译

  4. 处理好的段落发到DeepL引擎中翻译

  5. 翻译好后,再把原来替代的标识符替换回去

  6. 把翻译好的段落,新建pptx演示文稿,每页一段,做成外语-中文对照

现在难点是:

  1. 我用pdfminer识别,用的page.extract_text(),都是整页文字,不知道怎么划分出原文的段落

  2. 怎么用正则找到序号,像是(33.3.1a),然后按照找到的正则匹配,分割段落?

  3. 怎么运用DeepL引擎翻译?

  4. 怎么添加到pptx幻灯片中,按照每段一页的方式,自动生成幻灯片。如果不行,加到docx中,再把docx转换成pptx也行。

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 4月10日
    • 创建了问题 4月2日

    悬赏问题

    • ¥15 comparecluster没有办法kegg
    • ¥15 远程访问linux主机超时
    • ¥15 odoo17存货管理优势于中国国内该行业传统ERP或MES的详细解读和举例
    • ¥15 CPU卡指令整合指令数据都在图片上
    • ¥15 odoo17处理受托加工产品
    • ¥15 如何用MATLAB编码图三的积分
    • ¥15 圆孔衍射光强随孔径变化
    • ¥15 MacBook pro m3max上用vscode运行c语言没有反应
    • ¥15 ESP-PROG配置错误,ALL ONES
    • ¥15 结构功能耦合指标计算