心敲暮色的鼓 2020-09-22 16:24 采纳率: 0%
浏览 386
已结题

如何用Python翻译Html里的中文内容(中译英)

最近项目有个需求就是要翻译一批中文文章内容,因为想保留原文的HTML格式,所以就只是想要翻译内容里的一些中文正文,里面的HTML标签和Codes部分希望能够保留,测试了有道,百度和Googletrans三个翻译接口,这三个接口直接来翻译HTML内容好像有BUG,翻译接口应该是没问题,因为Titles部分是可以正常翻译的,开始是报错,考虑到可能有部分HTML内容过长,于是将原文按照3000字符以下裁成几个字符串分别翻译也不可以。没有报错,直接是按原文输出了。

不知道前面问题是否表述清楚,Python新手一枚,所以求助各位大佬看有没有办法实现高效率网页HTML格式中译英,或者Google后发现可以把HTML全文通过HTMLparase解析后翻译出正文再组合到原文,不过看HTMLparase可以提供解析,不知道这个组合是怎么操作,因为我前面已经提到不想影响原文的格式。

希望大佬指点指点,感激不尽,昨晚Google折腾了一晚一直没有找到方法才特此求助。

  • 写回答

2条回答 默认 最新

  • 纳米时速 2020-09-22 17:25
    关注

    可以使用BeautifulSoup库:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#。

    它能够解析html文档成一个BeautifulSoup 的对象。然后遍历找到你要翻译的tag节点,修改节点 .string属性,即将它中译英。最后用prettify() 方法将结果输出

    评论

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?