最近项目有个需求就是要翻译一批中文文章内容,因为想保留原文的HTML格式,所以就只是想要翻译内容里的一些中文正文,里面的HTML标签和Codes部分希望能够保留,测试了有道,百度和Googletrans三个翻译接口,这三个接口直接来翻译HTML内容好像有BUG,翻译接口应该是没问题,因为Titles部分是可以正常翻译的,开始是报错,考虑到可能有部分HTML内容过长,于是将原文按照3000字符以下裁成几个字符串分别翻译也不可以。没有报错,直接是按原文输出了。
不知道前面问题是否表述清楚,Python新手一枚,所以求助各位大佬看有没有办法实现高效率网页HTML格式中译英,或者Google后发现可以把HTML全文通过HTMLparase解析后翻译出正文再组合到原文,不过看HTMLparase可以提供解析,不知道这个组合是怎么操作,因为我前面已经提到不想影响原文的格式。
希望大佬指点指点,感激不尽,昨晚Google折腾了一晚一直没有找到方法才特此求助。