如何设定whisper 输出的语言类型

我用whisper进行语音转文字，经常遇到输出非中文字符的情况，特别是语音不清楚的时候，如何设定whisper只输出中文汉字呢
有帖子说可以这样：

whisper.set_language('zh')

但是我试了会报错，有什么办法吗，多谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-04-24 11:27
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【问题概括】：用户在使用Whisper进行语音转文字时，遇到了输出非中文字符的问题，特别是在语音不清晰的情况下。用户希望设定Whisper只输出中文汉字。

【问题出现原因】：用户尝试使用whisper.set_language('zh')来设定输出语言，但遇到了报错。这可能是因为Whisper库的API不支持这种设置方式，或者用户使用的Whisper版本不支持中文语言设置。

【问题解决方案】：首先，需要确认用户使用的Whisper库版本是否支持中文语言的设置。如果支持，那么可能需要查看API文档来正确设置输出语言。如果不支持，可以考虑使用其他支持中文的语音转文字库，或者在Whisper的输出结果上进行后处理，过滤掉非中文字符。

【提供代码】：如果Whisper库支持中文设置，可以尝试以下代码：

# 假设Whisper库的API中存在set_language方法 whisper.set_language('zh') # 进行语音转文字的操作 text = whisper.transcribe(audio_data) print(text)

如果Whisper库不支持中文设置，可以考虑使用正则表达式过滤非中文字符：

import re # 假设这是Whisper转写的文本 text = whisper.transcribe(audio_data) # 使用正则表达式过滤掉非中文字符 filtered_text = re.sub(r'[^\u4e00-\u9fff]', '', text) print(filtered_text)

【示例代码运行方式】：需要一个Python环境，并且已经安装了Whisper库。运行代码前，确保audio_data变量包含了待转写的音频数据。

【示例代码预期运行结果】：如果Whisper支持中文设置，预期输出应该是纯中文的文本。如果使用正则表达式过滤，预期输出是过滤掉所有非中文字符后的文本。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

RuntimeError: Numpy is not available 机器学习深度学习
2023-03-15 10:55

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ这个错误提示表明你的 PyTorch 模块是使用 API 版本 0x10 编译的，但是当前安装的 NumPy 版本的 API 版本是 0xf。这通常是由于 NumPy 版本
TypeError: argument of type 'NoneType' is not iterable python
2022-08-05 15:40

回答 2 已采纳 var_keep_dic为空，检查一下var_keep_dic的值，这个变量你是赋值的啥？
Log4net 按日期生成日志问题请问您解决了吗 c# 有问必答
2021-12-08 09:18

回答 1 已采纳帖子里面题主2个日志文件路径和路径完全一样，日志文件是独占的，所以另外起了个不重名的文件名，至于为什么会是那种形式的得看源代码的处理了。配置成不一样的文件名就没问题了。比如下面这个配置 <?x
开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（二）
2024-05-30 22:03

开源技术探险家的博客学习OpenAI开源的Whisper语音识别模型，并集成FastAPI对外提供语音识别服务
结构方法是设置字段，但是没有被“保存”吗？ [重复]
2018-06-21 01:41

回答 1 已采纳 You're using a value receiver, so the method modifies a copy of the object. Try changing to a poin
Monster Trap less
2017-09-11 01:49

回答 1 已采纳 http://poj.org/problem?id=2048
如何检查并获取字符串的不同部分 php
2016-06-06 11:36

回答 2 已采纳 Your code can be written easy. After adding the 3rd argument to explode, it will put the rest of a
开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（三）
2024-06-04 15:21

开源技术探险家的博客通过官方推荐的方法调用OpenAI 开放的Whisper语音识别模型
公共职能[重复] php
2016-12-31 20:06

回答 1 已采纳 Your function Private() contains special word private which is used for declaring members, etc. A
开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四）
2024-06-03 18:10

开源技术探险家的博客与Transcriptions差异是Translations的输出不是原始输入语言，而是翻译成英文文本。 5.2. 方式三出现“Could not parse multipart form”问题解决方法：把请求头的"Content-Type": "multipart/form-data" 声明去掉
AIGC-音频生产十大主流模型技术原理及优缺点
2024-05-06 20:44

robinfang2019的博客 2.4.2优点及缺点优点多语言支持：Whisper支持多种语言，包括但不限于98种语言，这使得它在跨语言交流和多语言应用场景中具有很大的优势。高准确性：基于深度学习技术，Whisper展现出高准确性的语音识别能力。它...
“全网最全”LLM推理框架集结营 | 看似微不足道，却决定着AIGC项目的成本、效率与性能!
2024-04-18 21:50

技术挖掘者的博客当前支持以下3中架构的模型：编解码器架构--Transformer base/big、M2M-100、NLLB、BART、mBART、Pegasus、T5、Whisper 仅解码器架构--GPT-2、GPT-J、GPT NeoX、OPT、BLOOM、MPT、Llama、Mistral、Gemma、CodeGen、...
【精华】AIGC启元2024
2024-03-01 15:46

LeeZhao@的博客 AIGC启元2024，汇聚AIGC领域最前沿的动态、最深刻的分析和最具前瞻性的展望。
AI多模态模型架构之输出映射器：Output Projector
2024-07-30 23:35

AIGCmagic社区的博客常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器...
AIGC、ChatGPT、GPT系列？我的认识
2023-02-25 10:56

Conda的编程杂货铺的博客简要介绍AIGC，科普ChatGPT知识，介绍GPT系列的发展历程和具体模型网络结构。（我的认识，部分资料来自网络）
语音识别神器 Whisper 的几个小技巧_如何设定whisper只输出中文
2024-06-24 09:00

月流霜的博客 OpenAI开源的免费离线语音识别神器Whisper，我在安装使用后发现一些问题，于是搜了半天最终汇总了这几个主要的小技巧，希望对大家有帮助，不用满世界再搜了。系统：Ubuntu22.04具体怎么正常使用或者怎么安装，官方MD...
生成模型的2022年——人工智能AIGC顶级论文回顾
2023-02-08 16:05

中杯可乐多加冰的博客：Whisper模型是在68万小时标记音频数据的数据集上训练的，其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。 Whisper 架构是一种简单的端到端方法，实现为利用Transformer模型的...
【AIGC半月报】AIGC大模型启元：2024.08（上）
2024-08-02 12:48

LeeZhao@的博客知识与洞察的宝藏，汇聚AIGC领域最前沿的动态、最深刻的分析和最具前瞻性的展望。
用 AudioGPT 输入自然语言，可以让 ChatGPT 唱歌了？.pdf
2023-08-12 22:41

11. **文本到音频**：FastSpeech 2 支持文本语音合成，允许用户输入文字，生成对应的语音输出，广泛应用于语音合成软件。 12. **图像到音频**：尽管文档中没有详细介绍，但这一功能可能是指根据图像内容生成相应的...
超越openai的whisper，最新语音理解大模型Qwen2-Audio模型部署
2024-08-19 06:00

杰说新技术的博客 Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。...Qwen2-Audio支持直接语音输入和多语言文本输出，具备语音聊天和音频分析两大功能，并支持超过8种语言，包括中文、英语、粤语、法语等。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月24日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

如何设定whisper 输出的语言类型

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新