shanhe12345 2025-10-21 16:19 采纳率: 25%

火山引擎流式语音识别大模型做持续监听持续记录场景怎么写逻辑好

火山引擎流式语音识别大模型做持续监听持续记录场景怎么写逻辑好
目前是麦克风实时说话，通过静音检测分割成临时wav文件传给模型再返回，速度慢效率低。如果用麦克风流式持续传输包，我发现这个模型会不断返回增量的语句，也就是停止后才给最终结果，发现不适合于持续监听快速持续，一次性返回结果的场景。
是我的技术路线走错了吗，还有好多不明白的地方，这个场景怎么写逻辑比较好呢？

业务场景描述：麦克风一直开启状态。随着说话，屏幕上不断快速出现识别的文字结果。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-10-21 16:24

关注

让【宝码香车】来帮您解答，本回答参考DeepSeek编写，并整理提供。

如果答案让您满意，请采纳、点赞、关注，非常感谢！
.
每日一句正能量，让它带给您好心情：把生活过得热气腾腾，就是最好的状态。
.

针对您描述的"持续监听、实时显示"场景，我认为您的技术路线确实需要调整。火山引擎流式语音识别大模型的设计就是为了实时返回增量结果的，这恰恰符合您的需求。让我为您提供一个更优化的技术方案。

问题分析

您当前方案的问题：

静音检测分割成文件 → 增加了延迟
等待最终结果 → 不符合实时显示需求
文件传输 → 效率低下

推荐的技术方案

1. 核心逻辑架构

class RealtimeSpeechRecognition {
  constructor() {
    this.isListening = false;
    this.mediaRecorder = null;
    this.audioChunks = [];
    this.recognitionStream = null;
  }


  // 开始监听
  async startListening() {
    try {
      const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
      this.setupMediaRecorder(stream);
      this.connectToVolcanoEngine();
      this.isListening = true;
    } catch (error) {
      console.error('无法访问麦克风:', error);
    }
  }


  // 设置媒体录制器
  setupMediaRecorder(stream) {
    const options = {
      mimeType: 'audio/webm;codecs=opus',
      audioBitsPerSecond: 16000
    };


    this.mediaRecorder = new MediaRecorder(stream, options);
    
    this.mediaRecorder.ondataavailable = (event) => {
      if (event.data.size > 0) {
        this.sendAudioData(event.data);
      }
    };


    // 每100ms发送一次数据，保证低延迟
    this.mediaRecorder.start(100);
  }
}

2. 流式传输实现

import websocket
import threading
import queue
from collections import deque


class VolcanoStreamingClient:
    def __init__(self):
        self.ws = None
        self.audio_queue = queue.Queue()
        self.text_buffer = deque(maxlen=10)  # 保存最近10条识别结果
        self.is_connected = False
        
    def connect(self):
        """连接火山引擎WebSocket服务"""
        websocket.enableTrace(True)
        self.ws = websocket.WebSocketApp(
            "wss://your-volcano-websocket-endpoint",
            on_message=self.on_message,
            on_error=self.on_error,
            on_close=self.on_close
        )
        
        # 在单独线程中运行WebSocket
        ws_thread = threading.Thread(target=self.ws.run_forever)
        ws_thread.daemon = True
        ws_thread.start()
        
    def on_message(self, ws, message):
        """处理识别结果"""
        try:
            result = json.loads(message)
            if result.get('type') == 'partial':  # 增量结果
                text = result.get('text', '')
                self.update_display(text, is_final=False)
            elif result.get('type') == 'final':  # 最终结果
                text = result.get('text', '')
                self.update_display(text, is_final=True)
        except Exception as e:
            print(f"解析结果错误: {e}")
            
    def send_audio_data(self, audio_chunk):
        """发送音频数据"""
        if self.ws and self.ws.sock and self.ws.sock.connected:
            # 将音频数据转换为base64或直接发送二进制
            self.ws.send(audio_chunk, opcode=websocket.ABNF.OPCODE_BINARY)

3. 前端实时显示优化

class DisplayManager {
  constructor() {
    this.displayElement = document.getElementById('speech-text');
    this.currentText = '';
    this.isUpdating = false;
  }


  // 更新显示内容
  updateDisplay(text, isFinal = false) {
    if (isFinal) {
      // 最终结果，清空当前内容，开始新行
      this.addFinalText(text);
      this.currentText = '';
    } else {
      // 增量结果，更新当前行
      this.currentText = text;
      this.renderText();
    }
  }


  // 渲染文本
  renderText() {
    const timestamp = new Date().toLocaleTimeString();
    const displayText = `${timestamp} - ${this.currentText}`;
    
    // 使用requestAnimationFrame保证流畅更新
    requestAnimationFrame(() => {
      this.displayElement.textContent = displayText;
      this.displayElement.scrollIntoView({ behavior: 'smooth' });
    });
  }


  addFinalText(text) {
    const finalElement = document.createElement('div');
    finalElement.className = 'final-text';
    finalElement.textContent = `${new Date().toLocaleTimeString()} - ${text}`;
    
    this.displayElement.parentNode.insertBefore(finalElement, this.displayElement);
  }
}

4. 完整的业务流程

public class ContinuousSpeechRecognition {
    private volatile boolean isRunning = false;
    private AudioFormat audioFormat;
    private TargetDataLine targetDataLine;
    
    public void startContinuousRecognition() {
        try {
            // 设置音频格式
            audioFormat = new AudioFormat(16000, 16, 1, true, false);
            
            // 获取麦克风输入
            DataLine.Info info = new DataLine.Info(TargetDataLine.class, audioFormat);
            targetDataLine = (TargetDataLine) AudioSystem.getLine(info);
            targetDataLine.open(audioFormat);
            targetDataLine.start();
            
            isRunning = true;
            
            // 启动处理线程
            new Thread(this::processAudioStream).start();
            
        } catch (LineUnavailableException e) {
            e.printStackTrace();
        }
    }
    
    private void processAudioStream() {
        byte[] buffer = new byte[4096];
        VolcanoStreamClient streamClient = new VolcanoStreamClient();
        
        while (isRunning) {
            int bytesRead = targetDataLine.read(buffer, 0, buffer.length);
            if (bytesRead > 0) {
                // 发送到火山引擎流式识别
                streamClient.sendAudioData(buffer, bytesRead);
            }
        }
    }
    
    // 处理识别结果回调
    public void onRecognitionResult(String text, boolean isFinal) {
        if (isFinal) {
            // 最终结果，保存到历史
            saveToHistory(text);
        }
        // 实时更新UI显示
        updateDisplay(text, isFinal);
    }
}

关键优化点

低延迟传输：使用WebSocket或gRPC流式传输，避免文件操作
增量结果显示：直接使用模型的partial结果实时更新界面
缓冲区管理：合理设置音频缓冲区大小，平衡延迟和稳定性
错误恢复：网络中断时自动重连，保持服务连续性

配置建议

# 音频配置
audio_config:
  sample_rate: 16000
  channels: 1
  format: pcm_s16le
  chunk_size: 1024  # 每帧大小


# 网络配置
streaming_config:
  reconnect_interval: 2000  # 重连间隔(ms)
  timeout: 30000           # 超时时间(ms)
  buffer_size: 8192        # 缓冲区大小

这个方案充分利用了火山引擎流式识别的特性，能够实现您要求的"随着说话，屏幕上不断快速出现识别的文字结果"的效果。关键是要正确处理增量结果，而不是等待最终结果。

报告相同问题？

关注问题

用 Vue3 + Node.js + RAG 构建 Al 讲义问答系统(接入豆包大模型)
2025-05-27 12:00

AI大模型_学习君的博客随着大语言模型（LLM）的迅猛发展，将其应用于教育领域的讲义问答成为可能。然而，传统大模型在处理超出训练数据范围的专业问题时，往往会出现 “幻觉”（即捏造不正确的内容），降低回答的可信度。为了解决这一...
Vue 3.5 + WangEditor 打造智能笔记编辑器：语音识别功能深度实现
2025-11-30 21:21

2501_94281891的博客这篇文章基于 Vue 3.5 和 WangEditor 实现了一套完整的笔记编辑器语音识别功能，通过分层设计实现了模块解耦，兼顾了实时性、兼容性和稳定性。高效的音频格式转换方案，确保识别服务兼容性完善的状态管理与错误处理...
Android 接入火山方舟 AI 对话流式数据的实战指南：从接入到优化
2026-01-16 07:45

技术笔记君的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
Android开发实战：豆包流式语音模型接入指南与避坑实践
2026-01-16 01:55

注释008的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
AI时代产品经理的必修课：9位行业大牛的深度解析与策略分享！
2025-12-23 19:00

AI学习不迷路的博客本文基于AI产品大会九位嘉宾分享，归纳出AI时代产品经理的三大变革方向：工具层从低代码到自然语言交互的跃迁；知识层从文件管理到智能问答系统的重构；场景层从通用平台到垂直落地的深耕。核心洞察在于：工具门槛...
C++离线语音识别(ASR)实战：从模型部署到性能优化全解析
2026-01-14 10:46

AI 物语的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
Android接入火山方舟AI对话流式数据的性能优化实践
2026-01-19 00:51

Devv138的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
VSCode插件开发实战：基于AI语音识别的智能提示词系统
2026-01-16 00:29

无敌寂寞473的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
AI对话场景下的流式传输前端实现：从技术选型到性能优化
2026-01-17 01:23

AI 团子的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
ESP32 AI 机器人入门教程从原理到实现【免费开源可商用】–ESP-AI
2025-05-04 17:01

冗冗h的博客 ESP-AI选用WebSocket 通，相较与MQTT，WERTC，WebSocket 更方便与前期的功能实现与原型搭建，并且具有低延迟，高性价比的功能，在前期开发过程中面对需求仅为聊天，实时指令控制时，选择使用WebSocket 通信协议的...
Android开发实战：解决火山方舟流式数据foreach无法实时更新UI的技术方案
2026-01-21 06:49

Blinky378的博客通过LiveData+协程的方案，我们完美解决了火山方舟流式数据实时更新UI的问题。代码简洁，符合Android官方推荐架构性能优异，不会造成UI卡顿扩展性强，易于...基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。
51c大模型~合集125
2025-05-08 10:47

whaosoft-143的博客在最核心的比较中，AZR-Coder-7B 在多个代码与数学推理基准上取得了当前同规模模型中的最优结果，不仅在总体平均分上领先，更在代码任务平均得分上超越了多个依赖人工任务训练的模型。他的导师是黄高教授。
Android Studio实战：基于语音识别的关键词检测实现与优化
2026-01-18 06:28

Wolf 阿斌的博客 API版本兼容Android 8.0以上必须使用，否则无网络时直接崩溃电池优化白名单中文多音字陷阱"银行" to listOf("yin hang", "yin xing"),"行长" to listOf("hang zhang", "xing zhang")基于火山引擎豆包大模型，从零...
Android Studio集成百度语音识别SDK的实战优化与避坑指南
2026-01-21 06:21

技术栈长的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
Android端集成Whisper.cpp与VAD：实现高效语音识别的技术实践
2026-01-18 01:07

IInter367的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
AI流式传输实战：基于SSE的前端实时数据推送入门指南
2026-01-20 00:19

我就是我725的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
Android App集成豆包大模型SDK实战指南：从接入到性能优化
2026-01-20 01:07

网关 Gate的博客基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月21日

火山引擎流式语音识别大模型 做持续监听持续记录 场景怎么写逻辑好

2条回答 默认 最新