语音实时STT切割问题

语音实时STT，是不断处理一个语音段（可能是20ms），这样的切割会不会把一个字给切割开了，会有影响吗？如“我”字的语音波形别切割到了两段。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

跟AI大模型实时语音通话解决方案
2024-09-20 20:05

Python_金钱豹的博客越来越多的AI智能助手应用在发展语音实时交流方面有显著成效。诸多领域出现 AI 实时语音创新应用，如 AI 社交陪伴、AI 口语学习、游戏 AI NPC 及 AI 呼叫中心等。这些应用既展现 AI 技术潜力，也体现人们对更自然、...
基于Distil-Whisper的实时ASR【自动语音识别】
2024-10-22 09:55

新缸中之脑的博客该项目的目标是创建一个实时语音转文本系统，该系统可监听麦克风输入，使用 Distil-Whisper 实时转录音频，并将转录文本发布到 Redis 服务器以供下游应用程序使用。
语音交互的三驾马车：ASR、NLP、TTS
2020-02-18 08:52

YHFHing的博客 01 语音交互的组成我们以一个智能音箱的例子来开始今天的讨论：假设我们对智能音箱天猫精灵说“放一首周杰伦的《晴天》”。天猫精灵就会说“好的，马上为你播放周杰伦的《晴天》”，并且开始播放音乐。这个...
语音转文本ASR工具合集
2025-03-08 13:49

johnny233的博客 ASR：ASR与STT、SenseVoice、FunASR和SenseVoice、Sonic、Whisper、Voxtral、对比与选择； ASR和TTS、智能语音对话系统、MMS、OCTAVE
funasr VAD语音端点检测；sherpa VAD+STT识别
2024-03-03 10:01

loong_XL的博客 Voice Activity Detection 语音活性检测（VAD）也被称为语音端点检测，基本原理是判断一个区间内的音频（区间被称为一个“语音帧”），是有效语音，还是无效语音。模型下载：...
教你免费白嫖各大知名互联网公司的「文字转语音、语音转文字」服务！
2021-07-06 16:47

阿虚同学的博客文字转语音，国内基本上看讯飞，但百度凭借自身做AI的实力，在语音识别这方面还是不错的 ● 1.1 讯飞开放平台（最推荐）网址：https://www.xfyun.cn/services/online_tts 科大讯飞是最早开始做语音识别服务的企业...
开源模型应用落地-语音转文本-whisper模型-AIGC应用探索（五）
2025-03-25 19:00

开源技术探险家的博客一、前言在上一节中，学习了如何使用vLLM来部署Whisper-large-v3-...定义STT工具类请求私有化部署的语音转文本服务 # -*- coding:utf-8 -*- from openai import OpenAI openai_api_key = "EMPTY" openai_api_base = ...
编写虚拟 AI 女友
2023-03-20 21:00

woshicver的博客在本文中，将解释用 AI 创建虚拟女友的过程。别担心，如果你不想要虚拟女朋友，也可以用来创建虚拟男友。如果你有兴趣使用 Colab 生成你的女朋友/男朋友，你可以查看此处：...
本文从语音识别的概率模型出发，着重阐述概率模型的建立方法、计算过程和推断结果。并通过案例——语音识别中的混合高斯模型（Gaussian Mixture Model，GMM），进一步探讨GMM在语音识别
2023-08-27 11:55

光子AI的博客作者：禅与计算机程序设计艺术近年来，基于人工智能（AI）、机器学习（ML）等新技术的应用已经成为科技创新和产业变革的主流趋势。以语音识别为例，移动端的语音识别技术已经深入到用户每天使用的交互方式之中。为了...
CTC-Loss
2023-05-14 21:05

香菜烤面包的博客它不先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，直接基于图像进行文字序列识别。 CRNN算法最大的贡献在于把CNN做图像特征工程的潜力与RNN做序列化识别的潜力进行结合，它既提取了鲁棒特征...
语音识别发展综述
2020-03-24 21:34

Enochzhu的博客语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的...
语音识别发展史
2020-10-27 18:22

编程大乐趣的博客语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到2009年深度学习技术的长足发展才使得语音识别的精度大大提高，虽然还无法进行无限制领域、无限制人群的应用，但也在大多数场景中提供了一种便利高效的...
语音转文本工具：音频处理与提示词优化全指南
2025-11-08 03:48

尤辰城Agatha的博客是否遇到过语音转文本（Speech-to-Text，STT）结果准确率波动大、关键信息提取困难的问题？本文将结合[项目教程](https://link.gitcode.com/i/2a9abde6bb86fef9c5603eed0261c51d)中的提示词工程技术，从音频预处理到...
从不温不火到炙手可热：语音识别技术简史
2019-08-21 18:56

AI科技大本营的博客作者 | 陈孝良，冯大航，李智勇出品 | AI科技大本营（ID: rgznai100）【导读】语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到 2009 年深度...
【速通RAG实战：进阶】17、AI视频打点全攻略：从技术实现到媒体工作流提效的实战指南
2025-05-29 20:51

无心水的博客技术层面，系统通过音视频分离、语音识别和语义分析实现视频内容结构化，结合Whisper模型和LLM纠错提升转录精度。应用方面，该技术在广告制作、教育课程、短视频创作等领域显著提升效率，如广告修改周期缩短66%、...
【信息科学与工程学】【智能交通】第六篇自动驾驶车辆制造全尺度零部件与制造装备知识库01
2026-02-25 09:59

flyair_China的博客自动驾驶车辆制造全尺度零部件与制造装备知识库编号类型应用场景数学方程式/算法方程式/函数方程式精度误差边界条件工艺工序数学方法/工程方法/其他方法理论依据关联知识点 1 零部件 AI芯片FinFET晶体...
RealtimeSTT语音端点检测终极指南：5个参数调优实例快速提升识别精度
2025-09-07 16:11

荣正青的博客这个开源项目让开发者能够轻松实现实时语音识别应用，特别在语音端点检测方面表现出色。 ## 什么是语音端点检测？语音端点检测（Voice Activity Detection, VAD）是语音识别系统中的关键技术，它能准确判断何时...
【实战篇】【多模态大模型「炼丹」实录：当DeepSeek开始玩转视听说】
2025-03-09 14:02

再见孙悟空_的博客去年给某直播平台做AI审核系统时，我们遭遇了史诗级尴尬——有个主播穿着印满禁忌词的T恤跳舞，纯文本审核屁都没检测到，视觉模型盯着人家胸看了半天，硬是没认出衣服上的字。” 原来说"再考虑考虑"时，对方在镜头里...
深度 | 语音识别技术简史：从不温不火到炙手可热
2019-08-22 19:38

Python大本营的博客作者 | 陈孝良，冯大航，李智勇来源 | AI科技大本营（ID: rgznai100）【导读】语音识别自半个世纪前诞生以来，一直处于不温不火的状态，直到 2009 年深度...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月4日

语音实时STT切割问题

0条回答 默认 最新

问题事件

0条回答默认最新