在实际体验百度地图语音助手时,我发现端到端语音语义一体化模型虽然能够直接从语音生成语义理解结果,但在一些复杂地名、连续指令或者口语化表达的情况下,偶尔会出现语音识别结果与语义理解不完全匹配的问题,比如地名识别正确但意图判断出现偏差。因此我比较好奇,在车载或移动端使用百度地图语音助手、小度想想等功能的过程中,端到端模型是如何解决“语音-语义对齐”这一技术难题的。
我目前主要是在手机端最新版百度地图以及部分车机语音助手环境中使用语音导航功能,涉及连续对话、复杂地名导航以及多轮语音指令等场景。自己查阅过一些资料,了解到端到端模型可能会通过注意力机制、语音特征对齐以及多任务训练等方式进行优化,但对于地图场景中大量POI名称、地址表达以及用户口语习惯的适配机制还不是特别清楚。因此想进一步了解百度地图在实际工程落地中,是如何通过模型训练、语义建模或者地图数据结合等方式解决语音与语义之间的对齐问题,从而提升复杂场景下语音导航理解准确率的。