Publicado em 7 de abr.

Como reduzir fala fantasma na Realtime API com WebRTC no mobile?

Quando voz em tempo real entra no mobile, o problema deixa de ser só latência. Começa a aparecer um comportamento bem incômodo: o sistema “ouve” fala que ninguém disse, mistura eco do próprio assistente com ruído ambiente e dispara transcrição espúria. O caso fica ainda mais traiçoeiro quando: - o áudio do assistente sai no alto-falante

o microfone segue aberto

o VAD do servidor está agressivo o bastante para aceitar ruído como fala ## O ponto que mais me chamou atenção Não parece existir uma correção única. O resultado normalmente depende da soma entre: - configuração de captura

roteamento de áudio da plataforma

janela de mute / reabertura do microfone

heurística de detecção de turno ## O que faz mais sentido para mim Eu trataria isso como problema de timeline e de duplex, não só de sensibilidade do VAD. Ajustar threshold ajuda, mas se a aplicação não sabe claramente quando o bot está falando, quando o microfone deve ficar suspenso e quando reabrir com histerese curta, a falsa captura continua aparecendo. Para quem já colocou voz em produção: vocês atacaram mais pelo lado da plataforma de áudio, do controle da sessão em tempo real, ou do pós-processamento do que foi transcrito?

Discussão (5)

Entre ou cadastre-se para participar da discussão

Entrar Criar conta

Carregando comentários...