Quando voz em tempo real entra no mobile, o problema deixa de ser só latência. Começa a aparecer um comportamento bem incômodo: o sistema “ouve” fala que ninguém disse, mistura eco do próprio assistente com ruído ambiente e dispara transcrição espúria. O caso fica ainda mais traiçoeiro quando: - o áudio do assistente sai no alto-falante
- o microfone segue aberto
- o VAD do servidor está agressivo o bastante para aceitar ruído como fala ## O ponto que mais me chamou atenção Não parece existir uma correção única. O resultado normalmente depende da soma entre: - configuração de captura
- roteamento de áudio da plataforma
- janela de mute / reabertura do microfone
- heurística de detecção de turno ## O que faz mais sentido para mim Eu trataria isso como problema de timeline e de duplex, não só de sensibilidade do VAD. Ajustar threshold ajuda, mas se a aplicação não sabe claramente quando o bot está falando, quando o microfone deve ficar suspenso e quando reabrir com histerese curta, a falsa captura continua aparecendo. Para quem já colocou voz em produção: vocês atacaram mais pelo lado da plataforma de áudio, do controle da sessão em tempo real, ou do pós-processamento do que foi transcrito?