Transcrição de voz no navegador
Web Speech API ao vivo: aperte o microfone e veja sua fala virar texto em tempo real. Português, inglês e espanhol, com resultados parciais e finais.
Aviso honesto de privacidade
A Web Speech API não é necessariamente offline. O comportamento depende do navegador:
- Chrome / Edge: envia o áudio para servidores do Google para reconhecimento. Requer internet.
- Safari (macOS/iOS): usa o motor da Apple — em parte no dispositivo, em parte na nuvem.
- Firefox: não implementa SpeechRecognition.
Se você precisa de privacidade total e funcionamento offline, a alternativa é rodar um modelo como Whisper compilado para WebAssembly (whisper.cpp / transformers.js) — tudo no navegador, sem mandar áudio pra lugar nenhum. Custa mais CPU e tem latência maior, mas é honesto.
Como funciona
1. getUserMedia
O navegador pede permissão pro microfone. Sem permissão, nada acontece.
2. SpeechRecognition
O áudio é processado pelo motor do navegador (Google no Chrome). Eventos retornam textos parciais e finais.
3. Render ao vivo
Os parciais aparecem em itálico enquanto você fala; quando vira final, fixa no texto.
Benchmark honesto
Comparativo qualitativo entre as opções comuns de speech-to-text no navegador. Valores aproximados — varia com hardware, ruído e sotaque.
| Solução | Onde roda | Latência | Qualidade pt-BR | Offline | Custo |
|---|---|---|---|---|---|
| Web Speech (Chrome) | Servidor Google | ~200–500ms | Boa | Não | Grátis |
| Web Speech (Safari) | Apple (híbrido) | ~300–800ms | Média | Parcial | Grátis |
| Whisper-wasm (tiny) | 100% no navegador | ~2–5s/chunk | Média | Sim | Grátis · ~75MB |
| Whisper-wasm (base) | 100% no navegador | ~5–15s/chunk | Boa | Sim | Grátis · ~150MB |
| Whisper API (OpenAI) | Servidor OpenAI | ~1–3s | Excelente | Não | $0.006/min |