Demo real · Sem fake · 100% client-side

Transcrição de voz no navegador

Web Speech API ao vivo: aperte o microfone e veja sua fala virar texto em tempo real. Português, inglês e espanhol, com resultados parciais e finais.

○ Parado
Clique no microfone e fale. A transcrição aparece aqui em tempo real.

Aviso honesto de privacidade

A Web Speech API não é necessariamente offline. O comportamento depende do navegador:

  • Chrome / Edge: envia o áudio para servidores do Google para reconhecimento. Requer internet.
  • Safari (macOS/iOS): usa o motor da Apple — em parte no dispositivo, em parte na nuvem.
  • Firefox: não implementa SpeechRecognition.

Se você precisa de privacidade total e funcionamento offline, a alternativa é rodar um modelo como Whisper compilado para WebAssembly (whisper.cpp / transformers.js) — tudo no navegador, sem mandar áudio pra lugar nenhum. Custa mais CPU e tem latência maior, mas é honesto.

Como funciona

1. getUserMedia

O navegador pede permissão pro microfone. Sem permissão, nada acontece.

2. SpeechRecognition

O áudio é processado pelo motor do navegador (Google no Chrome). Eventos retornam textos parciais e finais.

3. Render ao vivo

Os parciais aparecem em itálico enquanto você fala; quando vira final, fixa no texto.

Benchmark honesto

Comparativo qualitativo entre as opções comuns de speech-to-text no navegador. Valores aproximados — varia com hardware, ruído e sotaque.

SoluçãoOnde rodaLatênciaQualidade pt-BROfflineCusto
Web Speech (Chrome)Servidor Google
~200–500ms
Boa
Não
Grátis
Web Speech (Safari)Apple (híbrido)
~300–800ms
Média
Parcial
Grátis
Whisper-wasm (tiny)100% no navegador
~2–5s/chunk
Média
Sim
Grátis · ~75MB
Whisper-wasm (base)100% no navegador
~5–15s/chunk
Boa
Sim
Grátis · ~150MB
Whisper API (OpenAI)Servidor OpenAI
~1–3s
Excelente
Não
$0.006/min
Privacidade total → Whisper-wasm Menor latência → Web Speech Melhor qualidade → Whisper API Funciona offline → Whisper-wasm