Demo real · Sem fake · 100% client-side

Transcrição de voz no navegador

Web Speech API ao vivo: aperte o microfone e veja sua fala virar texto em tempo real. Português, inglês e espanhol, com resultados parciais e finais.

○ Parado

Clique no microfone e fale. A transcrição aparece aqui em tempo real.

Aviso honesto de privacidade

A Web Speech API não é necessariamente offline. O comportamento depende do navegador:

Chrome / Edge: envia o áudio para servidores do Google para reconhecimento. Requer internet.
Safari (macOS/iOS): usa o motor da Apple — em parte no dispositivo, em parte na nuvem.
Firefox: não implementa SpeechRecognition.

Se você precisa de privacidade total e funcionamento offline, a alternativa é rodar um modelo como Whisper compilado para WebAssembly (whisper.cpp / transformers.js) — tudo no navegador, sem mandar áudio pra lugar nenhum. Custa mais CPU e tem latência maior, mas é honesto.

Como funciona

1. getUserMedia

O navegador pede permissão pro microfone. Sem permissão, nada acontece.

2. SpeechRecognition

O áudio é processado pelo motor do navegador (Google no Chrome). Eventos retornam textos parciais e finais.

3. Render ao vivo

Os parciais aparecem em itálico enquanto você fala; quando vira final, fixa no texto.

Benchmark honesto

Comparativo qualitativo entre as opções comuns de speech-to-text no navegador. Valores aproximados — varia com hardware, ruído e sotaque.

Solução	Onde roda	Latência	Qualidade pt-BR	Offline	Custo
Web Speech (Chrome)	Servidor Google	~200–500ms	Boa	Não	Grátis
Web Speech (Safari)	Apple (híbrido)	~300–800ms	Média	Parcial	Grátis
Whisper-wasm (tiny)	100% no navegador	~2–5s/chunk	Média	Sim	Grátis · ~75MB
Whisper-wasm (base)	100% no navegador	~5–15s/chunk	Boa	Sim	Grátis · ~150MB
Whisper API (OpenAI)	Servidor OpenAI	~1–3s	Excelente	Não	$0.006/min

Privacidade total → Whisper-wasm Menor latência → Web Speech Melhor qualidade → Whisper API Funciona offline → Whisper-wasm