Extrator de Texto de Imagem OCR
Extraia texto de imagens diretamente no seu navegador usando o mecanismo OCR Tesseract.js. Suporta 19 idiomas, incluindo inglês, russo, chinês, japonês, árabe e muito mais.
Entrada
Saída
Leia-me
O que é OCR?
Reconhecimento Óptico de Caracteres (OCR) é a tecnologia que converte imagens contendo texto em caracteres legíveis por máquina. Funciona analisando as formas e padrões em uma imagem e comparando-os com representações de caracteres conhecidas. OCR é amplamente utilizado para digitalizar documentos impressos, extrair texto de fotos e tornar conteúdo digitalizado pesquisável ou editável.
O OCR moderno baseado em navegador usa modelos de redes neurais treinadas que funcionam inteiramente no seu dispositivo. Isso significa que suas imagens nunca são enviadas para um servidor — o reconhecimento acontece localmente usando sua CPU.
Descrição da ferramenta
Esta ferramenta extrai texto de imagens diretamente no seu navegador usando o mecanismo OCR Tesseract.js. Carregue uma foto, captura de tela ou documento digitalizado, escolha o idioma do texto e clique em Extrair Texto. O texto reconhecido aparece na área de saída, onde você pode copiá-lo para a área de transferência ou baixá-lo como um arquivo .txt. Nenhuma instalação, nenhum upload, nenhuma conexão com a internet necessária após o carregamento da página.
Recursos
- Funciona inteiramente no navegador — sem uploads de arquivos, privacidade total
- Suporta 19 idiomas incluindo inglês, russo, chinês (simplificado e tradicional), japonês, coreano, árabe, hindi e principais idiomas europeus
- Aceita formatos de imagem JPEG, PNG, WebP, GIF, BMP e TIFF
- Indicador de progresso em tempo real durante o reconhecimento
- Baixe o texto extraído como um arquivo
.txtnomeado de acordo com a imagem de origem
Casos de uso
- Digitalizar documentos impressos: Digitalize uma página com seu telefone e extraia todo o texto para edição ou pesquisa sem redigitá-lo manualmente.
- Copiar texto de capturas de tela: Extraia trechos de código, mensagens de erro ou citações de capturas de tela onde o texto não pode ser selecionado normalmente.
- Processar imagens com texto em idioma estrangeiro: Use o seletor de idioma para reconhecer texto em scripts não-latinos como árabe, japonês ou cirílico.
Formatos suportados
| Formato | Extensões |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Idiomas suportados
| Idioma | Código |
|---|---|
| Inglês | eng |
| Russo | rus |
| Francês | fra |
| Alemão | deu |
| Italiano | ita |
| Espanhol | spa |
| Português | por |
| Holandês | nld |
| Polonês | pol |
| Árabe | ara |
| Chinês (Simplificado) | chi_sim |
| Chinês (Tradicional) | chi_tra |
| Japonês | jpn |
| Coreano | kor |
| Hindi | hin |
| Turco | tur |
| Sueco | swe |
| Norueguês | nor |
| Finlandês | fin |
Dicas
- Imagens melhores produzem melhores resultados: Use imagens com alto contraste e texto nítido, uniformemente iluminado. Fotos desfocadas ou de baixa resolução reduzirão a precisão.
- Selecione o idioma correto: A precisão do reconhecimento diminui significativamente quando o idioma errado é selecionado, especialmente para scripts não-latinos.
- Texto escuro em fundo claro funciona melhor: Se sua imagem tem texto claro em fundo escuro, tente invertê-la antes de carregar.
- Documentos digitalizados: Digitalize em 300 DPI ou superior para melhores resultados com texto impresso.
Limitações
- A precisão do reconhecimento depende muito da qualidade da imagem, estilo de fonte e tamanho do texto. Caligrafia, fontes decorativas e texto muito pequeno podem não ser reconhecidos bem.
- Os arquivos do modelo de idioma são baixados no primeiro uso (alguns megabytes cada), portanto a primeira extração pode levar mais tempo.
- Layouts com múltiplas colunas podem produzir texto em uma ordem de leitura inesperada.