Extractor de Texto OCR de Imágenes
Extrae texto de imágenes directamente en tu navegador utilizando el motor OCR Tesseract.js. Compatible con 19 idiomas incluyendo inglés, ruso, chino, japonés, árabe y más.
Entrada
Salida
Leerme
¿Qué es OCR?
Optical Character Recognition (OCR) es la tecnología que convierte imágenes que contienen texto en caracteres legibles por máquina. Funciona analizando las formas y patrones en una imagen y comparándolos con representaciones de caracteres conocidas. OCR se utiliza ampliamente para digitalizar documentos impresos, extraer texto de fotos y hacer que el contenido escaneado sea buscable o editable.
El OCR moderno basado en navegador utiliza modelos de redes neuronales entrenadas que se ejecutan completamente en tu dispositivo. Esto significa que tus imágenes nunca se envían a un servidor — el reconocimiento ocurre localmente usando tu CPU.
Descripción de la herramienta
Esta herramienta extrae texto de imágenes directamente en tu navegador utilizando el motor OCR Tesseract.js. Carga una foto, captura de pantalla o documento escaneado, elige el idioma del texto y haz clic en Extraer texto. El texto reconocido aparece en el área de salida, donde puedes copiarlo al portapapeles o descargarlo como un archivo .txt. Sin instalación, sin cargas, sin conexión a internet requerida después de que la página se cargue.
Características
- Se ejecuta completamente en el navegador — sin cargas de archivos, privacidad total
- Soporta 19 idiomas incluyendo inglés, ruso, chino (simplificado y tradicional), japonés, coreano, árabe, hindi e idiomas europeos principales
- Acepta formatos de imagen JPEG, PNG, WebP, GIF, BMP y TIFF
- Indicador de progreso en tiempo real durante el reconocimiento
- Descarga el texto extraído como un archivo
.txtnombrado según la imagen de origen
Casos de uso
- Digitalizar documentos impresos: Escanea una página con tu teléfono y extrae todo el texto para editar o buscar sin reescribirlo manualmente.
- Copiar texto de capturas de pantalla: Extrae fragmentos de código, mensajes de error o citas de capturas de pantalla donde el texto no se puede seleccionar normalmente.
- Procesar imágenes con texto en idiomas extranjeros: Utiliza el selector de idioma para reconocer texto en escrituras no latinas como árabe, japonés o cirílico.
Formatos soportados
| Formato | Extensiones |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Idiomas soportados
| Idioma | Código |
|---|---|
| Inglés | eng |
| Ruso | rus |
| Francés | fra |
| Alemán | deu |
| Italiano | ita |
| Español | spa |
| Portugués | por |
| Holandés | nld |
| Polaco | pol |
| Árabe | ara |
| Chino (Simplificado) | chi_sim |
| Chino (Tradicional) | chi_tra |
| Japonés | jpn |
| Coreano | kor |
| Hindi | hin |
| Turco | tur |
| Sueco | swe |
| Noruego | nor |
| Finlandés | fin |
Consejos
- Las imágenes mejores producen mejores resultados: Utiliza imágenes de alto contraste con texto nítido e iluminado uniformemente. Las fotos borrosas o de baja resolución reducirán la precisión.
- Selecciona el idioma correcto: La precisión del reconocimiento disminuye significativamente cuando se selecciona el idioma incorrecto, especialmente para escrituras no latinas.
- El texto oscuro sobre fondo claro funciona mejor: Si tu imagen tiene texto claro sobre fondo oscuro, intenta invertirlo antes de cargarlo.
- Documentos escaneados: Escanea a 300 DPI o superior para obtener los mejores resultados con texto impreso.
Limitaciones
- La precisión del reconocimiento depende en gran medida de la calidad de la imagen, el estilo de fuente y el tamaño del texto. La escritura a mano, las fuentes decorativas y el texto muy pequeño pueden no ser reconocidos bien.
- Los archivos del modelo de idioma se descargan en el primer uso (algunos megabytes cada uno), por lo que la primera extracción puede tardar más.
- Los diseños de varias columnas pueden producir texto en un orden de lectura inesperado.