Qu'est-ce que l'OCR ?

La reconnaissance optique de caractères (OCR) est la technologie qui convertit les images contenant du texte en caractères lisibles par machine. Elle fonctionne en analysant les formes et les motifs dans une image et en les comparant à des représentations de caractères connues. L'OCR est largement utilisée pour numériser les documents imprimés, extraire du texte à partir de photos et rendre le contenu numérisé consultable ou modifiable.

L'OCR moderne basée sur le navigateur utilise des modèles de réseaux de neurones entraînés qui s'exécutent entièrement sur votre appareil. Cela signifie que vos images ne sont jamais envoyées à un serveur — la reconnaissance se fait localement en utilisant votre CPU.

Description de l'outil

Cet outil extrait le texte des images directement dans votre navigateur en utilisant le moteur OCR Tesseract.js. Téléchargez une photo, une capture d'écran ou un document numérisé, choisissez la langue du texte, et cliquez sur Extraire le texte. Le texte reconnu apparaît dans la zone de sortie, où vous pouvez le copier dans le presse-papiers ou le télécharger sous forme de fichier .txt. Aucune installation, aucun téléchargement, aucune connexion Internet requise après le chargement de la page.

Fonctionnalités

  • S'exécute entièrement dans le navigateur — aucun téléchargement de fichier, confidentialité totale
  • Supporte 19 langues dont l'anglais, le russe, le chinois (simplifié et traditionnel), le japonais, le coréen, l'arabe, l'hindi et les principales langues européennes
  • Accepte les formats d'image JPEG, PNG, WebP, GIF, BMP et TIFF
  • Indicateur de progression en temps réel pendant la reconnaissance
  • Téléchargez le texte extrait sous forme de fichier .txt nommé d'après l'image source

Cas d'usage

  • Numériser des documents imprimés : Scannez une page avec votre téléphone et extrayez tout le texte pour l'édition ou la recherche sans le retaper manuellement.
  • Copier du texte à partir de captures d'écran : Extrayez des extraits de code, des messages d'erreur ou des citations à partir de captures d'écran où le texte ne peut pas être sélectionné normalement.
  • Traiter des images contenant du texte en langue étrangère : Utilisez le sélecteur de langue pour reconnaître le texte dans des scripts non latins tels que l'arabe, le japonais ou le cyrillique.

Formats supportés

Format Extensions
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Langues supportées

Langue Code
Anglais eng
Russe rus
Français fra
Allemand deu
Italien ita
Espagnol spa
Portugais por
Néerlandais nld
Polonais pol
Arabe ara
Chinois (simplifié) chi_sim
Chinois (traditionnel) chi_tra
Japonais jpn
Coréen kor
Hindi hin
Turc tur
Suédois swe
Norvégien nor
Finnois fin

Conseils

  • Les meilleures images produisent les meilleurs résultats : Utilisez des images à haut contraste avec un texte net et uniformément éclairé. Les photos floues ou basse résolution réduiront la précision.
  • Sélectionnez la bonne langue : La précision de la reconnaissance diminue considérablement lorsque la mauvaise langue est sélectionnée, en particulier pour les scripts non latins.
  • Le texte foncé sur fond clair fonctionne mieux : Si votre image a du texte clair sur un fond foncé, essayez de l'inverser avant de le télécharger.
  • Documents numérisés : Numérisez à 300 DPI ou plus pour de meilleurs résultats avec du texte imprimé.

Limitations

  • La précision de la reconnaissance dépend fortement de la qualité de l'image, du style de police et de la taille du texte. L'écriture manuscrite, les polices décoratives et le texte très petit peuvent ne pas être bien reconnus.
  • Les fichiers du modèle de langue sont téléchargés lors de la première utilisation (quelques mégaoctets chacun), donc la première extraction peut prendre plus de temps.
  • Les mises en page multi-colonnes peuvent produire du texte dans un ordre de lecture inattendu.