Wat is OCR?

Optical Character Recognition (OCR) is de technologie die afbeeldingen met tekst omzet in door machines leesbare karakters. Het werkt door de vormen en patronen in een afbeelding te analyseren en deze te vergelijken met bekende karakterrepresentaties. OCR wordt veel gebruikt om gedrukte documenten te digitaliseren, tekst uit foto's te extraheren en gescande inhoud doorzoekbaar of bewerkbaar te maken.

Moderne OCR op basis van browsers gebruikt getrainde neurale netwerkmodellen die volledig op uw apparaat worden uitgevoerd. Dit betekent dat uw afbeeldingen nooit naar een server worden verzonden — herkenning gebeurt lokaal met behulp van uw CPU.

Gereedschapbeschrijving

Dit gereedschap extraheert tekst rechtstreeks in uw browser uit afbeeldingen met behulp van de Tesseract.js OCR-engine. Upload een foto, schermafbeelding of gescand document, kies de taal van de tekst en klik op Tekst extraheren. De herkende tekst verschijnt in het uitvoergebied, waar u deze naar het klembord kunt kopiëren of als .txt-bestand kunt downloaden. Geen installatie, geen uploads, geen internetverbinding vereist nadat de pagina is geladen.

Functies

  • Wordt volledig in de browser uitgevoerd — geen bestandsuploads, volledige privacy
  • Ondersteunt 19 talen, waaronder Engels, Russisch, Chinees (Vereenvoudigd en Traditioneel), Japans, Koreaans, Arabisch, Hindi en grote Europese talen
  • Accepteert JPEG, PNG, WebP, GIF, BMP en TIFF afbeeldingsformaten
  • Realtime voortgangsindicator tijdens herkenning
  • Download geëxtraheerde tekst als .txt-bestand met de naam van de bronafbeelding

Gebruiksscenario's

  • Gedrukte documenten digitaliseren: Scan een pagina met uw telefoon en extraheer alle tekst voor bewerking of zoeken zonder deze handmatig opnieuw in te typen.
  • Tekst uit schermafbeeldingen kopiëren: Extraheer codefragmenten, foutmeldingen of citaten uit schermafbeeldingen waar de tekst normaal niet kan worden geselecteerd.
  • Afbeeldingen met tekst in vreemde talen verwerken: Gebruik de taalkiezer om tekst in niet-Latijnse scripts zoals Arabisch, Japans of Cyrillisch te herkennen.

Ondersteunde formaten

Formaat Extensies
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Ondersteunde talen

Taal Code
Engels eng
Russisch rus
Frans fra
Duits deu
Italiaans ita
Spaans spa
Portugees por
Nederlands nld
Pools pol
Arabisch ara
Chinees (Vereenvoudigd) chi_sim
Chinees (Traditioneel) chi_tra
Japans jpn
Koreaans kor
Hindi hin
Turks tur
Zweeds swe
Noors nor
Fins fin

Tips

  • Betere afbeeldingen geven betere resultaten: Gebruik afbeeldingen met hoog contrast en scherpe, gelijkmatig verlichte tekst. Wazige of lage resolutie foto's verminderen de nauwkeurigheid.
  • Selecteer de juiste taal: De nauwkeurigheid van herkenning daalt aanzienlijk wanneer de verkeerde taal is geselecteerd, vooral voor niet-Latijnse scripts.
  • Donkere tekst op lichte achtergrond werkt het beste: Als uw afbeelding lichte tekst op donkere achtergrond heeft, probeer deze vóór het uploaden om te keren.
  • Gescande documenten: Scan op 300 DPI of hoger voor de beste resultaten met gedrukte tekst.

Beperkingen

  • De nauwkeurigheid van herkenning hangt sterk af van afbeeldingskwaliteit, lettertypestijl en tekstgrootte. Handschrift, decoratieve lettertypen en zeer kleine tekst worden mogelijk niet goed herkend.
  • De taalmodelbestanden worden bij eerste gebruik gedownload (enkele megabytes elk), dus de eerste extractie kan langer duren.
  • Lay-outs met meerdere kolommen kunnen tekst in een onverwachte leesrichting opleveren.