OCR Afbeelding Tekstextractor
Extraheer tekst rechtstreeks uit afbeeldingen in uw browser met behulp van de Tesseract.js OCR-engine. Ondersteunt 19 talen, waaronder Engels, Russisch, Chinees, Japans, Arabisch en meer.
Invoer
Uitvoer
Readme
Wat is OCR?
Optical Character Recognition (OCR) is de technologie die afbeeldingen met tekst omzet in door machines leesbare karakters. Het werkt door de vormen en patronen in een afbeelding te analyseren en deze te vergelijken met bekende karakterrepresentaties. OCR wordt veel gebruikt om gedrukte documenten te digitaliseren, tekst uit foto's te extraheren en gescande inhoud doorzoekbaar of bewerkbaar te maken.
Moderne OCR op basis van browsers gebruikt getrainde neurale netwerkmodellen die volledig op uw apparaat worden uitgevoerd. Dit betekent dat uw afbeeldingen nooit naar een server worden verzonden — herkenning gebeurt lokaal met behulp van uw CPU.
Gereedschapbeschrijving
Dit gereedschap extraheert tekst rechtstreeks in uw browser uit afbeeldingen met behulp van de Tesseract.js OCR-engine. Upload een foto, schermafbeelding of gescand document, kies de taal van de tekst en klik op Tekst extraheren. De herkende tekst verschijnt in het uitvoergebied, waar u deze naar het klembord kunt kopiëren of als .txt-bestand kunt downloaden. Geen installatie, geen uploads, geen internetverbinding vereist nadat de pagina is geladen.
Functies
- Wordt volledig in de browser uitgevoerd — geen bestandsuploads, volledige privacy
- Ondersteunt 19 talen, waaronder Engels, Russisch, Chinees (Vereenvoudigd en Traditioneel), Japans, Koreaans, Arabisch, Hindi en grote Europese talen
- Accepteert JPEG, PNG, WebP, GIF, BMP en TIFF afbeeldingsformaten
- Realtime voortgangsindicator tijdens herkenning
- Download geëxtraheerde tekst als
.txt-bestand met de naam van de bronafbeelding
Gebruiksscenario's
- Gedrukte documenten digitaliseren: Scan een pagina met uw telefoon en extraheer alle tekst voor bewerking of zoeken zonder deze handmatig opnieuw in te typen.
- Tekst uit schermafbeeldingen kopiëren: Extraheer codefragmenten, foutmeldingen of citaten uit schermafbeeldingen waar de tekst normaal niet kan worden geselecteerd.
- Afbeeldingen met tekst in vreemde talen verwerken: Gebruik de taalkiezer om tekst in niet-Latijnse scripts zoals Arabisch, Japans of Cyrillisch te herkennen.
Ondersteunde formaten
| Formaat | Extensies |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Ondersteunde talen
| Taal | Code |
|---|---|
| Engels | eng |
| Russisch | rus |
| Frans | fra |
| Duits | deu |
| Italiaans | ita |
| Spaans | spa |
| Portugees | por |
| Nederlands | nld |
| Pools | pol |
| Arabisch | ara |
| Chinees (Vereenvoudigd) | chi_sim |
| Chinees (Traditioneel) | chi_tra |
| Japans | jpn |
| Koreaans | kor |
| Hindi | hin |
| Turks | tur |
| Zweeds | swe |
| Noors | nor |
| Fins | fin |
Tips
- Betere afbeeldingen geven betere resultaten: Gebruik afbeeldingen met hoog contrast en scherpe, gelijkmatig verlichte tekst. Wazige of lage resolutie foto's verminderen de nauwkeurigheid.
- Selecteer de juiste taal: De nauwkeurigheid van herkenning daalt aanzienlijk wanneer de verkeerde taal is geselecteerd, vooral voor niet-Latijnse scripts.
- Donkere tekst op lichte achtergrond werkt het beste: Als uw afbeelding lichte tekst op donkere achtergrond heeft, probeer deze vóór het uploaden om te keren.
- Gescande documenten: Scan op 300 DPI of hoger voor de beste resultaten met gedrukte tekst.
Beperkingen
- De nauwkeurigheid van herkenning hangt sterk af van afbeeldingskwaliteit, lettertypestijl en tekstgrootte. Handschrift, decoratieve lettertypen en zeer kleine tekst worden mogelijk niet goed herkend.
- De taalmodelbestanden worden bij eerste gebruik gedownload (enkele megabytes elk), dus de eerste extractie kan langer duren.
- Lay-outs met meerdere kolommen kunnen tekst in een onverwachte leesrichting opleveren.