OCR-tekstekstraktør for bilder
Trekk ut tekst fra bilder direkte i nettleseren din ved hjelp av Tesseract.js OCR-motor. Støtter 19 språk inkludert engelsk, russisk, kinesisk, japansk, arabisk og mer.
Inndata
Utdata
Les meg
Hva er OCR?
Optical Character Recognition (OCR) er teknologien som konverterer bilder som inneholder tekst til maskinlesbare tegn. Det fungerer ved å analysere former og mønstre i et bilde og matche dem mot kjente tegnrepresentasjoner. OCR brukes mye til å digitalisere trykte dokumenter, trekke ut tekst fra bilder, og gjøre skannet innhold søkbart eller redigerbart.
Moderne nettleserbasert OCR bruker trente nevrale nettverksmodeller som kjører helt på enheten din. Dette betyr at bildene dine aldri sendes til en server — gjenkjenningen skjer lokalt ved hjelp av CPU-en din.
Verktøybeskrivelse
Dette verktøyet trekker ut tekst fra bilder direkte i nettleseren din ved hjelp av Tesseract.js OCR-motoren. Last opp et bilde, skjermbilde eller skannet dokument, velg språket på teksten, og klikk Trekk ut tekst. Den gjenkjente teksten vises i utdataområdet, der du kan kopiere den til utklippstavlen eller laste den ned som en .txt-fil. Ingen installasjon, ingen opplastinger, ingen internetforbindelse nødvendig etter at siden er lastet.
Funksjoner
- Kjører helt i nettleseren — ingen filopplastinger, full personvern
- Støtter 19 språk inkludert engelsk, russisk, kinesisk (forenklet og tradisjonelt), japansk, koreansk, arabisk, hindi og store europeiske språk
- Godtar JPEG, PNG, WebP, GIF, BMP og TIFF-bildeformater
- Sanntidsprogressindikator under gjenkjenning
- Last ned ekstrahert tekst som en
.txt-fil oppkalt etter kildebildet
Brukstilfeller
- Digitalisering av trykte dokumenter: Skann en side med telefonen din og trekk ut all tekst for redigering eller søk uten å skrive den inn manuelt på nytt.
- Kopiere tekst fra skjermbilder: Trekk ut kodebiter, feilmeldinger eller sitater fra skjermbilder der teksten ikke kan velges normalt.
- Behandling av bilder med tekst på fremmedspråk: Bruk språkvelgeren til å gjenkjenne tekst i ikke-latinske skrifter som arabisk, japansk eller kyrillisk.
Støttede formater
| Format | Utvidelser |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Støttede språk
| Språk | Kode |
|---|---|
| Engelsk | eng |
| Russisk | rus |
| Fransk | fra |
| Tysk | deu |
| Italiensk | ita |
| Spansk | spa |
| Portugisisk | por |
| Nederlandsk | nld |
| Polsk | pol |
| Arabisk | ara |
| Kinesisk (forenklet) | chi_sim |
| Kinesisk (tradisjonelt) | chi_tra |
| Japansk | jpn |
| Koreansk | kor |
| Hindi | hin |
| Tyrkisk | tur |
| Svensk | swe |
| Norsk | nor |
| Finsk | fin |
Tips
- Bedre bilder gir bedre resultater: Bruk bilder med høy kontrast og skarp, jevn belysning av teksten. Uskarpe eller lavoppløselige bilder vil redusere nøyaktigheten.
- Velg riktig språk: Gjenkjenningsnøyaktigheten faller betydelig når feil språk er valgt, spesielt for ikke-latinske skrifter.
- Mørk tekst på lys bakgrunn fungerer best: Hvis bildet ditt har lys tekst på mørk bakgrunn, prøv å invertere det før opplasting.
- Skannede dokumenter: Skann med 300 DPI eller høyere for best resultater med trykt tekst.
Begrensninger
- Gjenkjenningsnøyaktigheten avhenger sterkt av bildekvalitet, skrifttype og tekststørrelse. Håndskrift, dekorative skrifter og veldig liten tekst kan ikke gjenkjennes godt.
- Språkmodellfiler lastes ned ved første bruk (noen få megabyte hver), så første utdrag kan ta lengre tid.
- Flerspaltelayout kan produsere tekst i en uventet leserekkefølge.