OCR pilditeksti ekstraktor
Eemaldage teksti piltidest otse oma brauseris, kasutades Tesseract.js OCR mootorit. Toetab 19 keelt, sealhulgas inglise, vene, hiina, jaapani, araabia ja palju muud.
Sisend
Väljund
Loe mind
Mis on OCR?
Optical Character Recognition (OCR) on tehnoloogia, mis teisendab teksti sisaldavad pildid masinloetavaks tekstiks. See toimib pildi kujundite ja mustrite analüüsimise ning nende võrdlemise teel teadaolevate märkide esitustega. OCR-i kasutatakse laialdaselt trükitud dokumentide digitaliseerimisel, teksti eraldamisel fotodest ning skannitud sisu otsitavaks või muudetavaks tegemisele.
Kaasaegne brauseripõhine OCR kasutab koolitatud närvivõrgu mudeleid, mis töötavad täielikult teie seadmes. See tähendab, et teie pildid ei saadeta kunagi serverisse — tuvastamine toimub kohalikult teie CPU-ga.
Tööriista kirjeldus
See tööriist eraldab teksti piltidest otse teie brauseris, kasutades Tesseract.js OCR-moodurit. Laadige üles foto, kuvatõmmis või skannitud dokument, valige teksti keel ja klõpsake nupul Teksti eraldamine. Tuvastatud tekst ilmub väljundpiirkonda, kust saate selle lõikelauale kopeerida või alla laadida .txt failina. Paigaldamist, üleslaadimist ega internetiühendust ei ole vaja pärast lehe laadimist.
Funktsioonid
- Töötab täielikult brauseris — failide üleslaadimist pole, täielik privaatsus
- Toetab 19 keelt, sealhulgas inglise, vene, hiina (lihtsustatud ja traditsiooniline), jaapani, korea, araabia, hindi ja peamised Euroopa keeled
- Aktsepteerib JPEG, PNG, WebP, GIF, BMP ja TIFF pildiformaate
- Reaalajas edenemise näitaja tuvastamise ajal
- Eraldatud teksti allalaadimine
.txtfailina, mis on nimetatud lähtebildi järgi
Kasutamise juhtumid
- Trükitud dokumentide digitaliseerimine: Skannige telefoni abil lehekülg ja eraldage kogu tekst redigeerimiseks või otsimiseks ilma seda käsitsi uuesti kirjutamata.
- Teksti kopeerimine kuvatõmmistest: Eraldage koodilõigud, veateated või tsitaadid kuvatõmmistest, kus teksti ei saa tavapäraselt valida.
- Piltide töötlemine võõrkeelse tekstiga: Kasutage keele valija, et tuvastada teksti mitteLatiini skriptides, nagu araabia, jaapani või kirillitsa.
Toetatud vormingud
| Vorming | Laiendid |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Toetatud keeled
| Keel | Kood |
|---|---|
| Inglise | eng |
| Vene | rus |
| Prantsuse | fra |
| Saksa | deu |
| Itaalia | ita |
| Hispaania | spa |
| Portugali | por |
| Hollandi | nld |
| Poola | pol |
| Araabia | ara |
| Hiina (lihtsustatud) | chi_sim |
| Hiina (traditsiooniline) | chi_tra |
| Jaapani | jpn |
| Korea | kor |
| Hindi | hin |
| Türgi | tur |
| Rootsi | swe |
| Norra | nor |
| Soome | fin |
Näpunäited
- Paremad pildid annavad paremaid tulemusi: Kasutage kõrge kontrastsusega pilte terava ja ühtlaselt valgustatud tekstiga. Udused või madala eraldusvõimega fotod vähendavad täpsust.
- Valige õige keel: Tuvastamise täpsus väheneb oluliselt, kui valitakse vale keel, eriti mitteLatiini skriptide puhul.
- Tume tekst heledal taustal toimib kõige paremini: Kui teie pildil on hele tekst tumedal taustal, proovige enne üleslaadimist seda pöörata.
- Skannitud dokumendid: Skannige trükitud teksti jaoks parimaid tulemusi saamiseks 300 DPI või kõrgemal eraldusvõimel.
Piirangud
- Tuvastamise täpsus sõltub suuresti pildi kvaliteedist, fondi stiilust ja teksti suurusest. Käsitsi kirjutatud tekst, dekoratiivsed fondid ja väga väike tekst ei pruugi hästi tuvastada.
- Keelemudelite failid laaditakse alla esimesel kasutamisel (mõned megabaidid iga), nii et esimene eraldamine võib võtta kauem aega.
- Mitmeveergude paigutused võivad teksti ootamatus lugemise järjekorras väljastada.