Mis on OCR?

Optical Character Recognition (OCR) on tehnoloogia, mis teisendab teksti sisaldavad pildid masinloetavaks tekstiks. See toimib pildi kujundite ja mustrite analüüsimise ning nende võrdlemise teel teadaolevate märkide esitustega. OCR-i kasutatakse laialdaselt trükitud dokumentide digitaliseerimisel, teksti eraldamisel fotodest ning skannitud sisu otsitavaks või muudetavaks tegemisele.

Kaasaegne brauseripõhine OCR kasutab koolitatud närvivõrgu mudeleid, mis töötavad täielikult teie seadmes. See tähendab, et teie pildid ei saadeta kunagi serverisse — tuvastamine toimub kohalikult teie CPU-ga.

Tööriista kirjeldus

See tööriist eraldab teksti piltidest otse teie brauseris, kasutades Tesseract.js OCR-moodurit. Laadige üles foto, kuvatõmmis või skannitud dokument, valige teksti keel ja klõpsake nupul Teksti eraldamine. Tuvastatud tekst ilmub väljundpiirkonda, kust saate selle lõikelauale kopeerida või alla laadida .txt failina. Paigaldamist, üleslaadimist ega internetiühendust ei ole vaja pärast lehe laadimist.

Funktsioonid

  • Töötab täielikult brauseris — failide üleslaadimist pole, täielik privaatsus
  • Toetab 19 keelt, sealhulgas inglise, vene, hiina (lihtsustatud ja traditsiooniline), jaapani, korea, araabia, hindi ja peamised Euroopa keeled
  • Aktsepteerib JPEG, PNG, WebP, GIF, BMP ja TIFF pildiformaate
  • Reaalajas edenemise näitaja tuvastamise ajal
  • Eraldatud teksti allalaadimine .txt failina, mis on nimetatud lähtebildi järgi

Kasutamise juhtumid

  • Trükitud dokumentide digitaliseerimine: Skannige telefoni abil lehekülg ja eraldage kogu tekst redigeerimiseks või otsimiseks ilma seda käsitsi uuesti kirjutamata.
  • Teksti kopeerimine kuvatõmmistest: Eraldage koodilõigud, veateated või tsitaadid kuvatõmmistest, kus teksti ei saa tavapäraselt valida.
  • Piltide töötlemine võõrkeelse tekstiga: Kasutage keele valija, et tuvastada teksti mitteLatiini skriptides, nagu araabia, jaapani või kirillitsa.

Toetatud vormingud

Vorming Laiendid
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Toetatud keeled

Keel Kood
Inglise eng
Vene rus
Prantsuse fra
Saksa deu
Itaalia ita
Hispaania spa
Portugali por
Hollandi nld
Poola pol
Araabia ara
Hiina (lihtsustatud) chi_sim
Hiina (traditsiooniline) chi_tra
Jaapani jpn
Korea kor
Hindi hin
Türgi tur
Rootsi swe
Norra nor
Soome fin

Näpunäited

  • Paremad pildid annavad paremaid tulemusi: Kasutage kõrge kontrastsusega pilte terava ja ühtlaselt valgustatud tekstiga. Udused või madala eraldusvõimega fotod vähendavad täpsust.
  • Valige õige keel: Tuvastamise täpsus väheneb oluliselt, kui valitakse vale keel, eriti mitteLatiini skriptide puhul.
  • Tume tekst heledal taustal toimib kõige paremini: Kui teie pildil on hele tekst tumedal taustal, proovige enne üleslaadimist seda pöörata.
  • Skannitud dokumendid: Skannige trükitud teksti jaoks parimaid tulemusi saamiseks 300 DPI või kõrgemal eraldusvõimel.

Piirangud

  • Tuvastamise täpsus sõltub suuresti pildi kvaliteedist, fondi stiilust ja teksti suurusest. Käsitsi kirjutatud tekst, dekoratiivsed fondid ja väga väike tekst ei pruugi hästi tuvastada.
  • Keelemudelite failid laaditakse alla esimesel kasutamisel (mõned megabaidid iga), nii et esimene eraldamine võib võtta kauem aega.
  • Mitmeveergude paigutused võivad teksti ootamatus lugemise järjekorras väljastada.