Mikä on OCR?

Optical Character Recognition (OCR) on teknologia, joka muuntaa kuvia sisältävät tekstit koneella luettaviksi merkeiksi. Se toimii analysoimalla kuvan muotoja ja kuvioita ja vertaamalla niitä tunnettuihin merkkiesityksiin. OCR:ää käytetään laajasti painettujen asiakirjojen digitalisointiin, tekstin poimimiseen valokuvista ja skannatun sisällön tekemiseen hakukelpoiseksi tai muokattavaksi.

Nykyaikaiset selainpohjaiset OCR-ratkaisut käyttävät koulitettuja neuroverkkomalleja, jotka toimivat kokonaan laitteellasi. Tämä tarkoittaa, että kuviasi ei koskaan lähetetä palvelimelle — tunnistus tapahtuu paikallisesti käyttäen suoritinta.

Työkalun kuvaus

Tämä työkalu poistaa tekstin kuvista suoraan selaimessasi käyttäen Tesseract.js OCR -moottoria. Lataa valokuva, kuvakaappaus tai skannattu asiakirja, valitse tekstin kieli ja napsauta Poista teksti. Tunnistettu teksti ilmestyy tulosalueelle, jossa voit kopioida sen leikepöydälle tai ladata sen .txt-tiedostona. Ei asennusta, ei latauksia, ei internet-yhteyttä tarvitaan sivun lataamisen jälkeen.

Ominaisuudet

  • Toimii kokonaan selaimessa — ei tiedostojen latauksia, täysi yksityisyys
  • Tukee 19 kieltä, mukaan lukien englanti, venäjä, kiina (yksinkertaistettu ja perinteinen), japani, korea, arabia, hindi ja suuret eurooppalaiset kielet
  • Hyväksyy JPEG-, PNG-, WebP-, GIF-, BMP- ja TIFF-kuvamuodot
  • Reaaliaikainen edistymisen ilmaisin tunnistuksen aikana
  • Poimitun tekstin lataaminen .txt-tiedostona, joka on nimetty lähdekunvan mukaan

Käyttötapaukset

  • Painettujen asiakirjojen digitalisointi: Skannaa sivu puhelimellasi ja poista kaikki teksti muokkausta tai hakua varten ilman manuaalista uudelleenkirjoittamista.
  • Tekstin kopiointi kuvakaappauksista: Poista koodinpätkät, virheilmoitukset tai lainaukset kuvakaappauksista, joissa tekstiä ei voi normaalisti valita.
  • Kuvien käsittely ulkomaisen kielen tekstillä: Käytä kielivalitsinta tekstin tunnistamiseen ei-latinalaisissa kirjoituksissa, kuten arabiassa, japanissa tai kyrillisessä.

Tuetut muodot

Muoto Laajennukset
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Tuetut kielet

Kieli Koodi
Englanti eng
Venäjä rus
Ranska fra
Saksa deu
Italia ita
Espanja spa
Portugali por
Hollanti nld
Puola pol
Arabia ara
Kiina (yksinkertaistettu) chi_sim
Kiina (perinteinen) chi_tra
Japani jpn
Korea kor
Hindi hin
Turkki tur
Ruotsi swe
Norja nor
Suomi fin

Vinkkejä

  • Paremmat kuvat tuottavat parempia tuloksia: Käytä korkeakontrastisia kuvia, joissa on terävää, tasaisesti valaistua tekstiä. Sumeat tai matalan resoluution valokuvat heikentävät tarkkuutta.
  • Valitse oikea kieli: Tunnistuksen tarkkuus laskee merkittävästi, kun väärä kieli on valittu, erityisesti ei-latinalaisissa kirjoituksissa.
  • Tumma teksti vaalealla taustalla toimii parhaiten: Jos kuvassasi on vaalea teksti tummalla taustalla, yritä kääntää se ennen lataamista.
  • Skannatut asiakirjat: Skannaa 300 DPI:llä tai korkeammalla resoluutiolla parhaisiin tuloksiin painetun tekstin kanssa.

Rajoitukset

  • Tunnistuksen tarkkuus riippuu suuresti kuvan laadusta, fonttityylista ja tekstin koosta. Käsinkirjoitettu teksti, koristeelliset fontit ja hyvin pieni teksti eivät välttämättä tunnistudu hyvin.
  • Kielimallin tiedostot ladataan ensimmäisellä käytöllä (muutama megatavu kukin), joten ensimmäinen poisto voi kestää kauemmin.
  • Monisarakkeisten asettelujen teksti voi tuottaa odottamattomassa lukujärjestyksessä.