OCR Nedir?

Optik Karakter Tanıma (OCR), metin içeren görüntüleri makine tarafından okunabilir karakterlere dönüştüren teknolojidir. Bir görüntüdeki şekil ve desenleri analiz ederek bunları bilinen karakter temsillerine karşı eşleştirerek çalışır. OCR, basılı belgeleri sayısallaştırmak, fotoğraflardan metin çıkarmak ve taranmış içeriği aranabilir veya düzenlenebilir hale getirmek için yaygın olarak kullanılır.

Modern tarayıcı tabanlı OCR, cihazınızda tamamen çalışan eğitilmiş sinir ağı modellerini kullanır. Bu, görüntülerinizin hiçbir zaman sunucuya gönderilmediği anlamına gelir — tanıma işlemi CPU'nuz kullanılarak yerel olarak gerçekleşir.

Araç açıklaması

Bu araç, Tesseract.js OCR motorunu kullanarak doğrudan tarayıcınızda görüntülerden metin çıkarır. Bir fotoğraf, ekran görüntüsü veya taranmış belge yükleyin, metnin dilini seçin ve Metni Çıkar'a tıklayın. Tanınan metin çıktı alanında görünür; burada metni panoya kopyalayabilir veya .txt dosyası olarak indirebilirsiniz. Sayfa yüklendikten sonra kurulum, yükleme veya internet bağlantısı gerekmez.

Özellikler

  • Tamamen tarayıcıda çalışır — dosya yüklemesi yok, tam gizlilik
  • İngilizce, Rusça, Çince (Basitleştirilmiş ve Geleneksel), Japonca, Korece, Arapça, Hintçe ve başlıca Avrupa dilleri dahil 19 dili destekler
  • JPEG, PNG, WebP, GIF, BMP ve TIFF görüntü formatlarını kabul eder
  • Tanıma sırasında gerçek zamanlı ilerleme göstergesi
  • Çıkarılan metni kaynak görüntünün adıyla .txt dosyası olarak indirin

Kullanım alanları

  • Basılı belgeleri sayısallaştırma: Telefonunuzla bir sayfayı tarayın ve tüm metni el ile yeniden yazmadan düzenleme veya arama için çıkarın.
  • Ekran görüntülerinden metin kopyalama: Metnin normal olarak seçilemediği ekran görüntülerinden kod parçacıkları, hata mesajları veya alıntıları çıkarın.
  • Yabancı dil metni içeren görüntüleri işleme: Arapça, Japonca veya Kiril gibi Latin olmayan yazılardaki metni tanımak için dil seçiciyi kullanın.

Desteklenen formatlar

Format Uzantılar
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Desteklenen diller

Dil Kod
İngilizce eng
Rusça rus
Fransızca fra
Almanca deu
İtalyanca ita
İspanyolca spa
Portekizce por
Hollandaca nld
Lehçe pol
Arapça ara
Çince (Basitleştirilmiş) chi_sim
Çince (Geleneksel) chi_tra
Japonca jpn
Korece kor
Hintçe hin
Türkçe tur
İsveççe swe
Norveççe nor
Fince fin

İpuçları

  • Daha iyi görüntüler daha iyi sonuçlar üretir: Keskin, eşit şekilde aydınlatılmış metne sahip yüksek kontrastlı görüntüler kullanın. Bulanık veya düşük çözünürlüklü fotoğraflar doğruluğu azaltacaktır.
  • Doğru dili seçin: Yanlış dil seçildiğinde, özellikle Latin olmayan yazılar için tanıma doğruluğu önemli ölçüde düşer.
  • Koyu metin açık arka plan üzerinde en iyi sonuç verir: Görüntünüzde koyu arka plan üzerinde açık metin varsa, yüklemeden önce onu ters çevirmeyi deneyin.
  • Taranmış belgeler: Basılı metinle en iyi sonuçlar için 300 DPI veya daha yüksek çözünürlükte tarayın.

Sınırlamalar

  • Tanıma doğruluğu, görüntü kalitesi, yazı tipi stili ve metin boyutuna büyük ölçüde bağlıdır. El yazısı, dekoratif yazı tipleri ve çok küçük metin iyi tanınmayabilir.
  • Dil modeli dosyaları ilk kullanımda indirilir (her biri birkaç megabayt), bu nedenle ilk çıkarma işlemi daha uzun sürebilir.
  • Çok sütunlu düzenler metni beklenmedik bir okuma sırasında üretebilir.