Τι είναι OCR;

Η Οπτική Αναγνώριση Χαρακτήρων (OCR) είναι η τεχνολογία που μετατρέπει εικόνες που περιέχουν κείμενο σε χαρακτήρες που μπορούν να διαβαστούν από μηχανές. Λειτουργεί αναλύοντας τα σχήματα και τα μοτίβα σε μια εικόνα και συγκρίνοντάς τα με γνωστές αναπαραστάσεις χαρακτήρων. Το OCR χρησιμοποιείται ευρέως για την ψηφιοποίηση εκτυπωμένων εγγράφων, την εξαγωγή κειμένου από φωτογραφίες και την κατάστασης σαρωμένου περιεχομένου αναζητήσιμου ή επεξεργάσιμου.

Το σύγχρονο OCR που βασίζεται σε περιηγητή χρησιμοποιεί εκπαιδευμένα μοντέλα νευρωνικών δικτύων που εκτελούνται εξ ολοκλήρου στη συσκευή σας. Αυτό σημαίνει ότι οι εικόνες σας δεν αποστέλλονται ποτέ σε διακομιστή — η αναγνώριση γίνεται τοπικά χρησιμοποιώντας την CPU σας.

Περιγραφή εργαλείου

Αυτό το εργαλείο εξάγει κείμενο από εικόνες απευθείας στον περιηγητή σας χρησιμοποιώντας τη μηχανή OCR Tesseract.js. Ανεβάστε μια φωτογραφία, στιγμιότυπο ή σαρωμένο έγγραφο, επιλέξτε τη γλώσσα του κειμένου και κάντε κλικ στην Εξαγωγή κειμένου. Το αναγνωρισμένο κείμενο εμφανίζεται στην περιοχή εξόδου, όπου μπορείτε να το αντιγράψετε στο πρόχειρο ή να το κατεβάσετε ως αρχείο .txt. Δεν απαιτείται εγκατάσταση, ανεβάσματα ή σύνδεση στο διαδίκτυο μετά τη φόρτωση της σελίδας.

Χαρακτηριστικά

  • Εκτελείται εξ ολοκλήρου στον περιηγητή — χωρίς ανεβάσματα αρχείων, πλήρη ιδιωτικότητα
  • Υποστηρίζει 19 γλώσσες συμπεριλαμβανομένων των Αγγλικών, Ρωσικών, Κινεζικών (Απλοποιημένα και Παραδοσιακά), Ιαπωνικών, Κορεατικών, Αραβικών, Ινδικών και κύριων Ευρωπαϊκών γλωσσών
  • Δέχεται μορφές εικόνων JPEG, PNG, WebP, GIF, BMP και TIFF
  • Δείκτης προόδου σε πραγματικό χρόνο κατά την αναγνώριση
  • Λήψη εξαγμένου κειμένου ως αρχείο .txt με όνομα βάσει της εικόνας προέλευσης

Περιπτώσεις χρήσης

  • Ψηφιοποίηση εκτυπωμένων εγγράφων: Σαρώστε μια σελίδα με το τηλέφωνό σας και εξάγετε όλο το κείμενο για επεξεργασία ή αναζήτηση χωρίς να χρειάζεται να το πληκτρολογήσετε ξανά.
  • Αντιγραφή κειμένου από στιγμιότυπα: Εξάγετε αποσπάσματα κώδικα, μηνύματα σφάλματος ή αποσπάσματα από στιγμιότυπα όπου το κείμενο δεν μπορεί να επιλεγεί κανονικά.
  • Επεξεργασία εικόνων με κείμενο ξένης γλώσσας: Χρησιμοποιήστε τον επιλογέα γλώσσας για να αναγνωρίσετε κείμενο σε μη λατινικά σενάρια όπως Αραβικά, Ιαπωνικά ή Κυριλλικά.

Υποστηριζόμενες μορφές

Μορφή Επεκτάσεις
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Υποστηριζόμενες γλώσσες

Γλώσσα Κώδικας
English eng
Russian rus
French fra
German deu
Italian ita
Spanish spa
Portuguese por
Dutch nld
Polish pol
Arabic ara
Chinese (Simplified) chi_sim
Chinese (Traditional) chi_tra
Japanese jpn
Korean kor
Hindi hin
Turkish tur
Swedish swe
Norwegian nor
Finnish fin

Συμβουλές

  • Καλύτερες εικόνες παράγουν καλύτερα αποτελέσματα: Χρησιμοποιήστε εικόνες υψηλής αντίθεσης με ευκρινές, ομοιόμορφα φωτισμένο κείμενο. Θολές ή χαμηλής ανάλυσης φωτογραφίες θα μειώσουν την ακρίβεια.
  • Επιλέξτε τη σωστή γλώσσα: Η ακρίβεια αναγνώρισης μειώνεται σημαντικά όταν επιλέγεται λάθος γλώσσα, ειδικά για μη λατινικά σενάρια.
  • Σκούρο κείμενο σε ανοιχτό φόντο λειτουργεί καλύτερα: Εάν η εικόνα σας έχει ανοιχτό κείμενο σε σκούρο φόντο, δοκιμάστε να το αντιστρέψετε πριν το ανεβάσετε.
  • Σαρωμένα έγγραφα: Σαρώστε σε 300 DPI ή υψηλότερο για καλύτερα αποτελέσματα με εκτυπωμένο κείμενο.

Περιορισμοί

  • Η ακρίβεια αναγνώρισης εξαρτάται σε μεγάλο βαθμό από την ποιότητα της εικόνας, το στυλ γραμματοσειράς και το μέγεθος του κειμένου. Το χειρόγραφο, οι διακοσμητικές γραμματοσειρές και το πολύ μικρό κείμενο ενδέχεται να μην αναγνωρίζονται καλά.
  • Τα αρχεία μοντέλου γλώσσας λαμβάνονται κατά την πρώτη χρήση (μερικά megabyte το καθένα), επομένως η πρώτη εξαγωγή ενδέχεται να διαρκέσει περισσότερο.
  • Τα διάταξη πολλών στηλών ενδέχεται να παράγουν κείμενο σε μια απροσδόκητη σειρά ανάγνωσης.