Εξαγωγέας κειμένου εικόνας OCR
Εξάγετε κείμενο από εικόνες απευθείας στο πρόγραμμα περιήγησής σας χρησιμοποιώντας τη μηχανή OCR Tesseract.js. Υποστηρίζει 19 γλώσσες, συμπεριλαμβανομένων των αγγλικών, ρωσικών, κινεζικών, ιαπωνικών, αραβικών και άλλων.
Είσοδος
Έξοδος
Readme
Τι είναι OCR;
Η Οπτική Αναγνώριση Χαρακτήρων (OCR) είναι η τεχνολογία που μετατρέπει εικόνες που περιέχουν κείμενο σε χαρακτήρες που μπορούν να διαβαστούν από μηχανές. Λειτουργεί αναλύοντας τα σχήματα και τα μοτίβα σε μια εικόνα και συγκρίνοντάς τα με γνωστές αναπαραστάσεις χαρακτήρων. Το OCR χρησιμοποιείται ευρέως για την ψηφιοποίηση εκτυπωμένων εγγράφων, την εξαγωγή κειμένου από φωτογραφίες και την κατάστασης σαρωμένου περιεχομένου αναζητήσιμου ή επεξεργάσιμου.
Το σύγχρονο OCR που βασίζεται σε περιηγητή χρησιμοποιεί εκπαιδευμένα μοντέλα νευρωνικών δικτύων που εκτελούνται εξ ολοκλήρου στη συσκευή σας. Αυτό σημαίνει ότι οι εικόνες σας δεν αποστέλλονται ποτέ σε διακομιστή — η αναγνώριση γίνεται τοπικά χρησιμοποιώντας την CPU σας.
Περιγραφή εργαλείου
Αυτό το εργαλείο εξάγει κείμενο από εικόνες απευθείας στον περιηγητή σας χρησιμοποιώντας τη μηχανή OCR Tesseract.js. Ανεβάστε μια φωτογραφία, στιγμιότυπο ή σαρωμένο έγγραφο, επιλέξτε τη γλώσσα του κειμένου και κάντε κλικ στην Εξαγωγή κειμένου. Το αναγνωρισμένο κείμενο εμφανίζεται στην περιοχή εξόδου, όπου μπορείτε να το αντιγράψετε στο πρόχειρο ή να το κατεβάσετε ως αρχείο .txt. Δεν απαιτείται εγκατάσταση, ανεβάσματα ή σύνδεση στο διαδίκτυο μετά τη φόρτωση της σελίδας.
Χαρακτηριστικά
- Εκτελείται εξ ολοκλήρου στον περιηγητή — χωρίς ανεβάσματα αρχείων, πλήρη ιδιωτικότητα
- Υποστηρίζει 19 γλώσσες συμπεριλαμβανομένων των Αγγλικών, Ρωσικών, Κινεζικών (Απλοποιημένα και Παραδοσιακά), Ιαπωνικών, Κορεατικών, Αραβικών, Ινδικών και κύριων Ευρωπαϊκών γλωσσών
- Δέχεται μορφές εικόνων JPEG, PNG, WebP, GIF, BMP και TIFF
- Δείκτης προόδου σε πραγματικό χρόνο κατά την αναγνώριση
- Λήψη εξαγμένου κειμένου ως αρχείο
.txtμε όνομα βάσει της εικόνας προέλευσης
Περιπτώσεις χρήσης
- Ψηφιοποίηση εκτυπωμένων εγγράφων: Σαρώστε μια σελίδα με το τηλέφωνό σας και εξάγετε όλο το κείμενο για επεξεργασία ή αναζήτηση χωρίς να χρειάζεται να το πληκτρολογήσετε ξανά.
- Αντιγραφή κειμένου από στιγμιότυπα: Εξάγετε αποσπάσματα κώδικα, μηνύματα σφάλματος ή αποσπάσματα από στιγμιότυπα όπου το κείμενο δεν μπορεί να επιλεγεί κανονικά.
- Επεξεργασία εικόνων με κείμενο ξένης γλώσσας: Χρησιμοποιήστε τον επιλογέα γλώσσας για να αναγνωρίσετε κείμενο σε μη λατινικά σενάρια όπως Αραβικά, Ιαπωνικά ή Κυριλλικά.
Υποστηριζόμενες μορφές
| Μορφή | Επεκτάσεις |
|---|---|
| JPEG | .jpg, .jpeg |
| PNG | .png |
| WebP | .webp |
| GIF | .gif |
| BMP | .bmp |
| TIFF | .tif, .tiff |
Υποστηριζόμενες γλώσσες
| Γλώσσα | Κώδικας |
|---|---|
| English | eng |
| Russian | rus |
| French | fra |
| German | deu |
| Italian | ita |
| Spanish | spa |
| Portuguese | por |
| Dutch | nld |
| Polish | pol |
| Arabic | ara |
| Chinese (Simplified) | chi_sim |
| Chinese (Traditional) | chi_tra |
| Japanese | jpn |
| Korean | kor |
| Hindi | hin |
| Turkish | tur |
| Swedish | swe |
| Norwegian | nor |
| Finnish | fin |
Συμβουλές
- Καλύτερες εικόνες παράγουν καλύτερα αποτελέσματα: Χρησιμοποιήστε εικόνες υψηλής αντίθεσης με ευκρινές, ομοιόμορφα φωτισμένο κείμενο. Θολές ή χαμηλής ανάλυσης φωτογραφίες θα μειώσουν την ακρίβεια.
- Επιλέξτε τη σωστή γλώσσα: Η ακρίβεια αναγνώρισης μειώνεται σημαντικά όταν επιλέγεται λάθος γλώσσα, ειδικά για μη λατινικά σενάρια.
- Σκούρο κείμενο σε ανοιχτό φόντο λειτουργεί καλύτερα: Εάν η εικόνα σας έχει ανοιχτό κείμενο σε σκούρο φόντο, δοκιμάστε να το αντιστρέψετε πριν το ανεβάσετε.
- Σαρωμένα έγγραφα: Σαρώστε σε 300 DPI ή υψηλότερο για καλύτερα αποτελέσματα με εκτυπωμένο κείμενο.
Περιορισμοί
- Η ακρίβεια αναγνώρισης εξαρτάται σε μεγάλο βαθμό από την ποιότητα της εικόνας, το στυλ γραμματοσειράς και το μέγεθος του κειμένου. Το χειρόγραφο, οι διακοσμητικές γραμματοσειρές και το πολύ μικρό κείμενο ενδέχεται να μην αναγνωρίζονται καλά.
- Τα αρχεία μοντέλου γλώσσας λαμβάνονται κατά την πρώτη χρήση (μερικά megabyte το καθένα), επομένως η πρώτη εξαγωγή ενδέχεται να διαρκέσει περισσότερο.
- Τα διάταξη πολλών στηλών ενδέχεται να παράγουν κείμενο σε μια απροσδόκητη σειρά ανάγνωσης.