Что такое OCR?

Оптическое распознавание символов (OCR) — это технология, которая преобразует изображения, содержащие текст, в машиночитаемые символы. Она работает путем анализа форм и паттернов в изображении и сопоставления их с известными представлениями символов. OCR широко используется для оцифровки печатных документов, извлечения текста из фотографий и создания отсканированного контента доступным для поиска или редактирования.

Современное OCR на основе браузера использует обученные модели нейронных сетей, которые работают полностью на вашем устройстве. Это означает, что ваши изображения никогда не отправляются на сервер — распознавание происходит локально с использованием вашего процессора.

Описание инструмента

Этот инструмент извлекает текст из изображений прямо в вашем браузере, используя OCR-движок Tesseract.js. Загрузите фотографию, снимок экрана или отсканированный документ, выберите язык текста и нажмите «Извлечь текст». Распознанный текст появится в области вывода, откуда вы можете скопировать его в буфер обмена или загрузить как файл .txt. Не требуется установка, загрузка файлов или подключение к интернету после загрузки страницы.

Возможности

  • Работает полностью в браузере — без загрузки файлов, полная приватность
  • Поддерживает 19 языков, включая английский, русский, китайский (упрощенный и традиционный), японский, корейский, арабский, хинди и основные европейские языки
  • Принимает форматы изображений JPEG, PNG, WebP, GIF, BMP и TIFF
  • Индикатор прогресса в реальном времени во время распознавания
  • Загрузка извлеченного текста как файла .txt с именем исходного изображения

Примеры использования

  • Оцифровка печатных документов: отсканируйте страницу со своего телефона и извлеките весь текст для редактирования или поиска без необходимости ручного переввода.
  • Копирование текста из снимков экрана: извлекайте фрагменты кода, сообщения об ошибках или цитаты из снимков экрана, где текст невозможно выделить обычным способом.
  • Обработка изображений с текстом на иностранных языках: используйте селектор языка для распознавания текста в нелатинских шрифтах, таких как арабский, японский или кириллица.

Поддерживаемые форматы

Формат Расширения
JPEG .jpg, .jpeg
PNG .png
WebP .webp
GIF .gif
BMP .bmp
TIFF .tif, .tiff

Поддерживаемые языки

Язык Код
Английский eng
Русский rus
Французский fra
Немецкий deu
Итальянский ita
Испанский spa
Португальский por
Нидерландский nld
Польский pol
Арабский ara
Китайский (упрощенный) chi_sim
Китайский (традиционный) chi_tra
Японский jpn
Корейский kor
Хинди hin
Турецкий tur
Шведский swe
Норвежский nor
Финский fin

Советы

  • Качественные изображения дают лучшие результаты: используйте изображения с высокой контрастностью и четким, равномерно освещенным текстом. Размытые или низкоразрешенные фотографии снизят точность.
  • Выберите правильный язык: точность распознавания значительно снижается, если выбран неправильный язык, особенно для нелатинских шрифтов.
  • Темный текст на светлом фоне работает лучше всего: если ваше изображение содержит светлый текст на темном фоне, попробуйте инвертировать его перед загрузкой.
  • Отсканированные документы: сканируйте с разрешением 300 DPI или выше для лучших результатов с печатным текстом.

Ограничения

  • Точность распознавания во многом зависит от качества изображения, стиля шрифта и размера текста. Рукописный текст, декоративные шрифты и очень мелкий текст могут быть распознаны неправильно.
  • Файлы языковой модели загружаются при первом использовании (несколько мегабайт каждый), поэтому первое извлечение может занять больше времени.
  • Многоколоночные макеты могут привести к появлению текста в неожиданном порядке чтения.