Извлечение текста из изображений с помощью OCR

Извлекайте текст из изображений прямо в браузере, используя OCR-движок Tesseract.js. Поддерживает 19 языков, включая английский, русский, китайский, японский, арабский и другие.

Этот инструмент обрабатывает все данные локально на вашем устройстве.

Ввод

Перетащите файлы или нажмите для выбора

Выбрать файлы

.JPG.JPEG.JPE.PNG.WEBP.GIF.BMP.DIB.TIF.TIFF

Вывод

Извлеченный текст

0 символов

Документация

Что такое OCR?

Оптическое распознавание символов (OCR) — это технология, которая преобразует изображения, содержащие текст, в машиночитаемые символы. Она работает путем анализа форм и паттернов в изображении и сопоставления их с известными представлениями символов. OCR широко используется для оцифровки печатных документов, извлечения текста из фотографий и создания отсканированного контента доступным для поиска или редактирования.

Современное OCR на основе браузера использует обученные модели нейронных сетей, которые работают полностью на вашем устройстве. Это означает, что ваши изображения никогда не отправляются на сервер — распознавание происходит локально с использованием вашего процессора.

Описание инструмента

Этот инструмент извлекает текст из изображений прямо в вашем браузере, используя OCR-движок Tesseract.js. Загрузите фотографию, снимок экрана или отсканированный документ, выберите язык текста и нажмите «Извлечь текст». Распознанный текст появится в области вывода, откуда вы можете скопировать его в буфер обмена или загрузить как файл .txt. Не требуется установка, загрузка файлов или подключение к интернету после загрузки страницы.

Возможности

Работает полностью в браузере — без загрузки файлов, полная приватность
Поддерживает 19 языков, включая английский, русский, китайский (упрощенный и традиционный), японский, корейский, арабский, хинди и основные европейские языки
Принимает форматы изображений JPEG, PNG, WebP, GIF, BMP и TIFF
Индикатор прогресса в реальном времени во время распознавания
Загрузка извлеченного текста как файла .txt с именем исходного изображения

Примеры использования

Оцифровка печатных документов: отсканируйте страницу со своего телефона и извлеките весь текст для редактирования или поиска без необходимости ручного переввода.
Копирование текста из снимков экрана: извлекайте фрагменты кода, сообщения об ошибках или цитаты из снимков экрана, где текст невозможно выделить обычным способом.
Обработка изображений с текстом на иностранных языках: используйте селектор языка для распознавания текста в нелатинских шрифтах, таких как арабский, японский или кириллица.

Поддерживаемые форматы

Формат	Расширения
JPEG	`.jpg`, `.jpeg`
PNG	`.png`
WebP	`.webp`
GIF	`.gif`
BMP	`.bmp`
TIFF	`.tif`, `.tiff`

Поддерживаемые языки

Язык	Код
Английский	eng
Русский	rus
Французский	fra
Немецкий	deu
Итальянский	ita
Испанский	spa
Португальский	por
Нидерландский	nld
Польский	pol
Арабский	ara
Китайский (упрощенный)	chi_sim
Китайский (традиционный)	chi_tra
Японский	jpn
Корейский	kor
Хинди	hin
Турецкий	tur
Шведский	swe
Норвежский	nor
Финский	fin

Советы

Качественные изображения дают лучшие результаты: используйте изображения с высокой контрастностью и четким, равномерно освещенным текстом. Размытые или низкоразрешенные фотографии снизят точность.
Выберите правильный язык: точность распознавания значительно снижается, если выбран неправильный язык, особенно для нелатинских шрифтов.
Темный текст на светлом фоне работает лучше всего: если ваше изображение содержит светлый текст на темном фоне, попробуйте инвертировать его перед загрузкой.
Отсканированные документы: сканируйте с разрешением 300 DPI или выше для лучших результатов с печатным текстом.

Ограничения

Точность распознавания во многом зависит от качества изображения, стиля шрифта и размера текста. Рукописный текст, декоративные шрифты и очень мелкий текст могут быть распознаны неправильно.
Файлы языковой модели загружаются при первом использовании (несколько мегабайт каждый), поэтому первое извлечение может занять больше времени.
Многоколоночные макеты могут привести к появлению текста в неожиданном порядке чтения.

Работает на базе

tesseract.projectnaptha.com/

Встраивание

Встраивайте этот инструмент где угодно бесплатно. Нужна помощь? Ознакомьтесь с нашим руководством.

<iframe src="https://speedtoolkit.com/ru/embed/ocr-image-text-extractor" title="Извлечение текста из изображений с помощью OCR - speedtoolkit.com" style="border:0;width:100%;min-height:600px;" loading="lazy"></iframe>
<p>При поддержке SpeedToolKit: <a href="https://speedtoolkit.com/ru/tool/ocr-image-text-extractor" target="_blank">https://speedtoolkit.com/ru/tool/ocr-image-text-extractor</a></p>

HTML

398 символов

Отказ от ответственности

Инструменты, представленные на этом сайте, предназначены для помощи пользователям в решении различных задач. Хотя мы стремимся обеспечить точность и эффективность инструментов, мы не гарантируем, что результаты любого инструмента будут на 100% точными или безошибочными. Результаты, генерируемые этими инструментами, предоставляются как есть и должны использоваться с осторожностью. Мы рекомендуем пользователям проверять любую важную информацию или результаты с помощью дополнительных ресурсов или профессиональных консультаций, поскольку мы не можем нести ответственность за любые последствия, возникающие в результате использования этих инструментов. Используя этот сайт, вы соглашаетесь принять на себя все риски, связанные с точностью и использованием предоставленных результатов.