Что такое OCR?

OCR (Optical Character Recognition — оптическое распознавание символов) — это технология, которая распознаёт текст в отсканированных PDF-файлах или изображениях и преобразует его в настоящий редактируемый текст. Вместо обычных «плоских» изображений вы можете искать, копировать и редактировать содержимое так же, как в обычном PDF-документе.

PDFgear предлагает два основных варианта OCR в зависимости от ваших задач:

Сделать отсканированный PDF доступным для поиска

При выборе этого варианта PDFgear выполняет OCR непосредственно для отсканированного PDF-файла. Внешний вид документа остаётся прежним, но текст становится выделяемым и редактируемым. Вы сможете:

Искать слова или фразы
Выделять и копировать текст
Редактировать содержимое прямо в PDF-редакторе

Сделать отсканированный PDF доступным для поиска

Это лучший вариант, если вы хотите продолжать работать непосредственно с PDF-файлом.

Извлечь текст из отсканированного PDF

Иногда редактирование PDF не требуется — нужно лишь получить текст из документа. PDFgear также поддерживает OCR для извлечения распознанного текста в виде обычного контента. Вы можете извлечь текст из всего документа или только из выбранных областей.

Быстро скопировать текст
Сохранить или экспортировать его в другой файл
Повторно использовать содержимое без ручного ввода

Извлечение текста из отсканированного изображения

Этот вариант идеально подходит, когда вам нужно просто повторно использовать текст из отсканированного документа.