Руководство PDFgear

 

Что такое OCR?

OCR (Optical Character Recognition — оптическое распознавание символов) — это технология, которая распознаёт текст в отсканированных PDF-файлах или изображениях и преобразует его в настоящий редактируемый текст. Вместо обычных «плоских» изображений вы можете искать, копировать и редактировать содержимое так же, как в обычном PDF-документе.

PDFgear предлагает два основных варианта OCR в зависимости от ваших задач:

Сделать отсканированный PDF доступным для поиска

При выборе этого варианта PDFgear выполняет OCR непосредственно для отсканированного PDF-файла. Внешний вид документа остаётся прежним, но текст становится выделяемым и редактируемым. Вы сможете:

  • Искать слова или фразы
  • Выделять и копировать текст
  • Редактировать содержимое прямо в PDF-редакторе
Сделать отсканированный PDF доступным для поиска

Сделать отсканированный PDF доступным для поиска

Это лучший вариант, если вы хотите продолжать работать непосредственно с PDF-файлом.

Извлечь текст из отсканированного PDF

Иногда редактирование PDF не требуется — нужно лишь получить текст из документа. PDFgear также поддерживает OCR для извлечения распознанного текста в виде обычного контента. Вы можете извлечь текст из всего документа или только из выбранных областей.

  • Быстро скопировать текст
  • Сохранить или экспортировать его в другой файл
  • Повторно использовать содержимое без ручного ввода
Извлечение текста из отсканированного изображения

Извлечение текста из отсканированного изображения

Этот вариант идеально подходит, когда вам нужно просто повторно использовать текст из отсканированного документа.