При работе с большим количеством фалов и папок, содержащих текстовую информацию, пользователю ПК неоднократно приходилось сталкиваться с такой ситуацией: не удается найти на компьютере нужный файл, не известно где и когда его сохранили, какое имя было присвоено при сохранении, не запомнилось в каком формате он был - офисном, текстовом или графическом. А в этом файле содержатся данные, которые именно сейчас крайне необходимы. На компьютере столько много всего накопилось, что на поиск нужного файла открытием просмотром всех файлов подряд может уйти не один час.
В данной статье мы рассмотрим вопросы создания архива документов в формате PDF и возможность простой организации поиска по тексту, содержащемуся в этих документах.
О формате PDF
Portable Document Format (PDF) — межплатформенный формат электронных документов, разработанный в 1993 году компанией Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления полиграфической продукции в электронном виде. Для просмотра файлов данного формата существует официальная программа Adobe Reader, а так же множество программ сторонних разработчиков.
После того, как Adobe выпустила бесплатную версию Acrobat Reader (позднее переименованную в Adobe Reader) для чтения PDF-документов, популярность этого формата стала возрастать. Формат PDF-файлов несколько раз изменялся и продолжает эволюционировать. Существует несколько спецификаций формата, последовательно расширяющих друг друга.
Формат PDF с 1 июля 2008 года является открытым стандартом ISO 32000.
Различные спецификации формата
PDF/X−1a — это стандартный формат файлов, специально предназначенный для обмена готовыми к печати документами (для передачи в типографию) в виде электронных данных, при котором отправителю и получателю не требуется дополнительной договоренности для обработки информации и получения требуемых результатов в тираже. Применение PDF/X−1a устраняет наиболее распространенные ошибки при подготовке файлов для печати.
PDF/A — стандарт ISO 19005-1:2005 (опубликован 1 октября 2005 г.) для долгосрочного архивного хранения электронных документов и базируется на описании стандарта PDF версии 1.4 от Adobe Systems (использовался в Adobe Acrobat 5). В действительности, PDF/A является подмножеством формата PDF, из которого исключены некоторые особенности, не подходящие для долгосрочного архивного хранения.
Почему для архивации удобнее выбирать именно PDF-формат
Одной из проблем, с которой сталкиваются крупные промышленные предприятия, государственные учреждения, страховые компании, издательства и архивы, является надежная архивация больших объемов данных.
Традиционные способы, например, хранение информации на бумаге или микрофильмах, безнадежно устарели, так как они не обеспечивают компактности данных, а также возможностей эффективного поиска и передачи информации. Поэтому в последние годы для архивации используются цифровые форматы представления данных. Одним из таких популярных графических форматов стал TIFF.
TIFF (англ. Tagged Image File Format) — формат хранения растровых графических изображений. TIFF стал популярным форматом для хранения изображений с большой глубиной цвета. Он используется при сканировании, отправке факсов, распознавании текста, в полиграфии, широко поддерживается графическими приложениями.
Однако формат TIFF в свою очередь имеет существенные недостатки - невозможность поиска текстовой информации без применения средств распознавания знаков (OCR), а также потребность в больших объемах памяти для хранения ТIFF- файлов. Формат PDF лишен этих недостатков - файлы имеют компактный размер, возможен поиск по тексту, обеспечивается высокое качество визуализации как графических, так и текстовых данных. По этой причине для создания электронных архивов целесообразно использовать формат PDF, в частности спецификацию PDF/A. Именно по этому стандартизировать PDF/А было предложено еще в 2002 г.
Понятия Searchable PDF и OCR
Searchable PDF (так же иногда называют PDF+text) - файлы формата PDF с включенным распознанным текстовым слоем с возможностью поиска по тексту. Именно файлы такого формата интересны для создания архива документов, ведь в случае отсутствия текста в документе поиск по содержимому попросту теряет смысл. Текстовый слой в файле создается непосредственным включением текста из текстового редактора, либо методом OCR.
OCR (optical character recognition) - оптическое распознавание символов , механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь.
Создание файлов в формате PDF
Традиционным способом создания PDF-документов является виртуальный принтер, то есть документ как таковой готовится в своей специализированной программе — графической программе или текстовом редакторе, САПР и т. д., а затем экспортируется в формат PDF для распространения в электронном виде, передачи в типографию и т. п.
Современные офисные пакеты (например Microsoft Office) умеют сохранять файлы в формате PDF напрямую, без использования виртуального принтера. Весь содержащийся в документе текст при сохранении в формате PDF включается в виде текстового слоя (Searchable PDF - с возможностью поиска по тексту.)
Существует множество специализированных программ для создания Searchable PDF. В основном это программы, имеющие функции получения изображения документа (работа со сканером, импорт изображения из файла), функции обработки, оптимизации, улучшения качества изображения, функции OCR, функции сохранения, экспорта в популярные текстовые редакторы.
В качестве примера таких программ можно привести ABBYY FineReader, IRIS Readiris.
Современная версия платного пакета Adobe Acrobat XI так же имеет встроенную функцию оптического распознавания текста и включения в файл текстового слоя. Поддерживается более 40 языков, включая Русский.
Получение Searchable-PDF-файлов с использованием поточного сканера
Сегодня сканирование документов в производственном масштабе с использованием поточных сканеров осуществляется с помощью специально разработанных программных систем для скоростного сканирования и обработки документов. Данное ПО позволяет выполнять такие операции как разделение сканируемого потока на отдельные документы (по различным признакам), классификацию (определение типа) документа и последующую его обработку, сохранение либо перенаправление, в зависимости от установленных действий для каждого типа. Данное ПО, как правило, весьма дорогостоящее и требует специализированных навыков (а зачастую и сертифицированных специалистов) для его настройки и работы. Несомненно, применение подобного рода решений целесообразно и оправданно только при весьма значительных масштабах системы документооборота и больших объемах обрабатываемых документов.
Но что делать пользователям, чьи объемы документации не столь значительны и применение дорогостоящих специализированных решений не рентабельно, а задача создания структурированного хранилища с возможностью поиска актуальна и должна как то решаться.
Производители поточных сканеров постепенно начали осознавать потребность своих клиентов, которые приобретают сканеры начального уровня. Современные поточные сканеры поставляются не только в виде «железа» и драйверов, но и включают в комплект поставки программное обеспечение для сканирования. И данное ПО в последнее время способно предоставлять пользователю не только средство для выполнения базовых операций по сканированию, но и весьма продвинутые функции, для выполнения которых ранее нужно было приобретать дополнительное ПО, либо расширенную версию ПО идущего в комплекте.
Таким образом, современный поточный сканер - это как правило комплексное, готовое аппаратно-программное решение, которое является самодостаточным инструментом для решения широкого круга задач.
К таким задачам относится и сканирование документа в PDF-файл с распознанным текстом. Современные новинки от ведущих производителей имеют, как правило, все необходимое для решения данной задачи в комплекте. Причем включается возможность распознавания широкого набора языков. К слову, не так давно средств получения OCR (оптического распознавания текста) непосредственно «из коробки» сканера производителями не предоставлялось (за исключением, разве что, поставок-бандлов, то есть комплектов включающих стороннее ПО для распознавания на OEM основе).
Рассмотрим один из таких примеров - новинка от компании Kodak Alaris: персональный сканер документов Kodak ScanMate i1150 (вышел во 2-ом квартале 2014 года). Подробное описание сканера смотрите здесь.
Входящий в комплект поставки стандартный новый менеджер профилей Kodak SmartTouch позволяет настроить профиль сканирования в формат PDF с включениям функции оптического распознавания текста (возможен выбор более 40 языков включая Русский). ПО так же способно распознавать штрих-кодов, встречающихся на страницах документов, разделять поток страниц на отдельные документы и именовать файлы в соответствии с данными, извлеченными из штрих-кода. Могут быть обнаружены следующие штрих-коды: Interleaved 2 из 5; Код 3 из 9; Код 128; Codabar; UPC-A; UPC-E; EAN-13; EAN-8; PDF417. Программа распознает только первый штрих-код, встретившийся на листе. Причем расположение штрих-кода (под наклоном, вертикально либо перевернутый по отношению к ориентации текста) на качество обнаружения не влияет, штрих-код распознается стабильно.
SmartTouch поддерживает сохранение в формате PDF спецификации PDF/A.
Таким образом, установив пачку листов в приемный лоток автоподатчика сканера Kodak ScanMate i1150, выбрав на панели сканера предварительно настроенный профиль и нажав кнопку запуска сканирования мы получаем на компьютере в указанном месте (диске или папке) надлежащим образом поименованный набор PDF-файлов, содержащих отсканированные документы, с возможностью поиска по содержимому документа. Никаких дополнительных действий не требуется.
Согласитесь, решение задачи получения searchable PDF никогда не было на столько простым. В этом свете задача создания электронного архива (хранилища) документов в формате PDF с возможностью поиска так же не выглядит сложной.
По вопросам приобретения новинки от Kodak Alaris, а так же других документных сканеров ведущих производителей вы всегда можете обратиться в компанию ПИРИТ, являющейся официальным дистрибутором сканеров Canon, Kodak, Fujitsu, Avision на территории России. Сайт отдела сканеров: http://www.docscan.ru.
Итак, теперь мы с вами знаем как создать систему файлов и папок, содержащих наш архив файлов PDF. Теперь выясним, каким несложным образом можно осуществлять поиск необходимой нам информации по содержимому файлов (по словам), находящихся в этом архиве.
Поиск по содержимому средствами ОС Windows
На сегодняшний день, несмотря на относительно недавний (2012 г.) выход системы Windows 8, наиболее распространенной в среднестатистических офисах является ОС Windows 7 (редакцию упоминать здесь не будем, т.к. для наших целей это не принципиально). Кое где, конечно, еще остается в работе проверенная годами старушка XP, но все таки с началом эпохи беспроводных сетей в конце 2000-х данная ОС постепенно (и повсеместно) уходит в прошлое.
Поэтому рассмотрим как обстоит дело с поисковой подсистемой в ОС Windows 7.
Чтобы Операционная система Windows 7 смогла найти файл по его содержимому, сперва необходимо включить данную опцию в настройках ОС.
1. Включение поиска в Windows 7 Search по содержимому
По умолчанию ОС Windows 7 настроена на поиск только по именам файлов. Для включения возможности поиска по содержимому нужно в Проводнике Windows выбрать Упорядочить -> Параметры папок и поиска. Закладка Поиск - выбрать ВТОРОЙ вариант поиска «Всегда искать по именам файлов и содержимому».
Теперь при поиске система будет просматривать не только имена файлов, но и их содержимое, если для данного типа файлов указана возможность поиска по содержимому (об этом узнаем в следующем разделе статьи).
2. Индексирование
Далее необходимо проиндексировать файлы и папки, в которых предполагается осуществлять поиск. Поиск в проиндексированных папках осуществляется значительно быстрее.
Для того чтобы ваш ПК проиндексировал папки вашего архива, необходимо в параметрах индексирования добавить в список мест индексирования папку(папки) где будут храниться PDF-файлы, либо указать букву диска, если точное местонахождение архива не определено.
Кроме того, по умолчанию, для поиска по содержимому, в индексе включены только популярные форматы файлов, все остальные файлы надо активировать вручную.
В нашей редакции Windows 7 формат файлов PDF уже оказался включен для поиска по содержимому. В вашей версии возможен другой вариант, по этому вот подробная инструкция по решению этой проблемы (Русская версия Windows 7).
- ПУСК (Start). (Нижний, левый угол, Флажок)
- Внизу, в поле: «Найти программы и файлы» (Run) вписываем эту строку: «Параметры индексирования» (Enter)
- В появившемся окошке убедитесь, что буква диска, на котором находятся файлы вашего архива, присутствует в списке «Включенные расположения». Если нет, нужно добавить нужный диск (либо указать определенную папку или несколько папок, где будут храниться файлы PDF-архива), нажав кнопку «Изменить».
- Далее, жмем кнопку «Дополнительно», закладка «Типы файлов».
- В списке находим и устанавливаем курсор на расширение того файла, которое часто ищите: в нашем случае *.PDF.
- Обратите внимание, для большинства расширений в области «Как следует индексировать такие файлы?» выбрана опция «Индексировать только свойства». Для нужных нам файлов нам необходимо установить нижнюю опцию: «Индексировать свойства и содержимое файлов». Установите для типа PDF данную опцию (или убедитесь что она уже установлена).
Настоятельно НЕ рекомендуется выбирать много типов файлов для индексации по содержимому, а только те, что точно необходимо для будущего поиска.
При этом все изменения в настройках индексации файлов делайте перед периодом простоя компьютера, например на ночь (конечно, в том случае если ваш ПК на ночь не отключается), иначе в процессе работы вы почувствуете заторможенность вашего компьютера: процесс индексации весьма ресурсоемкий, не смотря на то, что система и будет пытаться давать вам приоритет в вашей активности.
3. Необходимо стороннее ПО, понимающее PDF-формат
На вашем ПК должен быть установлен Adobe Reader актуальной (или не слишком старой) версии. Adobe Reader распространяется бесплатно. Так же у Adobe есть более продвинутый продукт для работы с PDF - Adobe Acrobat (платный). Помимо программного обеспечения Adobe существует множество PDF-редакторов сторонних разработчиков (как бесплатных так и распространяемых на платной основе). В любом случае - выбор остается за пользователем.
Наличие ПО, работающего с форматом PDF позволит ОС Windows 7 «распознавать» и открывать файлы PDF-формата. По-умолчанию Windows данный формат не понимает.
Если вы являетесь обладателем 64-битной редакции Windows 7, необходимо дополнительно загрузить и уcтановить пакет PDF iFilter 64 (PDFFilter64Setup.msi)с сайта Adobe. Потребуется перезагрузить ПК.
Без данного пакета поиск по содержимому PDF-файлов в 64-битной системе работать не будет.
После проведения данной подготовки на вашем ПК должен работать поиск по содержимому PDF непосредственно из Проводника для текущей папки. Если нужно провести поиск по всему ПК - открываем диалог Поиска (Клавиша WIN + f).
4. Особенности работы Windows 7 Search
Поиск по содержимому в семерке независимо от того, проиндексированы файлы или нет осуществляется по целым словам или фразам, а не по фрагментам текста. Это объясняется тем, что проиндексировать фрагмент текста невозможно, т.к. индекс создаётся заранее, а знать заранее, с какого символа ты будешь искать и какой длины будет искомая строка, программа не может. В 7-ке поиск по содержимому изначально заявлялся для проиндексированных файлов как быстрый, а значит разработчикам нужно исполнять обещание хорошей скорости "индексированного" поиска, которую поиск по фрагменту не может достичь.
Текстовые файлы с разными расширениями
Система не может определять тип файлов иначе, кроме как по их расширениям. По этому для того чтобы любые текстовые файлы индексировались без переименования в txt, нужно зарегистрировать нужные расширения. Вручную в настройках службы индексирования, или внесением изменений непосредственно в реестре.
Заключение
Теперь, прочитав данную статью, вы без труда сможете организовать PDF-архив и простой поиск по тексту. Естественно, это самый простой вариант поиска «по словам» (в качестве расширенного доступен только фильтр по: Виду файла, Дате изменения, Типу, Размеру и Имени).
Для организации расширенного поиска с применением различных фильтров, с учетом морфологии и т.п. необходимо использовать отдельное ПО. Например программа Архивариус 3000.
Программа Архивариус 3000 – это поиск документов и почтовых сообщений в Вашем компьютере, в локальной сети и в съёмных дисках (CD, DVD и др.). Поиск производится по содержимому документов, с учётом морфологии (смысловой поиск с морфологией на 18 языках).
Подробно о программе Архивариус и аналогичных можно прочитать на просторах интернета, а в данной статье мы ограничимся рассмотрением простого поискового решения стандартными средствами Windows, не требующего дополнительных вложений.
25.09.2014 Смирнов А.В., ПИРИТ
- Обзор документ-сканера Kodak Alaris S2070: компактная модель формата А4 c USB3.2
- Обзор документ-сканера Avision AV332U: привлекательная цена и неплохие возможности
- Универсальный чистящий комплект для сканеров (CG01000-373001)
- Создание архива документов в формате PDF с возможностью поиска по содержимому средствами ОС Windows 7
- Сравнительный обзор книжных сканеров SceyeX A3 и Fujitsu SV600