Что значит оцифровать документ

Что значит оцифровать документ

С развитием компьютерных технологий можно с уверенностью заявить, что оцифровать можно практически все. Любой документ на твердом носителе, будь то бумажный документ, фотография, слайд, книга, журнал и тд. Может быть оцифрован.

Более того оцифровке прекрасно поддаются видео записи на устаревших носителях, как то магнитная или кинопленка. То же касается и аудио записей. Однако для каждого вида документов и стоящей задачи, будь то сканирование книг или чертежей, распознавание текста или оцифровка аудио-видео контента, требуется соответствующее оборудование, программное обеспечение и опытные специалисты.

Основные типы оцифровки которые могут потребоваться в быту и в профессиональной деятельности это сканирование (и при необходимости распознавание) документации (бухгалтерской, офисной, архивной и тп), личных документов (паспортов, удостоверений, сертификатов, дипломов), книг, журналов и других изданий, фотоматериалы (фотографии, пленки, слайды, негативы и тп), чертежи и схемы, картины и репродукции.

Также популярна оцифровка видео (кино и видео пленка) и аудио (магнитная лента и виниловые пластинки) материалов. Однако для получения наилучшего результата нельзя забывать о качественной профессиональной пост обработке оцифрованного материала, включающей в себя, например, цветокоррекцию, устранение искажений, обрезка и (или) вклейка страниц, преобразование в различные форматы, распознавание текста, ретуширование и создание каталогов и электронных архивов.

Источник

Оцифровка документов

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Документы на бумажных носителях целесообразно переводить в электронный вид: они занимают много места, уязвимы к утрате, намоканию и возгоранию, со временем истираются, блекнут. Поиск документов на бумажных носителях занимает много времени даже в хорошо систематизированном архиве. Оцифровка архивов обеспечит возможность быстрого доступа к бумагам.

В электронный формат можно перевести любые документы, включая первичные бухгалтерские и кадровые, деловую переписку, чертежи, каталоги и т. д.

Этапы оцифровки

Процесс перевода архивных документов в электронный формат складывается из нескольких основных этапов:

В ряде случаев может потребоваться дополнительная обработка файлов для доведения четкости и контрастности содержимого до приемлемого уровня. Необходимость подобных работ обусловлена плохим качеством исходного носителя (размытость, блеклость шрифтов и изображений, потертость бумаги и пр.).

Особенности услуги

Доступны разные варианты оцифровки: вы можете получить их в виде «картинки» (например, PDF или Tiff) или текстового файла (DOC). В первом случае архивные документы будут защищены от редактирования, во втором — в них можно вносить изменения с помощью стандартных офисных программ.

Мы работаем с любыми документами независимо от их состояния, объема, содержимого и других особенностей. Используемые технологии позволяют в минимальные сроки провести оцифровку даже сложных архивных документов (поврежденных, выцветших, и т. п.).

Предоставляются дополнительные услуги: копирование, составление описей, переплет и пр.

Применение и хранение

Хранение архива после оцифровки регламентируется № 125-ФЗ и другими законодательными актами. После проведения оцифровки документов клиент самостоятельно выбирает способ и средства хранения электронных копий документов, в зависимости от объема документооборота, технических возможностей и т. д.

Распространенные варианты организации электронного архива:

Для контролирующих органов не важно, какой способ хранения документов выбрала организация. Они отслеживают только соблюдение регламентов передачи документов, требований к формату и сертификатам ЭП.

Развитие компьютерных технологий дает возможность оцифровать абсолютно любые данные и обеспечить их хранение одним из вышеперечисленных способов. Работы по оцифровке документации выполняются профессионально, при этом качество можно улучшить, используя специальные технологии обработки. Помимо официальных документов с большим количеством текста, оцифровать также можно каталоги, содержащие много цветных фотографий, не теряя при этом качества изображений. Оцифровка документации может осуществляться на территории Заказчика и под наблюдением сотрудника организации при необходимости.

В зависимости от объема и сложности заказа определяется и его цена. Заказ по оцифровке данных любого формата, включая оцифровку текста, книг, фото выполняется оперативно с применением нашей техники (специализированные промышленные сканеры), вам не придется тратить средства на приобретение специального профессионального оборудования. Обработку персональных данных наши сотрудники выполняют строго конфиденциально.

Цены на проведение того или иного вида работы зависят от объема заказа и состояния документации, оценка проводится после изучения данных. Услуга выезда менеджера для оценки стоимости осуществляется бесплатно.

Подробнее об услуге вы можете уточнить
у наших менеджеров по телефону:

или отправить запрос из формы обратной связи.

Источник

Как организовать электронную систему хранения документов

Практически любой бизнес сталкивается с необходимостью хранения бумажной документации. Счета, накладные, договоры, отчетность, кадровые документы и прочее — всё это необходимо как-то сохранять. Кроме того, важно организовать удобное использование. Порой на поиск бумажных документов уходит много времени. А иногда нужный документ и вовсе найти не удаётся, поскольку он отсутствует или расположен в другом месте.

В кратком обзоре Open Academy читайте, как оцифровывать, систематизировать и хранить документы.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Как оцифровать документы

Оцифровка бумажной документации включает в себя три основных этапа.

1. Подготовка документов к оцифровке

Прежде всего, документы необходимо систематизировать по схожим признакам. Например, можно отсортировать документацию по следующим параметрам:

Техническая подготовка состоит в разброшюровке документов, удалении скрепок и скоб. Необходимо обеспечить удобство сканирования.

2. Проведение оцифровки документов

Для оцифровки документации применяют планшетное либо поточное сканирование. Выбор подходящего способа зависит от качества печати и содержания документов, их формата и прочих характеристики. К примеру, нотариально заверенные сшитые документы сканируют через стекло планшета, так как их нельзя пропустить через автоматическую подачу бумаги.

Отсканировать документы можно самостоятельно при наличии подходящего сканирующего оборудования. Если нужно оцифровать сравнительно небольшое количество документов, то многофункционального принтера или планшетного сканера будет достаточно.

Учтите, что функцию автоматической подачи листов для обработки многостраничных документов имеют только более дорогие профессиональные модели сканеров.

3. Верификация изображений и создание электронных документов

Полученные изображения документов часто требуют дополнительной обработки. При плохом качестве оригиналов возможны дефекты печати, блёклость или нечёткость. Важно найти и исправить все недостатки.

Готовые изображения нужно перевести в подходящий формат (pdf, doc, XLM), чтобы обеспечить возможность последующего использования и полнотекстовый поиск.

Для изменения формата документов используют специальное ПО, в том числе онлайн-программы. Например:

Чтобы изменить формат документа с помощью OCR, нужно загрузить изменяемый документ в программу и потом скачать готовый результат в нужном формате.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Как систематизировать электронную документацию

Для хранения электронных документов и их последующего использования в работе применяют СЭД — системы электронного документооборота.

На российском рынке более востребованы отечественные решения, поскольку в них предусмотрена возможность многочисленных согласований (вертикально направленный документооборот).

Docsvision. Позволяет не только создать удобный электронный архив, но и полностью перевести внутренний и внешний документооборот в электронный формат.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

«ДЕЛО». Есть возможность хранения любых электронных документов. Позволяет обмениваться документами с другими СЭД. Можно синхронизировать с учетными бухгалтерскими системами.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Directum. Система предназначена для внутреннего и внешнего документооборота. Автоматически классифицирует входящие документы, заполняет реквизиты документов. Обеспечивает быстрый поиск информации с учётом содержания документов.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Преимущественно СЭД хранят документацию по иерархии — «папка/полка/шкаф». При этом один документ порой находится в составе нескольких папок или полок. Это обеспечивается за счет использования ссылок. Сам исходный документ сохраняется на своем месте в хранилище.

Любому документу в СЭД присваивают определённые атрибуты, по которым в дальнейшем будет осуществляться поиск. Например, название и регистрационный номер документа, автор, время создания и прочее. Для разных типов документов могут применяться разные атрибуты, но для документов одного типа атрибуты неизменны. Атрибуты документа хранятся в реляционной базе данных — совокупности взаимосвязанных таблиц, в которых указаны данные и характеристики объектов.

Для каждого типа документов в СЭД формируется шаблон карточки, в которой указаны наименования атрибутов документов. Когда в систему вносится новый документ, по соответствующему шаблону заполняют карточку, указывая в ней значения атрибутов. Заполненная карточка связана с самим документом. В дальнейшем, зная тип искомого документа и используя присвоенные атрибуты, можно найти необходимый документ за несколько минут.

Источник

Что значит Оцифровка?

Моя студия занимается оцифровкой почти всех существующих форматов, так что давайте разберемся что же это значит и зачем это нужно.

Оцифро́вка (англ. digitization) — описание объекта, изображения или аудио- видеосигнала (в аналоговом виде) в виде набора дискретных цифровых замеров (выборок) этого сигнала/объекта, при помощи той или иной аппаратуры, т. е. перевод его в цифровой вид, пригодный для записи на электронные носители. (©Википедия)

Проще говоря Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документпроцесс оцифровки- это перевод какой-либо аналоговой величины в цифровую форму.
Полученный в результате оцифровки массив данных («цифровое представление» оригинального объекта) может использоваться компьютером для дальнейшей обработки, передачи по цифровым каналам, сохранению на цифровой носитель. Перед передачей или сохранением цифровое представление, как правило, подвергается фильтрации и кодированию для уменьшения объема.

Оцифровка бывает нескольких видов:
• Оцифровка звука;
• Оцифровка видео;
• Оцифровка киноплёнки;
• Оцифровка изображения;
• Оцифровка архивных документов — сканирование, каталогизацияи создание электронного архива
• Оцифровка книг — как сканирование, так и в дальнейшем распознавание;
• Оцифровка бумажных карт местности — означает сканирование и, как правило, последующую векторизацию (растрово-векторное преобразование, т. е. перевод в формат векторного описания).

Оцифровка данных производится на специальном оборудовании, позволяющем захватить аналоговый сигнал и преобразовать его в цифровой.Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

С тем что такое оцифровка мы разобрались, но зачем же она нужна?
А вот зачем. Информация представленная в аналоговой форме имеет свойство искажаться, портиться, а то и вовсе будет утеряна в результате старения носителя. Так, например, магнитные ленты в видеокассетах со временем размагничиваются, осыпаются, что несомненно отражается на качестве картинки, и спустя какое-то время видео может просто не поддаться восстановлению. В противовес аналоговому носителю возьмем цифровой DVD диск. Производители заявляют, что эксплуатационный срок диска составляет 100 лет. Так ли это? Возможно при правильном хранении, но в любом случае, срок хранения увеличивается в разы, а это десятки лет, да и цифровые данные всегда можно залить в интернет и на облако, где они уж точно будут храниться чуть ли не вечно. Однако срок хранения не единственное преимущество цифрового перед аналоговым, не менее важным фактором является то, что при копировании с цифры на цифру мы абсолютно не теряем качества, в то время как при перезаписи аналоговых данных с каждой новой копией теряется 15% и это число возрастает по экспоненте от копии к копии.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Подведем итоги, цифровая революция свершилась. Аналоговые носители перешли в разряд ретро и используются в основном энтузиастами и художниками. Для лучшего качества, удобного хранения и быстрого доступа к данным используйте цифровые форматы данных, а если у вас есть что-то старое нуждающееся в оцифровке, то приносите нам, мы знаем что делать!

Источник

Оцифровка печатных текстов

Оцифровка печатных документов — это перевод их изображения, полученного обычно через сканер или фотоаппарат, в какой-либо электронный формат.

Это руководство осветит все практичные способы оцифровки, доступные широкому кругу пользователей персональных компьютеров.

Содержание

Об электронных книгах [ править ]

«Электронные книги» — это хранимый в компьютере текст, оформленный в виде, свойственном печатным книгам. Так, электронные книги обычно дробят содержимый текст на равноразмерные нумерованные страницы; их типографика соответствует уровню печатных изданий. Важно сразу же различать сканированные и вёрстанные электронные книги.

Вёрстанные книги — это либо материал, подготовленный авторами в издательской системе, либо распознанная и вручную вычитанная и отформатированная бумажная книга. Исходником является обычно файл в формате наглядного текстового процессора (OpenOffice.org или Word) или на языке разметки (LaTeX). О подробностях редактирования электронных текстов в текстовых процессорах вы можете почитать в викиучебнике «работа с электронным текстом». Конечным результатом является электронная книга в формате PDF (Adobe Portable Document Format), реже ПостСкрипт (Adobe PostScript) или DVI. Такие файлы обычно содержат векторные шрифты и иллюстрации высокого качества, поэтому они пригодны для печати в любом разрешении, для просмотра на экране, и для поиска по тексту книги (включая возможность выделять и копировать куски текста и иллюстрации). Файлы этого вида кратко будем называть векторными. Типичные векторные PDF-файлы имеют размеры от 3 (редко) до 10—15 килобайт на страницу, в зависимости от числа формул и иллюстраций.

Сканированные книги — это файлы, хранящие целые электронные изображения каждой страницы книги. Такие файлы делаются путём сканирования бумажной книги постранично и дальнейшей обработки с целью улучшения качества и уменьшения размеров файла. Поскольку каждая страница хранится в виде ряда точек (растра), то такие книги можно кратко называть растровыми, чтобы отличить их от векторных. Основные форматы, употребляющиеся для растровых файлов, — это PDF и DJVU. В этих форматах можно добавить также и распознанный текст, закладки и гиперссылки, чтобы были возможны быстрые переходы по книге и автоматический поиск текста. Поэтому качественно сделанные растровые книги не менее удобны в использовании, чем векторные, и несущественно проигрывают им в качестве распечатанного текста. Типичный размер растровой книги — от 5 (редко) до 10—15 килобайт на страницу, в зависимости от разрешения и качества текста или иллюстраций.

Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко — исправлять ошибки распознавания текста. Поэтому для таких книг гораздо легче делать именно растровые, а не векторные электронные версии. Даже в чисто текстовых книгах — без иллюстраций, таблиц или формул — автоматическое распознавание порой даёт трудновыявимые ошибки. Гораздо быстрее приготовить растровую электронную книгу, тем более что современная технология сжатия изображений позволяет делать файлы вполне приемлемого размера. Например, средний размер растровых книг, включая распознанный текст — 13 КБ на страницу. Это означает, что растровая книга, имеющая 400 страниц, в среднем занимает около 5 МБ (цифры приводятся для формата DJVU). На стандартном ДВД-носителе (4,3 ГБ) может поместиться около 900 таких книг.

Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF-файлы однако сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.

Юридические тонкости оцифровки [ править ]

По существующим в большинстве стран законам, книги являются объектами одновременно авторского и имущественного права. Имущественное право — это право на распространение и продажу книги, а также право на любое копирование или даже бесплатное распространение через интернет. Автор книги имеет особые права, такие, как требовать признания авторства или заключать контракты с издателями. Если данная книга является объектом имущественного права, это означает, что её нельзя копировать или вообще как-либо распространять (даже бесплатно) без разрешения правообладателя.

На каждой книге среди выходных данных указаны обладатели имущественного права и, соответственно, ограничения на распространение книги. Однако имущественное право на книги имеет конечный срок давности, — это обычно 50 лет (в некоторых странах 75 лет) после смерти автора и 75 лет (в США — 95 лет) со времени публикации книги. В России и других странах бывшего СССР имеет место особая ситуация с книгами, вышедшими до 1971 года, поскольку лишь в 1971 году СССР вступил в международную конвенцию по авторским правам. Поэтому книги, вышедшие в СССР до 1971 года, как правило (есть и исключения), не являются больше объектами имущественного права. Книги, изданные в США до 1924 года включительно, или в Европе до 1932 года включительно, тоже, как правило, уже больше не являются объектами имущественного права.

Законной является оцифровка книг, права на которые истекли, или книг, авторы и издатели которых разрешают их свободное распространение через интернет или другим образом (например, если автор выложил на интернет-странице электронную книгу после того, как издательство вернуло ему все имущественные права). Учтите, что законом запрещается оцифровывать или копировать (в том числе через бесплатные или платные интернет-сайты) электронные книги, являющиеся в настоящее время объектами имущественного права. Хранение таких электронных книг на вашем личном компьютере уже является копированием и также запрещено, за исключением того случая, если вы сами купили эту книгу у издательства в электронном виде. Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.

Мы призываем вас знать и соблюдать законы той страны, где вы живете, и оцифровывать только материалы, не являющиеся объектами имущественных прав. Данное руководство по оцифровке книг имеет чисто технический характер и не может рассматриваться как инструкция по нарушению закона. Ссылки на интернет-источники предоставляются только в целях ознакомления с техникой оцифровки.

Форматы DJVU и PDF [ править ]

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader или его аналоги) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако, надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество неоптимально сделанного растрового PDF-файла. Неоптимальные PDF-файлы могут иметь размеры 100—200 КБ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КБ на страницу, что примерно на 30—50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла, которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

Сохраненные изображения открыть в Irfan View и нажать кнопку «Image Information». Работает для большинства pdf-файлов. За редким исключением. Иногда действительно попадаются файлы, которые не поддаются такой обработке (Acrobat выдает ошибку типа: XObject cannot be extracted).

Проиллюстрируем соотношение размеров PDF- и DJVU-файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF-файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF-файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3—4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизированно обрабатывать DJVU-файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.

Приспособления для сканирования [ править ]

Получать изображение документа можно сканером или фотоаппаратом. Качественных различий между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.

Теперь подробнее обо всех упомянутых особенностях.

Фотоаппарат [ править ]

Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо dpi). Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:

3000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 25,4 см,

2000 пикселей / 300 точек на дюйм × 2,54 см на дюйм = 16,9 см.

Поэтому удобнее использовать фотоаппараты с большим числом мегапикселей.

Теперь немного стандартов: лист формата А4 имеет размеры 297×210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Только тщательная последующая вычитка и проверка текста снижает количество ошибок и помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на авторский лист, то есть на 40000 знаков).

Чтобы обеспечить высокое качество изображения, надо фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.

Однако после получения изображений кусками их необходимо склеивать. Это делают программы для сбора панорамных снимков, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений. Пользоваться ими легко.

Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп). Менее удобно и требует ручной доводки.

Для получения частичных изображений надо двигать оригинал или фотоаппарат, соблюдая одинаковое освещение. Из-за этого, а также возможной у плохих фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Поэтому надо брать штатив и выбирать освещение, чтобы избавиться от таких искажений.

Далее — «шевелёнка». Руки с фотоаппаратом дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка должна быть меньше обратного фокусного расстояния. При библиотечных условиях съёмки надо увеличить количество снимков и повысить чувствительность, и никакой «шевелёнки» не будет.

Итак, штатив при съёмках очень желателен. Нужно также заботиться об одинаковой подсветке.

Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат, хотя можно снимать в качественный JPEG. Для постоянного характера снимков для их последующей пакетной обработки надо выдерживать одинаковую диафрагму, фокусировку и выдержку. Иными словами, надо знать свой фотоаппарат и уметь им пользоваться.

При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какие-нибудь триста-пятьсот снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6×4=24 МБ данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Поэтому надо иметь большую карточку памяти — не менее 1 ГБ.

Основные моменты сканирования [ править ]

Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу — иначе возникает характерное затемнение в области корешка из-за наклонного падения света лампы подсветки (в любых сканерах) и размывание текста из-за малой глубины резкости (только в CIS-сканерах). Поэтому практически невозможно хорошо отсканировать книги, которые плохо открываются. (Существует, однако, специальный сканер OpticBook 3600, позволяющий сканировать книгу, открытую на 90 градусов. Этот сканер пока имеет драйверы только под Windows.) При сканировании разворотом, если книга полностью не влезает на стекло, может возникать дополнительное размытие текста на краю страницы из-за того, что текст не прижат к стеклу (только в CIS-сканерах). Всё это необходимо тестировать перед началом сканирования и определить оптимальный метод.

Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.

Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.

Иногда имеет смысл сделать ксерокс с книги и сканировать этот ксерокс. Дело в том, что в ксерокс-машинах гораздо больше глубина резкости, чем у сканеров, и поэтому удаётся скопировать участки текста, прилегающие к корешку книги, даже если книга плохо раскрывается. Кроме того, ксероксы специально делают повышение контрастности изображения, что позволяет избавиться от серого фона страниц и максимально уменьшить затемнение в середине разворота.

Софт для управления сканером можно использовать любой, например VueScan (есть для Windows / Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканеров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.

НЕ СЛЕДУЕТ пользоваться программой FineReader для сканирования текста при создании электронных книг, потому что FineReader автоматически делает неаккуратное выпрямление косых сканов, из-за которого в изображении появляются «изломы». Эти изломы не мешают при распознавании текстов, но плохо выглядят в растровом варианте отсканированной книги.

Что значит оцифровать документ. Смотреть фото Что значит оцифровать документ. Смотреть картинку Что значит оцифровать документ. Картинка про Что значит оцифровать документ. Фото Что значит оцифровать документ

Софт для сканирования желательно использовать такой, чтобы получить сырые сканы в формате TIFF (не JPG, так как неизбежна потеря качества!), поименованные автоматически, например, так: page0001.tiff, page0002.tiff и так далее.

При сканировании по одной странице бывает удобнее сканировать сначала все четные страницы, потом все нечетные, и только потом переименовать все файлы автоматически по возрастанию номеров. При сканировании из XnView можно сразу указать, что сканируются только чётные или только нечётные страницы, — номера будут проставляться автоматически.

Разрешение (цифра «dpi» — количество пикселей на дюйм) и глубина цвета (черно-белый — 1 бит, серый — 8 бит, цветной — 24 бит) — самые важные параметры сканирования. Софт для сканера должен давать пользователю возможность выбрать эти параметры непосредственно, а не просто выбирать между непонятными режимами типа «текст» — «рисунок» — «фото для интернета». Сканер должен поддерживать разрешение как минимум 600 dpi; других сканеров сейчас не продают, а больше 600 dpi практически никогда не требуется. Сканировать можно либо в 600 dpi, либо в 300 dpi. Никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно.

Здесь автор несколько категоричен. Сканирование в низком разрешении (200, 150, а иногда даже 100 dpi, но в полутонах, естественно — 8 бит серый или 24 бит цветной) может дать весьма приличный результат, пригодный во всех отношениях после соответствующей обработки (см. «обсуждение»). Конечно, это справедливо, если в сканируемом объекте нет большого количества (если мало — можно потом и отредактировать) совсем уж слишком мелких деталей, важных для содержания! Это существенно для пользователей недорогих сканеров, где быстрая скорость сканирования достижима только в режимах с низким разрешением.

Другие разрешения, такие как 360, 400 и т. д., мало смысла использовать — они работают через интерполяцию изображения, то есть реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого. Такую интерполяцию можно и нужно сделать специальным софтом, а не тем софтом, что пришел со сканером.

Здесь автор несколько преувеличил или упростил: фраза «реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого» может относиться только к конкретной модели сканера. Упомянутый автором сканер имеет оптическое (реальное) разрешение 300 dpi (на самом деле скорее всего 600 dpi) но есть сканеры у которых оптическое разрешение 400 dpi и вообще любое другое.

Многие сканеры одинаково быстро делают скан листа в 300 dpi черно-белого режима и в 300 dpi серого режима (greyscale). Поэтому если вы сканируете в 300 dpi (а не в 600 dpi), то лучше сканировать всегда в сером режиме (greyscale), даже если книга не содержит вообще цветного материала. Специальный софт потом может поднять разрешение 300 dpi серых сканов до 600 dpi черно-белого, при сохранении отличного качества текста (как будто сканировали в 600 dpi черно-белом). Проблемы 300 dpi серых сканов вылазят только в литературе с фотографиями, передаваемыми растровым методом: в некоторых местах появляется эффект муара, то есть волн яркости и/или цвета по изображению.

Упомянутый здесь «Специальный софт» который «может поднять разрешение 300 dpi серых сканов до 600 dpi» скорее всего у вас будет отсутствовать, если так то будет лучше сканировать в 300 dpi с однобитной глубиной цвета (черный-белый). При этом размер файлов будет очень маленький а качество предостаточно хорошим. Исключение: мелкий шрифт (газетный) или низкая контрастность (сероватые буквы на желтоватой бумаге).

Для максимального качества рекомендуется книги сканировать в сером режиме при 600 dpi, если же в книге есть информативные цветные иллюстрации, то в цветном 600 dpi. Это разрешение позволяет полностью разбить растровое изображение на отдельные цветные точки, что полностью подавляет муар.

В любом случае, запаситесь свободным пространством на винчестере — несколько гигабайт.

Конечно на сегодня несколько гигабайт на винчестере не проблема, но не стоит принимать это мнение слишком серьезно, если вы сканируте обычную книгу в которой в основном только текст, а редкие изображения имеют характер схем или рисунков без полутонов. Я сканировал книгу по FreeBSD в растровый формат tiff с глубиной цвета 1 бит. Результат 250 страниц = 14,2 МБ.

Сканирование цветных материалов [ править ]

Сканирование и обработка цветных материалов (книги с большим количеством фотографий, важных для содержания) связаны с существенно бо́льшими трудностями, чем сканирование черно-белых книг. Гораздо труднее получить конечный файл разумного размера при сохранении хорошего качества изображения. Исходные отсканированные файлы могут достигать ста мегабайт и больше на страницу, а конечный результат — сотен килобайт на страницу.

Обработка отсканированных изображений [ править ]

После сканирования необходимо просмотреть все страницы и убедиться, что нет явных огрехов. Например, иногда по недосмотру книга неровно легла на стекло сканера и часть текста на какой-либо странице не отсканировалась, или были вовсе пропущены некоторые страницы. После этого можно архивировать отсканированные изображения и приступать к обработке. Поскольку сканирование — физически самый трудоёмкий этап, рекомендуется держать резервную копию всех исходных сканов (такими, какими они были до обработки) на случай какого-либо сбоя.

Энтузиасты подготовили полные подробные инструкции по обработке отсканированных изображений и созданию электронных книг — смотрите ссылки внизу страницы. Каковы главные задачи обработки? Они зависят от того, ставим ли мы целью создание векторного файла или растрового файла. Для создания векторного файла производится распознавание (OCR) текста и его дальнейшее редактирование вручную в текстовом процессоре (таком, как MS Word или Adobe Pagemaker). Конечным продуктом обычно является сверстанная книга в формате PDF. Для создания растрового файла необходима доводка графических изображений до высокой степени сжатия и качества, а распознавание (OCR) производится лишь начерно, без вычитки и правки текста, в самом конце процесса. Обработка графических изображений производится обычно в пакетном режиме, так что не требуется обрабатывать каждую страницу вручную в Photoshop’e или другом графическом редакторе. Поэтому затраты времени на создание растровой электронной книги гораздо меньше, чем на создание векторной книги.

Графическая обработка сканов состоит из следующих основных шагов:

Эти шаги частично автоматизированы в программе ScanKromsator (Windows) и описаны в инструкции «Scan and Share» (смотрите ссылки внизу страницы). Однако если эта программа показалась для вас слишком сложной, вы можете воспользоваться Scan Tailor (ссылка на неё внизу страницы).

После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.

Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20—30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF-файла после сжатия PDF/TIFF-G4 примерно в 4—8 раз больше, чем у PDF/JBIG2.

Имеются программы для создания хорошо сжатых файлов DJVU и PDF/JBIG2. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10—30 %) и во многих случаях сгладить «лохматые» контуры букв.

После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставки OCR-слоя в DJVU-файлы после распознавания в программе FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.

Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor.

Также в Djvu-книгу можно добавить оглавление в виде иерархического дерева с помощью бесплатной утилиты Djvu Bookmarker.

Доделка электронных книг [ править ]

Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё заново).

Доделка PS-файлов [ править ]

PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF-файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (то есть не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS- и PDF-файлов, сделанных по-старому и проявляющих этот дефект.

Исправить этот дефект можно двумя способами:

Доделка PDF-файлов [ править ]

Поскольку формат PDF является сейчас самым распространённым, то часто встречаются отсканированные книги, хранимые в этом формате (вдобавок ко другим возможным дефектам отсканированных книг). Почти всегда бывает целесообразно переделать такие файлы в формат DJVU, так как при этом можно добавить распознанный текст (OCR-слой) и существенно уменьшить размер электронной книги.

Иногда переделке подлежат также и векторные PDF-файлы. Это относится к файлам со следующими дефектами:

Доделка DJVU-файлов [ править ]

Весьма часты случаи, когда доделка DJVU-файлов возможна и необходима. Эти случаи таковы:

Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.

Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU-файл (отсканированный в цвете и/или в низком разрешении) часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *