Что такое i r i s ocr

19.04.202226.04.2022 admin 0 Comments

Как мы распознаем фото документов пользователей. Часть I

Привет, Хабр! Я Илья, Data Scientist в inDriver. В работе нам часто приходится распознавать документы водителей или пассажиров для их верификации в приложении. Наша команда выработала свой подход к идентификации текста и фото, которым я хотел бы поделиться.

В первой части статьи кратко расскажу о том, как мы распознаем фото документов и текст на них. Во второй более предметно поговорю о моделях CRAFT, CRNN и их использовании. Приятного чтения!

Содержание

Минутка истории

Задача оптического распознавания символов (OCR — optical character recognition) — старая проблема, восходящая к 1970-м годам, когда была разработана первая технология OCR c омни-шрифтами (omni-font). Сложность этой задачи обусловлена естественными особенностями текстов:

В некоторых алфавитах найти и распознать буквы очень сложно (например, в арабском, китайском, особенно в курсиве).

Существует много разных шрифтов и стилей, некоторые символы слишком похожи на другие (например, буквы I и l, цифра 0 и буква O).

Рукописный текст бывает всех форм и размеров.

Все методы распознавания текста с глубоким обучением можно условно разделить на 3 большие категории:

Character-based. Эти методы сначала пытаются найти и распознать определенные местоположения отдельных символов, а затем сгруппировать в слова.

Word-based. Методы решают распознавание текста как проблему классификации слов, где классы — общие слова на определенном языке.

Sequence-to-sequence. Методы рассматривают OCR как проблему маркировки последовательностей. Одни из самых ранних работ по этому типу методов была написана китайскими авторами. Статья является оригинальной работой по описанию модели CRNN. Также в ней дается подробный обзор конкретной архитектуры GRU-CNN с вычислительной точки зрения. Различные модификации моделей CRNN работают лучше, чем другие, на многих эталонных наборах данных OCR.

3 категории распознавания текста

Первой программой, распознающей кириллицу, был «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году и работала под управлением операционной системы DOS. Алгоритм «AutoR» был разработан и испытан еще в конце 1960-х годов биофизиками и выпускниками МФТИ Г. М. Зенкиным и А. П. Петровым (1, 2).

Распознавание фото документов

Перейду к тому, как все устроено в inDriver. В ряде случаев нам необходимо автоматически распознавать фото документов пользователей для их верификации в приложении. При распозновании мы регулярно стакливались с несколькими проблемами:

Часто необходимо распознать не весь документ, а какую-то область или поле.

Фотографии имеют низкое разрешение из-за старой модели телефона, или документ расположен далеко от камеры.

Фотографии сделаны под углом по оси Z.

Область документа для распознавания может быть испорчена или потерта, так что бывает трудно разобрать символы.

Используются разные шрифты и разные типы документов в пределах страны или города.

Фотография может быть перевернута на 90, 180 или 270 градусов.

Распознавание документов в inDriver включает в себя 2 основных этапа:

Segmentation. Сегментация области документа, которая должна быть распознана.

Recognition. Распознавание текста или Detection (детекция) и распознавание.

Расскажу подробнее о сегментации. Задачи компьютерного зрения разделяют на несколько видов:

Classification. Классификация изображения по типу объекта, которое оно содержит.

Object Detection. Обнаружение всех объектов указанных классов и определение охватывающей рамки для каждого из них (bounding box).

Semantic Segmentation. Выделение разных классов объектов на изображении, включая среду.

Instance Segmentation. Разделение объектов одного класса на разные объекты.

Panoptic Segmentation. Объединение задач семантической и инстанс-сегментации. Также в задаче паноптической сегментации каждому пикселю изображения должна быть присвоена ровно одна метка.

Примеры сегментации изображений

В первой итерации мы использовали instance segmentation модель на TensorFlow2 архитектуры MASK RCNN (TensorFlow Hub). С помощью Fine-Tuning дообучили модель на наших данных. Она позволила получать bounding box и mask размеченной области документов.

Но вскоре мы отказались от ее использования. Проблема — много зависимостей от TensorFlow Object Detection API. Нужно было сериализовывать данные в собственный формат TFRecords.

Было решено перейти на PyTorch-фреймворк detectron2. На тестах метрики у моделей из detectron2 были выше, чем у модели на TensorFlow2 (даже без тестов можно сравнить метрики на TFHub и model zoo detectron2). Для detecron2 использовали предобученные веса модели СOCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x (в зависимости от ресурсов и времени можно выбрать готовые веса).

Датасет создавался с помощью ручной разметки через приложение labelme, а потом конвертировался в формат COCO датасета, где был написан свой, немного адаптированный скрипт. Была попытка использовать Label Studio, но софт показался не совсем дружелюбным и больше ориентированным на команду разметки.

Так как в документах обычно одно уникальное поле и оно не дублируется, можно было использовать модели из semantic segmentation (маски) или object detection (bounding box). Но мы применили instance segmentation, чтобы получить маски и боксы.

Следующий шаг после определения нужных полей для распознавания — само распознавание текста.

Распознавание текста

В первой итерации использовались несколько моделей распознавания:

EasyOCR. Для детекции CRAFT + CRNN для распознавания.

MMOCR. Модели распознавания SAR, SATRN, RobustScanner, SegOCR, а также разные модели детекции текста в связке с моделями распознавания.

В основе библиотеки EasyOCR (PyTorch), как и в keras-ocr лежат 2 модели: детекции текста CRAFT(Character Region Awareness for Text Detection) и распознавания текста CRNN. Фреймворк MMOCR предлагает намного больше моделей.

Tesseract изначально не рассматривался, так как он хорошо работает с фотографиями высокого разрешения (где могут помочь морфологические операции), что нам не подходит. Также нам нужна высокая скорость обработки на GPU. Хотя Tesseract можно адаптировать под себя, как, например, в статье с исправлением шрифтов, но этот метод не универсален.

Используемые нами модели выдавали в ответ координаты боксов, а также распознанный текст и его score. Из всех моделей выбирался вариант с наибольшим score. Часто фото документов были сделаны под углом, для выравнивания использовался алгоритм Perspective Transformation по 4 координатам бокса. Использовалась и предобработка маски с помощью opencv. Например:

Разные варианты порогового преобразования:

Для улучшения качества изображения мы пробовали увеличивать разрешение с помощью интерполяции и моделей Super-Resolution. Для правильного определения ориентации маски или фото применяли модель классификации на 4 классах с поворотом на 0, 90, 180, 270 градусов.

Также были попытки обучить на синтетически сгенерированных данных модель CRNN из EasyOCR. Но здесь мы столкнулись с проблемой подбора шрифтов — не удавалось найти один шрифт, чтобы все символы были похожи на символы из оригинальной выборки. Поэтому при генерации синтетических данных мы использовали несколько шрифтов, которые подбирали с помощью онлайн-сервисов (например, WhatTheFont! « MyFonts).

Еще столкнулись с изначально некорректной разметкой при сегментации, выделяли не только нужные данные, но и поле/ячейку, часто с названием поля и рамками. Приходилось на препроцессинге выделять только нужную область, а также использовать маски с пустыми рамками для генерации синтетического датасета.

Так как готовые модели были обучены на синтетических датасетах, которые были сгенерированы без большого разнообразия шрифтов и с недостаточной аугментацией, на реальных фото часто путались цифры с буквами (например 6 и G, 7 и T, 2 и Z).

При работе с документами нам часто приходится распознавать определенные последовательности чисел или символов. Поэтому мы решили попробовать character-based метод. Для выделения области распознавания и разделения на символы мы сначала использовали средства opencv. Но не всегда удавалось отделить символы друг от друга, потому что часто документы были измяты или потерты, и исходное фото было в низком разрешении.

В итоге для разделения символов мы начали использовать модель CRAFT. Для Python есть удобная реализация в виде библиотеки craft-text-detector. Библиотека позволяет регулировать параметры выделения текста и получать боксы каждой области текста или символа в отдельности.

Для примера распознаем текст с помощью библиотеки craft-text-detector на кадрах из первого части «Человека-паука» 2002 года:

Оригинальное изображение Text detection boxes Text score heatmap Link score heatmap

Text detection boxes — боксы с текстами (которые получаются с помощью работы моделей CRAFT + LinkRefiner).

Text score heatmap — вывод модели CRAFT (по каждому символу).

Link score heatmap — вывод модели LinkRefiner (модели связи символов).

Чтобы получить char-boxes, а не text-boxes, мы можем выставить значение параметра link_threshold=999999 (сделать большим). Тогда не будет учитываться работа модели связи символов LinkRefiner. Например:

Char detection boxes

Более подробный код запуска есть на GitHub. Также с этой библиотекой удобно менять разные пороговые значения. Например, для распознавания более мелких или крупных шрифтов.

Далее боксы распознаных символов можно подать в модель классификации, которая обучается с дополнительной аугментацией с учетом поворотов и прочих шумов.

Но подробнее о моделях CRAFT, CRNN и их использовании я расскажу в следующей части статьи. Если у вас есть вопросы или комментарии — пишите, с удовольствием отвечу.

Источник

Вся правда об OCR

Поколения программ OCR

Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства рассмотрения. На данный момент выделяют OCR-системы, а также ICR-системы. Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем. В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha). Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR, в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются фразы целиком.

Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим существующие альтернативы.

Известные отечественные продукты

ABBYY FineReader – один из лидеров рынка OCR, текущая версия продукта 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная веб-версия этого пакета для оптического распознавания. Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа.

Конкурент FineReader, с которым его постоянно сравнивают – OmniPage от компании Nuance Communications (бывшая ScanSoft). Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий полученных напрямую с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков. Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD. Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода. Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, т.к. их возможности во многом эквивалентны.

Зарубежные продукты

Три других известных продукта получили малое распространение на территории СНГ в силу полного отсутствия представителей и маркетинга, но известны на Западе и достойны хотя бы краткого упоминания, хотя бы потому, что также позиционируют себя как продукты ICR-класса.

Также из известных за рубежом продуктом стоит упомянуть LEADTools – это продвинутый ICR-движок, решающий сложные задачи распознавания анкет и рукописных текстов. Он поставляется как SDK, что позволяет удобно и органично встраивать его в корпоративные продукты. Очень важная особенность этого решения состоит в том, что здесь на каждый подключенный язык используются собственные словари для усиления точности проверки распознанных слов и выражений. Продукт доступен как в виде веб-сервисов, так и в традиционном программном виде в 32- и 64-битных версиях для ОС Windows всех версий.

Бесплатные OCR-решения

Сейчас в мире существует более чем 100 самых различных OCR-движков, мы попытались рассмотреть и сравнить здесь лишь самые известные и качественные из них. Среди них существует также большое множество бесплатных OCR-программ любительского уровня, но их качество распознавания существенно ниже их коммерческих аналогов. Для успешного решения бизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса.

Источник

Update

Медиа о технологиях в бизнесе

Что такое OCR и как оно помогает ускорить бизнес-процессы

Технология оптического распознавания символов (OCR) умеет преобразовывать бумажные документы в доступный для чтения и редактирования формат. Также OCR упрощает рутину бухгалтеров, юристов и HR-сотрудников: может распознать документы и перенести информацию в учетные системы.

Как компьютер распознает текст

OCR (англ. optical character recognition) — технология автоматического анализа текста и превращения его в данные, которые может обработать компьютер. Человек распознает символы с помощью глаз и мозга. Компьютер использует камеру сканера, которая создает графическое изображение текстовой страницы. Для компьютера нет разницы между сканом текстового документа и фотографией: и то, и другое — набор пикселей.

Человек легко поймет, что на картинке изображен текст. Для компьютера есть два способа: распознавать символы целостно, то есть распознавать паттерн, или выделять отдельные черты, из которых состоит символ — выявлять признаки.

Метод распознавания паттерна

В 1968 году компания American Type Founders, которая с конца 19 века занималась созданием печатных шрифтов, придумала шрифт OCR-A с буквами одинаковой ширины. В основном шрифт использовали в банковских чеках, а для его чтения компьютером было создано специальное программное обеспечение.

Поскольку шрифт был стандартизирован, его распознавание стало относительно простой задачей. Программы «знали» OCR-A и могли переводить информацию с чеков в машиночитаемую форму. Однако в случае ошибки живой человек мог вмешаться в процесс и также прочитать банковский чек. Следующим шагом стало обучение программ OCR распознавать символы еще в нескольких самых распространенных шрифтах.

Выявление признаков

Этот способ еще называют интеллектуальным распознаванием символов — ICR. Программа, работающая с выявлением паттернов, не сможет определить символы, если шрифты ей неизвестны. Вместо распознавания паттерна ICR выделяет характерные индивидуальные черты, из которых состоит символ.

Большинство современных OCR-программ работают по этому принципу. Чаще всего в них используются классификаторы на основе машинного обучения, но в последнее время некоторые OCR-системы перешли на нейронные сети.

Что делать с рукописным вводом

Задачу с рукописным текстом для компьютера иногда упрощают. Например, просят писать почтовый индекс в специальном месте на конверте особым шрифтом. Формы для дальнейшей обработки компьютером имеют отдельные поля, которые просят заполнять печатными буквами.

Планшеты и смартфоны, которые поддерживают рукописный ввод, часто используют принцип выявления признаков. При написании определенной буквы экран устройства распознает, что сначала человек написал одну линию, потом вторую. Компьютеру помогает то, что все признаки появляются последовательно, в отличие от варианта, когда весь текст уже написан от руки на бумаге.

Шаги распознавания текста

Чем лучше качество исходного текста на бумаге, тем лучше качество распознавания. Первый этап — создание черно-белой или серой копии. Если все прошло без ошибок, то все черное — это символы, а все белое — фон. Хорошие OCR-программы автоматически отмечают трудные элементы: колонки, таблицы или картинки. Все OCR-программы распознают текст последовательно, символ за символом, словом за словом и строчка за строчкой.

Сначала OCR-программа объединяет пиксели в буквы, а буквы — в вероятные комбинации, затем система сопоставляет их со словарем. Если комбинация букв находится, то она отмечается как распознанное слово. Если нет — программа подставляет наиболее вероятный вариант.

Чему еще можно обучить OCR-систему

В крупных компаниях за подготовку актов, счетов и судебных исков отвечают сотрудники, но развитие машинного обучения и нейронных сетей позволили автоматизировать деятельность бухгалтеров и юристов. Современные OCR-системы ушли гораздо дальше, чем распознавание символов, и стали основой для целой индустрии Legal Tech — цифровых продуктов, ориентированных на бизнес с большим количеством типовых юридических и бухгалтерских процессов. Вряд ли машина сможет в скором времени заменить бэк-офис, но современные решения значительно оптимизируют его работу.

Например, сервис «Цифровой бэк-офис» от МегаФона может собирать типовую документацию с помощью конструктора, выделять нужную информацию из первичной документации и генерировать ответы на запросы госорганов. Процесс идентичен тому, что происходит в обычном офисе юриста, только вместо живого человека — чат-бот, который собирает информацию и выдает готовый документ. Главные преимущества — отсутствие ошибок «человеческого фактора» и скорость подготовки документов: время сокращается с привычных 30 до 5 минут.

Также функция по распознаванию первичной документации может быстро перенести нужную информацию из актов и счетов-фактур в учетные системы. OCR-система получает типовой документ на входе и генерирует ответ в нужной форме. Например, «Судебная платформа» в «Цифровом бэк-офисе» МегаФона может работать в таком режиме с запросами от госорганов, претензиями и судебными исками. На подготовку отзыва системе понадобится всего около 20 секунд.

Источник

OCR-приложения со встроенными функциями перевода, и что это вообще такое

Знакома ли вам ситуация, когда интересная вам игра не имеет перевода на комфортный для прохождения язык? Скорее всего, нет. Ведь вы достаточно умны и способны, чтобы успевать везде и знать всё, но у всех нас точно есть друг с подобной проблемой. У вас ведь есть друг?

К сожалению, далеко не каждый обладает достаточными знаниями языка для комфортной игры, не отвлекаясь постоянно на переводчик. А это означает, что рано или поздно в поисках лёгкого решения пользователь отправится на просторы интернета, чтобы найти программу, которая способна считать текст с экрана и самостоятельно выполнить перевод, но в конечном итоге найдёт лишь что-то платное или неудобное для игрового процесса, — не дело. «Да легче взять телефон и переводить через «Переводчик» от гугла» — не то что бы сильно ошибаясь утвердит юзер и забьёт в надежде, что когда-то настанет момент релиза перевода интересующей его игры. Но, очевидно, не всё сбывается как мы хотим, не все игры в конечном итоге переводятся.

Я не мог пройти мимо такой несправедливости в интернете, потому в этой статье поделюсь моим опытом использования некоторых программ, способных считать и перевести текст с экрана, но выводы делать только вам, конечно.

Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере.

Понимайте эту технологию как более умный сканер. Например, если обычный сканер просто считывает изображение с листа, то OCR считает не изображение, а сразу текст на нём.

Если изначально OCR был нужен для удобного переноса книг и документов в электронный вид, то сейчас находят дополнительные возможности использования этой функции. Непонятная фраза на английском в игре? Теперь не надо переписывать всё предложение в переводчик, а лишь включаешь OCR, вставляешь отсканированное и готово. Удобно, да?

Уж не знаю как думали авторы нижеприведённых программ на самом деле, но, думаю, примерно так: «Удобная штука, конечно, эти ваши программы с OCR, но если таких фраз слишком много, то процесс быстро утомляет… Намного удобней было бы совместить сканирование и перевод, чтобы не бегать от игры к переводчику и обратно».

Наверное, самая первая и известная из программ, появившихся на данном поприще. Справедливо стоит на первом месте. Первом по количеству времени обработки текста, но со временем совершенствуется.

Источник

Iris ocr что это за программа

Программы OCR: распознавание текста, списки, разработчики, вес программы, выполняемые функции, характеристики, особенности работы и отзывы пользователей

Бумага как основной носитель информации, постепенно утрачивает свое значение. Вместо бумажных документов используют их электронный вариант, если это возможно. Но как перевести в электронный вид имеющиеся архивы? Для решения этой задачи были созданы специальные программы для распознавания текста.

Что такое OCR-программы и как они работают

Эти программные продукты, использующие технологию ORC (Optical character recognition) или ICR (Intelligence character recognition). На русский язык эти аббревиатуры переводятся как «оптическое» или «интеллектуальное распознавание символов».

Программы, использующие OCR, работают следующим образом. Фотография с текстом, полученная от сканера, разбивается на множество фрагментов. Для каждого из них приложение создает несколько предположений. Проверяя их и сравнивая с эталонами, каждому фрагменту дает оценку, соответствующую степени совпадения. Выбирая наибольшую из них, программа «видит» символ и выводит его в поле встроенного текстового редактора.

IRC работает по тому же принципу, но для обработки символов используются искусственные нейронные сети. Главное преимущество этого способа – компактность программ и непрерывное обучение. Это позволяет эффективно распознавать слова, написанные человеком рукописными буквами. Но эта технология не способна «прочесть» сплошной рукописный текст.

Для каждой из существующих операционных систем разработаны собственные OCR-программы. Наиболее популярными для работы в ОС Windows являются:

Кроме программ для ПК доступно много онлайн-сервисов по распознаванию текста. Среди них наиболее известны FineReader Online, OnlineOCR, FreeOCR.

ABBYY FineReader 14

Этот программный продукт разработан отечественной компанией ABBYY, является одной из лучших среди программ, использующих OCR. Основу программы составляет оригинальный движок под названием Finereader Engine. Он предоставляет следующие возможности:

Главный недостаток этой программы – цена. Бессрочная лицензия для базовой версии обойдется в 7 тысяч рублей. Версии «Бизнес» и «Энтерпрайз» – в 12 и 39 тысяч рублей, соответственно. Если же предполагается использовать программу только дома, то можно скачать с торрент-трекера взломанную 11-ю или 12-ю версию продукта.

Мнение пользователей о FineReader 14

Они отзываются о FineReader положительно, выделяя среди достоинств способность продукта распознавать текст с плохих бумажных оригиналов, удобный и простой интерфейс и высокую скорость обработки изображений.

Среди проблем, возникающих при использовании этой OCR-программы, некоторые юзеры отмечают некорректно работающий менеджер изображений. Например: неадекватная работа регулировки яркости отсканированного изображения.

OmniPage 18

Основной конкурент FineReader на российском рынке ORC-программ. По функционалу она очень похожа на оппонента, но имеет несколько отличий:

Среди недостатков программы можно отметить низкую скорость работы, сравнимую с 10-й версией FineReader, и цену за лицензионную копию – 150 долларов.

Мнение пользователей об OmniPage

Отзываются они о ней резко негативно, т.к. проблемы есть во всех частях программы, начиная от красивого, но непонятного интерфейса, и заканчивая плохой справочной информацией. Продукт не адаптирован к работе в WinXP. Его можно заставить работать, но придется потратить какое-то время.

OmniPage имеет проблемы с распознаванием. Например: он легко распознает простой черный текст на листе бумаги с рисунками или таблицами, полученный со сканера. При использовании изображений с фотоаппарата или мобильного телефона точность распознавания падает до 70 %, а это очень неудобно при обработке больших документов.

Также 18-я версия может не запуститься из-за ошибок в коде. Для устранения этой проблемы нужно установить патч 18.01.

Read Iris Pro 17

Read Iris — это OCR-программа, что за меньшие деньги (8000 против 12 000) способна сравниться по функционалу и производительности с FineReader. Профессиональная версия обладает следующими возможностями:

Также существует корпоративная версия, позволяющая защищать PDF-файлы водяными знаками и работать с документами объемом более 50 страниц.

Мнение пользователей о ReadIris

Они отзываются об этой OCR-программе распознавания текста как о хорошем и быстром PDF to Word конвертере с рядом проблем:

Samsung Scan OCR Program – что это за программа?

Это бесплатное программное обеспечение, входящее в комплектацию многофункциональных устройств «3 в 1» (принтер, сканер, копир) от компании «Самсунг». Оно разработано в сотрудничестве с компанией Iris, создавшей ReadIris Pro, и оптимизировано для работы с МФУ этого производителя. От оригинального «Ридирис» Samsung Scan ORC отличается интерфейсом, урезанным функционалом и размерами – на жестком диске она занимает 40 МБ.

Онлайн-сервисы

Они являются альтернативой ресурсоемким стационарным программам для распознавания текста. Например, OCR программе FineReader. Свойства систем подобных проектов позволяют распознавать текст с изображений намного быстрее, чем на автономном ПК. Среди сервисов, занимающихся извлечением текста из фотографий, можно выделить 3 наиболее удобных: FineReaderOnline, FreeOCR, OnlineOCR.

Первый является прямым развитием стационарной версии продукта. При регистрации новому пользователю дается 10 бесплатных страниц для обработки и 5 каждый месяц. Снять это ограничение можно, купив годовую подписку за 3200, 5500, 17800 рублей за 2000, 5000 и 10000 страниц соответственно. Если у пользователя есть лицензия для FineReader 14, то ему достаточно зарегистрироваться и активировать ее для использования в онлайн-версии. В этом случае он получит количество страниц, соответствующее типу приобретенной лицензии: «Стандарт» (2000), «Бизнес» (5000) или «Энтерпрайз» (10000).

Если страниц недостаточно, то их можно приобрести в количестве 50-50 000 штук.

Проект FreeOCR.com отличается от предыдущего своей полной бесплатностью и отсутствием ограничений на количество обрабатываемых страниц. OCR-движок этого сайта поддерживает русский, украинский, турецкий, вьетнамский и все европейские языки – всего 29. Единственным недостатком этого портала является работа только с графическими изображениями, загружаемых последовательно, так как очередь обработки не предусмотрена создателями. Выводится распознанная информация без какого-либо форматирования в формате TXT.

Мнение пользователей об онлайн-OCR-сервисах

Эти сайты необходимы в тех случаях, когда загрузка и установка полноценной ORC-программы нецелесообразна. Например, для вставки в реферат нескольких объемных цитат из книги или журнала. Среди недостатков таких сайтов выделяют условную бесплатность (FineReader) и слабый функционал (FreeOCR,OnlineOCR).

Подводя итог, можно сказать, что OCR-программ распознавания текста с изображением или PDF-файлов создано немало, а в статье приведены лишь самые известные. Поэтому OCR-программу для сканера каждый пользователь сможет себе подобрать в соответствии с требованиями и бюджетом. Либо воспользоваться одним из множества бесплатных OCR-сервисов.

Вся правда об OCR

Любой современный деловой человек, постоянно работающий с документами время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации. Так были созданы системы, известные как системы оптического распознавания текста – Optical Character Recognition (OCR)…

Поколения программ OCR

В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha).

Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR, в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются фразы целиком.

Известные отечественные продукты

Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа.

Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD. Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода.

Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, т.к. их возможности во многом эквивалентны.

Перейдем к следующему заметному игроку на рынке OCR. Это продукт CuneiForm от российской компании Cognitive Technologies. Самый большой текущий минус этого проекта состоит в том, что ещё в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время.

Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов. Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, т.е. это – классическая OCR-система.

Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux. На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR, впрочем, в силу открытости ядра, эту систему также использует множество других OCR-продуктов, например OCRFeeder.

Зарубежные продукты

Первый их них – это пакет Readiris от компании I.R.I.S. Group, который представляет собой очень серьёзный OCR-продукт. Достаточно сказать, что начиная с cентября 2006 года технология от компании I.R.I.S. была лицензирована и используется в продуктах Adobe systems.

Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке. Нужно заметить, что это стороннее решение “похоронило” свою собственную разработку OCR-движка Adobe, которая поставлялась многие годы в рамках решения Aсrobat Capture, и вот теперь новый OCR Adobe доступен в виде отдельного плагина для других популярных продуктов Acrobat. Последняя версия Readiris – 12, поддерживаются все версии Windows и MacOS X и работа с более чем 120 языками.

Следующая крупная разработка от американской компании ExperVision, Inc – TypeReader. Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Этот движок распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (Document Imaging Management, DIM) и заканчивая участием во многих американских программах по автоматической обработке форм (Forms Processing Services, FPS).

Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows, MacOS, Linux), в виде корпоративного веб-сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.

Очень важная особенность этого решения состоит в том, что здесь на каждый подключенный язык используются собственные словари для усиления точности проверки распознанных слов и выражений. Продукт доступен как в виде веб-сервисов, так и в традиционном программном виде в 32- и 64-битных версиях для ОС Windows всех версий.

Бесплатные OCR-решения

Интересный собственный движок развивает и Google. Tesseract – это первоначально закрытый коммерческий OCR-движок, который создала Hewlett-Packard, работая над ним в промежутке между 1985 и1995 годами. Но после закрытия проекта и прекращения его развития, HP выпустила его код как open source в 2005 году.

Разработку сразу подхватила Google, лицензируя уже свой продукт под свободной лицензией Apache. На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих.

Нужно при этом четко представлять, что Tesseract – это классическая OCR для “сырой” обработки текста, т.е. в нем нет ни графической оболочки для удобного управления процессом, ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows, MacOS, Linux), на вход которой подается изображение в формате TIFF, а на выходе Tesseract выдает “чистый текст”.

При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме. Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например известные OCRopus или OCRFeeder.

Но все же хочется отметить, что качество бесплатного CuneiForm/OpenOCR немного превосходит показатели Tesseract, хотя во многом это полностью аналогичные продукты.

Кроме бесплатного Tesseract ещё стоит упомянуть и SimpleOCR. SimpleOCR очень достойное решение для OCR, и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract. Продукт бесплатен для любого некоммерческого использования, и поставляется для Windows всех версий. Из сильных минусов – поддержка только двух языков: английского и французского.

Кроме традиционных десктоповых бесплатных решений, существует множество альтернативных онлайн-сервисов, бесплатно предлагающих OCR и основанных на самых разных и экзотических движках, которые вы можете опробовать самостоятельно: CVisionTech, OnlineOCR, FreeOCR, OCRTerminal, GoodOCR.

Для успешного решения бизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса.

Что такое OCR

Представьте, вам надо оцифровать журнальную статью или распечатанный договор. Конечно, вы можете провести несколько часов, перепечатывая документ и исправляя опечатки. Либо вы можете перевести все требуемые материалы в редактируемый формат за несколько минут, используя сканер (или цифровую камеру) и программу для оптического распознавания символов (OCR).

Что подразумевают под технологией
оптического распознавания символов

Оптическое распознавание символов (англ. Optical Character Recognition – OCR) – это технология, которая позволяет преобразовывать различные типы документов, такие как отсканированные документы, PDF-файлы или фото с цифровой камеры, в редактируемые форматы с возможностью поиска.

Предположим, у вас есть бумажный документ, например, статья в журнале, брошюра или договор в формате PDF, присланный вам партнером по электронной почте. Очевидно, для того чтобы получить возможность редактировать документ, его недостаточно просто отсканировать. Единственное, что может сделать сканер, – это создать изображение документа, представляющее собой всего лишь совокупность черно-белых или цветных точек, то есть растровое изображение.

Для того чтобы копировать, извлекать и редактировать данные, вам понадобится программа для распознавания символов, которая сможет выделить в изображении буквы, составить их в слова, а затем объединить слова в предложения, что в дальнейшем позволит работать с содержимым исходного документа.

Какие принципы лежат в основе
технологии FineReader OCR?

Наиболее совершенные системы распознавания символов, такие как ABBYY FineReader OCR, делают акцент на использовании механизмов, созданных природой. В основе этих механизмов лежат три фундаментальных принципа: целостность, целенаправленность и адаптивность (принципы IPA).

Изображение, согласно принципу целостности, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Иначе говоря, ABBYY FineReader не пытается принимать решение, перебирая тысячи эталонов в поисках наиболее подходящего. Вместо этого выдвигается ряд гипотез относительно того, на что похоже обнаруженное изображение. Затем каждая гипотеза целенаправленно проверяется. И, допуская, что найденный объект может быть буквой А, FineReader будет искать именно те особенности, которые должны быть у изображения этой буквы. Как и следует поступать, исходя из принципа целенаправленности. Принцип адаптивности означает, что программа должна быть способна к самообучению, поэтому проверять, верна ли выдвинутая гипотеза, система будет, опираясь на накопленные ранее сведения о возможных начертаниях символа в данном конкретном документе.

Какая технология лежит в основе OCR?

Компания ABBYY, опираясь на результаты многолетних исследований, реализовала принципы IPA в компьютерной программе. Система оптического распознавания символов ABBYY FineReader – единственная в мире система OCR, действующая в соответствии с вышеописанными принципами на всех этапах обработки документа. Эти принципы делают программу максимально гибкой и интеллектуальной, предельно приближая ее работу к тому, как распознает символы человек. На первом этапе распознавания система постранично анализирует изображения, из которых состоит документ, определяет структуру страниц, выделяет текстовые блоки, таблицы. Кроме того, современные документы часто содержат всевозможные элементы дизайна: иллюстрации, колонтитулы, цветной фон или фоновые изображения. Поэтому недостаточно просто найти и распознать обнаруженный текст, важно с самого начала определить, как устроен рассматриваемый документ: есть ли в нем разделы и подразделы, ссылки и сноски, таблицы и графики, оглавление, проставлены ли номера страниц и т. д. Затем в текстовых блоках выделяются строки, отдельные строки делятся на слова, слова на символы.

Важно отметить, что выделение символов и их распознавание также реализовано в виде составных частей единой процедуры. Это позволяет в полной мере использовать преимущества принципов IPA. Выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами.

В системе ABBYY FineReader применяются классификаторы следующих типов: растровый, признаковый, контурный, структурный, признаково-дифференциальный и структурно-дифференциальный. Растровый и признаковый классификаторы анализируют изображение и выдвигают несколько гипотез о том, какой символ на нем представлен. В ходе анализа каждой гипотезе присваивается определенная оценка (так называемый вес). По итогам проверки мы получаем список гипотез, проранжированный по весу (то есть по степени уверенности в том, что перед нами именно такой символ). Можно сказать, что в данный момент система уже «догадывается», на что похож рассматриваемый символ.

После этого в соответствии с принципами IPA ABBYY FineReader проводит проверку выдвинутых гипотез. Это делается с помощью дифференциального признакового классификатора.

Кроме того, следует отметить, что ABBYY FineReader поддерживает 192 языка распознавания. Интеграция системы распознавания со словарями помогает программе при анализе документов: распознавание происходит более точно и упрощает дальнейшую проверку результата с учетом данных об основном языке документа и словарной проверки отдельных предположений. После подробной обработки огромного числа гипотез программа принимает решение и предоставляет пользователю распознанный текст.

FineReader OCR Pro — дебют лучшей OCR в OS X (+конкурс!)76

Приложение: FineReader OCR Pro | 3290 руб. | Для OS X

Флагманским продуктом компании ABBYY безусловно является система распознавания текстов FineReader. Компания, конечно, делает и словари Lingvo и много мобильных приложений, но для большинства знакомство с компанией началось именно с «Ридера». Пользователи OS X долгое время были вынуждены довольствоваться облегченной «экспресс-версией» программы. Но на днях, компания объявила о выходе полноценной версии программы, адаптированной для OS X.

Я сильно сомневаюсь, что есть люди, которые не знают, для чего нужен FineReader, но на всякий случай все-таки вкратце объясню. По-английски программы такого типа называют OCR (сокращение от «Optical Character Recognition») или по-русски «оптическое распознавание символов». Все дело в том, что многие задачи, которые кажутся элементарными для человека (ну для большинства людей), представляют большое затруднение для компьютера. Одним из главных примеров таких задач является распознание образов. Любой из нас способен без труда посмотреть на фотографию и сказать, что на ней изображено: кошка или собака. Для компьютера, в общем случае, эта задача фактически неразрешима. Дело тут, как вы понимаете, не в кошках и собаках (пример я выбрал произвольно), а вообще в неспособности компьютера «думать» образами. Разумеется, печатный и рукописный текст не стали исключением из этого правила: если у вас есть страница отсканированного или сфотографированного текста, то для компьютера она так и останется простым изображением, не имеющим больше никакого смысла.

Интерфейс программы спроектирован так, чтобы максимально упростить работу пользователей. Сразу после запуска FineReader предложит вам выбрать из готовых шаблонов задач, определяющих, откуда вы будете получать изображения, и в какой формат потом переводить распознанный текст. Источником могут быть как файлы изображений на вашем компьютере (или даже PDF-файлы без текстового слоя), так и любые внешние устройства, начиная со сканеров и заканчивая iPhone. Я жалею о том, что во времена моего студенчества технический прогресс не дошел до камерофонов. Представляете, как удобно: пришел в библиотеку, сфотографировал нужные страницы на iPhone, и за несколько минут распознал дома на MacBook с помощью FineReader.

В самом простом случае вам хватит автоматического режима работы: вы указываете то, что хотите подать на вход, через несколько минут на выходе получаете нужного формата документ. Но иногда документы имеют сложную структуру, и тогда требуется ручная доводка.

В этом случае лучше всего начать с создания нового документа FineReader, потом добавить в него страницы, выключив автоматическое распознание. Если качество изображений недостаточно — их можно улучшить, используя встроенные средства коррекции изображений. Они позволяют поправить яркость, контраст, разнообразные геометрические искажения, стереть ненужные элементы и многое другое.

Следующие шаги — распознание и экспорт текста — не представляют никаких трудностей.

Название: FineReader OCR Pro
Издатель/разработчик: ABBYY Production LLC/ABBYY USA Software House Inc
Цена: 3290 руб.
Встроенные покупки: Нет
Совместимость: OS X
Ссылка: Для OS X

Источник

Аналитический информационный портал

Что такое i r i s ocr

Как мы распознаем фото документов пользователей. Часть I

Минутка истории

Распознавание фото документов

Распознавание текста

Вся правда об OCR

Update

Что такое OCR и как оно помогает ускорить бизнес-процессы

Как компьютер распознает текст

Метод распознавания паттерна

Выявление признаков

Что делать с рукописным вводом

Шаги распознавания текста

Чему еще можно обучить OCR-систему

OCR-приложения со встроенными функциями перевода, и что это вообще такое

Iris ocr что это за программа

Программы OCR: распознавание текста, списки, разработчики, вес программы, выполняемые функции, характеристики, особенности работы и отзывы пользователей

Что такое OCR-программы и как они работают

ABBYY FineReader 14

Мнение пользователей о FineReader 14

OmniPage 18

Мнение пользователей об OmniPage

Read Iris Pro 17

Мнение пользователей о ReadIris

Samsung Scan OCR Program – что это за программа?

Онлайн-сервисы

Мнение пользователей об онлайн-OCR-сервисах

Вся правда об OCR

Что такое OCR

Что подразумевают под технологией
оптического распознавания символов

Какие принципы лежат в основе
технологии FineReader OCR?

Какая технология лежит в основе OCR?

FineReader OCR Pro — дебют лучшей OCR в OS X (+конкурс!)76

Добавить комментарий Отменить ответ

Как мы распознаем фото документов пользователей. Часть I

Минутка истории

Распознавание фото документов

Распознавание текста

Вся правда об OCR

Update

Что такое OCR и как оно помогает ускорить бизнес-процессы

Как компьютер распознает текст

Метод распознавания паттерна

Выявление признаков

Что делать с рукописным вводом

Шаги распознавания текста

Чему еще можно обучить OCR-систему

OCR-приложения со встроенными функциями перевода, и что это вообще такое

Iris ocr что это за программа

Программы OCR: распознавание текста, списки, разработчики, вес программы, выполняемые функции, характеристики, особенности работы и отзывы пользователей

Что такое OCR-программы и как они работают

ABBYY FineReader 14

Мнение пользователей о FineReader 14

OmniPage 18

Мнение пользователей об OmniPage

Read Iris Pro 17

Мнение пользователей о ReadIris

Samsung Scan OCR Program – что это за программа?

Онлайн-сервисы

Мнение пользователей об онлайн-OCR-сервисах

Вся правда об OCR

Что такое OCR

Что подразумевают под технологиейоптического распознавания символов

Какие принципы лежат в основетехнологии FineReader OCR?

Какая технология лежит в основе OCR?

FineReader OCR Pro — дебют лучшей OCR в OS X (+конкурс!)76

Вам также понравится

Что сначала красят потолок или потолочный плинтус

Что значит приставка гипо в химии

Что значит стейкать крипту

Добавить комментарий Отменить ответ

Что подразумевают под технологией
оптического распознавания символов

Какие принципы лежат в основе
технологии FineReader OCR?