Распознавание рукописного ввода. Создание технологии распознавания рукописного текста (обновлено)

Распознавание рукописного текста

Распознавание рукописного текста - технология преобразования символов рукописного текста в последовательность кодов.

По-английски: Handwriting recognition

  • - определение типа и государственной принадлежности воздушной цели. Осуществляется путём анализа данных о параметрах движения и поведении в полёте, характере излучений, месте и времени пуска и иных данных,...

    Словарь военных терминов

  • - обмен соответствующими сигналами между особями...

    Экологический словарь

  • - ...

    Энциклопедический словарь нанотехнологий

  • - процесс преобразования речи в текст. Системы распознавания речи характеризуются: - объемом словаря понимаемых слов; - допустимой беглостью речи...

    Финансовый словарь

  • - одна из новых обл. кибернетики. Содержанием теории Р. о. является экстраполирование свойств объектов, принадлежащих к нескольким классам, на объекты, близкие к ним в некотором смысле...

    Геологическая энциклопедия

  • - научно-технич. направление, связанное с разработкой принципов и построением систем, предназнач. для определения принадлежности нек-рого объекта к одному из заранее выделенных классов объектов...

    Большой энциклопедический политехнический словарь

  • - см. Диагноз...

    Энциклопедический словарь Брокгауза и Евфрона

  • - научное направление, связанное с разработкой принципов и построением систем, предназначенных для определения принадлежности данного объекта к одному из заранее выделенных классов объектов. Под объектами...

    Большая Советская энциклопедия

  • - в технике - научно-техническое направление, связанное с разработкой методов и построением систем для установления принадлежности некоторого объекта к одному из заранее выделенных классов объектов...

    Большой энциклопедический словарь

  • - Модель имеет комплексный характер, отражает коммуникативный подход. В рамках модели единицы всех уровней текста связывают отношения ассоциативной корреляции по вертикали и отношения иерархии по горизонтали...

    Словарь лингвистических терминов Т.В. Жеребило

  • - РАСПОЗНА́ТЬ, -а́ю, -а́ешь; -о́знанный; сов., кого-что. Узнать по каким-н. признакам, определить. Р. болезнь. Р. чьи-н. намерения. В темноте не распознал знакомого...

    Толковый словарь Ожегова

  • - РАСПОЗНАВА́НИЕ, распознавания, мн. нет, ср. . Действие по гл. распознавать. || Постановка диагноза. Наука о распознавании болезней называется диагностикой...

    Толковый словарь Ушакова

  • - распознава́ние I ср. 1. процесс действия по гл. распознавать I 2. Результат такого действия. II ср. 1. процесс действия по гл. распознавать II 2. Результат такого действия...

    Толковый словарь Ефремовой

  • - распознав"...

    Русский орфографический словарь

  • - ...

    Формы слова

  • - опознавание, признание, опознание, различение, определение, отождествление...

    Словарь синонимов

"Распознавание рукописного текста" в книгах

Из рукописного наследия Андрея Сахарова

Из книги Симметрии в несимметричной вселенной Андрея Сахарова автора Горелик Геннадий Ефимович

Из рукописного наследия Андрея Сахарова Лучше один раз увидеть, чем сто раз услышать, и чтобы помочь 13-летним американцам понять русского физика-гуманиста, я захватил с собой две его маленькие рукописи. Я надеялся, что они помогут связать невероятные повороты Сахаровской

Из рукописного наследия

Из книги Человек. Цивилизация. Общество автора Сорокин Питирим Александрович

Из рукописного наследия

Приложение: Чёрный Перун (Из рукописного волховника»)

Из книги ЖИВЫЕ ВЕДЫ РУСИ. ОТКРОВЕНИЯ РОДНЫХ БОГОВ автора Черкасов Илья Геннадьевич

Приложение: Чёрный Перун (Из рукописного волховника») Имя Его – Сила. Навии Его – вокруг нас. Он придёт, когда замкнётся коло. Он могуч не только силою Своих рук и ног, но и Разумом, Родом дарованным. Ибо пришёл Он из земель, куда Даждьбог златогривого коня Своего спать

Из книги Том 15 автора Энгельс Фридрих

ИЗ РУКОПИСНОГО НАСЛЕДСТВА Ф. ЭНГЕЛЬСА

ИЗ РУКОПИСНОГО НАСЛЕДСТВА К. МАРКСА и Ф.ЭНГЕЛЬСА

Из книги Том 18 автора Энгельс Фридрих

ИЗ РУКОПИСНОГО НАСЛЕДСТВА К. МАРКСА и Ф.ЭНГЕЛЬСА

Из книги Том 6 автора Энгельс Фридрих

ИЗ РУКОПИСНОГО НАСЛЕДСТВА К. МАРКСА и Ф. ЭНГЕЛЬСА Первая страница рукописи К. Маркса «Заработная

ИЗ РУКОПИСНОГО НАСЛЕДСТВА Ф. ЭНГЕЛЬСА

Из книги Том 5 автора Энгельс Фридрих

ИЗ РУКОПИСНОГО НАСЛЕДСТВА Ф. ЭНГЕЛЬСА Первая страница рукописи Ф. Энгельса «Из Парижа в

ИЗ РУКОПИСНОГО НАСЛЕДСТВА К. МАРКСА и Ф. ЭНГЕЛЬСА

Из книги Том 19 автора Энгельс Фридрих

ИЗ РУКОПИСНОГО НАСЛЕДСТВА К. МАРКСА и Ф. ЭНГЕЛЬСА

Если вам необходимо перевести ранее напечатанный текст в электронную форму, то сегодня вам не потребуется набирать его на клавиатуре. Современные технологии существенно упрощают этот процесс. Достаточно отсканировать его или сфотографировать, и обработать специальной программой - распознавателем текста.

Давно прошло то время, когда для получения электронной копии печатного текста, приходилось набирать его на клавиатуре, символ за символом, буква за буквой. Сегодня печатный текст достаточно положить на сканер, нажать одну кнопку, и уже через несколько секунд у вас будет его электронная копия, как будто кто-то уже набрал его для вас. Как же это стало возможным? Как работает распознавание текста?

Системы распознавания текста или OCR-системы (Optical Character Recognition) предназначены для автоматического ввода документов в компьютер. Это может быть страница книги, журнала, словаря, какой-то документ - все, что угодно, что было уже напечатано, и должно быть преобразовано обратно в электронную форму.

OCR-системы распознают текст и различные его элементы (картинки, таблицы) с электронного изображения. Изображение получается обычно путем сканирования документа и реже - его фотографированием. Поступившее изображение обрабатывается алгоритмом OCR-программы, выделяются области текста, изображений, таблиц, отделяется мусор от нужных данных.

На следующем этапе каждый символ сравнивается со специальным словарем символов, и если находится соответствие, то этот символ считается распознанным. В итоге вы получаете набор распознанных символов, то есть искомый текст.

Современные OCR-системы представляют собой достаточно сложные программные решения. Ведь текст может быть замусорен, искажен, загрязнен, и программа должна это учитывать и уметь правильно обрабатывать такие ситуации. Кроме того, современные OCR-системы позволяют также получить копию печатного документа в электронном виде с сохранением форматирования, стилей, размеров текста и видов шрифтов и т.д.

ABBYY FineReader 9.0 Home Edition

Система распознавания текста ABBYY FineReader - это многофункциональная программа для перевода бумажных документов, pdf-файлов, фотографий в редактируемые форматы. Эта версия известной программы для распознавания текста специально предназначена для домашнего пользователя, простая и удобная в использовании. В ней отсутствуют лишние функции и сложные настройки, а интерфейс рассчитан даже на неподготовленного пользователя. Если вам нужно время от времени быстро получать электронные копии страниц каких-то учебников, книг, документов - эта версия OCR-программы для вас.

ABBYY FineReader 9.0 Professional Edition

Эта версия программы ABBYY FineReader для распознавания текста подойдет для использования в офисе или в учебном заведении, а также для продвинутых пользователей, кто хотел бы иметь возможность задавать множество настроек и активно участвовать в процессе распознавания текста. Возможности программы позволяют вам отсканировать и распознать документы, проверить результат распознавания на ошибки, исправить их автоматически или вручную, и сохранить документ в одном из множества форматов (txt, doc, pdf и др.). Программа умеет работать с сетью: пересылать документы по электронной почте, размещать их в хранилища информации, использовать сетевое оборудование (сканеры и МФУ).

ABBYY FineReader 9.0 Corporate Edition

Специальная версия программы ABBYY FineReader для распознавания текста, предназначенная для использования в крупных фирмах, для организации электронных архивов документов. Система позволяет организовать полноценную работу по распознаванию текста внутри большой компании, размещение результатов в электронных хранилищах, использование сетевого оборудования.

ABBYY Business Card Reader

Эта программа предназначена для мобильных устройств (смартфонов), позволяющая быстро вводить в записную книжку контактную информацию с визитных карточек. ABBYY Business Card Reader будет удобна для деловых людей, бизнесменов, менеджеров, всех, кто часто сталкивается с визитными карточками. Программа поддерживает 16 языков.

Readiris 12 Pro

Readiris Pro - многофункциональная OCR-система, которая подойдет как домашним пользователям, так и профессионалам. При помощи этой программы вы можете быстро преобразовать любой документ, PDF-файл, изображение в редактируемый текст, и затем сохранить его в один из множества популярных форматов. Программа имеет простой и приятный интерфейс со множеством дополнительных возможностей и полезных инструментов: сжатие файлов, работа с изображениями, функции экспорта, и др.

Readiris 12 Corporate

- OCR-система, которая специально предназначена для использования в крупных компаниях, офисах, а также для создания электронных архивов. Программа обладает теми же возможностями, что и версия Readiris Pro, плюс еще дополнительные инструменты и настройки для работы с сетью и сетевым оборудованием. Поддерка азиатских языков, иврита, фарси устанавливается отдельно.

OCR-система, которая распространяется совершенно бесплатно. Программа обладает множеством возможностей, практически не уступая коммерческим версиям. В данный момент SimpleOCR умеет распознавать тексты на английском и французском языках.

Ввод китайских иероглифов при помощи мыши или планшета

- полезная программа для тех, кто работает с китайским языком. NJStar Chinese Pen позволяет вводить китайские иероглифы простым рисования их при помощи мыши или планшета. Это намного быстрее и удобнее, чем набирать иероглифы на клавиатуре по определенным правилам.

Программа поддерживает как китайский традиционный, так и китайский упрощенный. Набранный текст можно озвучивать (произносить) при помощи встроенного speech-движка. Все параметры программы полностью настраиваются.

NJStar Chinese Pen поддерживает все версии операционной системы Windows. Для работы программы требуется примерно 50 Мб свободного места на жестком диске.

ArioForm

MyScript Studio

MyScript Studio - решение для оцифровки документов и заметок, созданных «от руки». Программа будет полезна всем деловым людям, менеджерам, журналистам, и всем остальным, кто часто делает рукописные заметки. При помощи этой программы вы сможете быстро перевести в электронную форму все ваши заметки, записи и рукописные документы, распознать текст и организовать электронный архив.

Распознавание рукописного текста MyScript Stylus

MyScript Stylus - программа для распознавания рукописного текста. Текст можно вводить при помощи мыши или планшета. Программа распознает текст по технологии, применяющейся в кпк, и может использоваться там, где нет возможности использовать стандартную клавиатуру или ее использование затруднено (например, если компьютер используется как терминал для ввода/вывода информации, как платежный терминал). Вы можете закрепить MyScript Stylus за определенной программой, и весь распознаваемый текст будет передаваться ей, как-будто текст вводится стандартным способом. MyScript Stylus поддерживает 26 языков.

PenOffice

PenOffice - программа для распознавания рукописного текста. PenOffice был специально создан для интеграции с программами пакетов Microsoft Office и OpenOffice, но позволяет вводить распознанный текст также и в другие программы. Программа позволяет распознавать 9 языков: английский, испанский, итальянский, голландский, французский, немецкий, норвежский, португальский и шведский.

CalliGrapher

CalliGrapher - программа ввода рукописного текста для кпк и смартфонов под управлением Windows Mobile. Программа распознает рукописный текст и сразу же вводит его в текстовый редактор в выбранном стиле. Вы можете писать текст в любом месте экрана. CalliGrapher имеет встроенную виртуальную клавиатуру, систему проверки правописания и многоязыковую поддержку.

Онлайновое распознавание

Интерфейс онлайнового распознавания обычно состоит из:

  • ручки или стилуса, которым пользователь осуществляет ввод
  • поверхности, чувствительной к касаниям, которая может быть интегрирована с дисплеем
  • программного обеспечения, которое интерпретирует движения стилуса по пишущей поверхности, переводя получившиеся линии в цифровой текст

Распознавание рукописного ввода широко используется в КПК . Первым КПК, который был способен распознавать рукописный ввод, является Apple Newton .

Устройства

Серийные устройства, в которых в качестве альтернативы традиционному вводу с помощью клавиатуры использовался ввод рукописного текста появились в начале 1980-х. Это были, например, терминалы с рукописным вводом, такие как Pencept Penpad и Inforite point-of-sale terminal . С расширением рынка персональных компьютеров появились несколько коммерческих продуктов, призванных заменить клавиатуру и мышь на персональных компьютерах единственной системой, предоставляемые PenCept , CIC and others. Первым, находящимся в открытой продаже, планшетным компьютером был GRiDPad от GRiD Systems, выпущенный в сентябре 1989. Его операционная система была основана на MS-DOS .

В начале 90-х производители аппаратного обеспечения, включая NCR, IBM и EO, выпустили планшетные компьютеры с операционной системой PenPoint, разработанной GO Corp. PenPoint использовала рукописный ввод повсюду и обеспечивала совместимость со сторонним программным обеспечением. Планшетный компьютер IBM был первым использующим ThinkPad и распознавание рукописного текста IBM. Эта система распознавания была позже портирована в Microsoft Windows for Pen Computing и IBM"s Pen для OS/2 . Ни одна из этих технологий не имела коммерческого успеха.

Развитие электроники позволили вычислительной мощности, необходимой для распознавания рукописного ввода, умещаться в меньшие размеры, чем у планшетных компьютеров, и использовать распознавание рукописного текста в качестве средства ввода для PDA . Первым PDA , обеспечивающим письменный ввод, был Apple Newton , который продемонстрировал общественности достоинства такого рода пользовательского интерфейса. Однако устройство не было коммерчески удачным вследствие несовершенства программного обеспечения, которое должно было пытаться изучить манеру письма пользователя. После разрыва с Apple Newton , технология была портирована в Mac OS X 10.2 и более поздние в виде технологии Inkwell (Macintosh).

Современная система распознавания рукописного текста включается в операционные системы Microsoft , используемые на планшетных компьютерах (см. Windows XP Tablet PC Edition и Windows Vista). Она основана на TDNN-классификаторе, названном «Inferno», созданном в Microsoft . Позже версия CalliGrapher, распознающего рукописных ввод программного обеспечения, используемого в Newton OS 2.0, была включена в качестве вторичного распознавателя. Новое поколение CalliGrapher в настоящее время разрабатывается для Windows Mobile корпорацией PhatWare.

Технология распознавания рукописного ввода «третьего поколения» riteScript, разработанная корпорацией EverNote в 2000-2004, включается в ritePen and EverNote. ritePen также включает технологию, позволяющую комбинировать riteScript со встроенным распознаванием рукописного текста Windows Vista , чтобы улучшить точность распознавания каждого движка распознавания рукописного текста.

Хотя распознавание рукописного текста - средство ввода, к которому уже привыкла общественность, оно ещё не достигло широкого распространения в настольных компьютерах и ноутбуках. Все ещё считается, что ввод с помощью клавиатуры быстрее и надежнее. Сейчас существует множество PDA, поддерживающих иногда и естественный рукописный почерк, но точность все ещё не является очень высокой, из-за чего некоторые люди находят даже простую экранную клавиатуру более эффективной.

Оффлайновое распознавание

Этот вид распознавания успешно применяется в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов, к примеру, в страховых компаниях. Качество распознавания можно повысить, используя структурированные документы (формы). Кроме того, можно улучшить качество, уменьшив диапазон возможных вводимых символов. Оффлайновое распознавание считается более сложным по сравнению с онлайновым.

Примечания


Wikimedia Foundation . 2010 .

  • Улица Коновальца (Львов)
  • Больше-Дорохово

Смотреть что такое "Распознавание рукописного ввода" в других словарях:

    Распознавание рукописного текста - Распознавание рукописного ввода это способность компьютера получать и интерпретировать интеллектуальный рукописнный ввод. Распознавание текста может производится «оффлайновым» методом из уже написанного на бумаге текста (см. оптическое… … Википедия

    Распознавание - образов Оптическое распознавание символов Распознавание рукописного ввода Распознавание речи … Википедия

    распознавание символов - Операция преобразования текстовой информации из графических форматов данных в текстовые. Применяется для ввода текстов в компьютер посредством сканирования печатного или рукописного материала. Тематики информационные… …

    Способы ввода китайских иероглифов - Клавиатура способа Уби (пять черт). Способы ввода китайских иероглифов определяют использование стандартного интерфейса компьютера для ввода большого (более 80 тысяч) количества иероглифов китайского языка. Методы, использующие стандартную компь … Википедия

    Оптическое распознавание символов - (англ. optical character recognition, OCR) механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные последовательность кодов, использующихся для представления символов в… … Википедия

    Устройство ввода вычислительной машины, обеспечивающее считывание, распознавание и ввод в ЭВМ стилизованного или произвольного рукописного текста. [ГОСТ 25868 91] Тематики оборуд. перифер. систем обраб. информации … Справочник технического переводчика

    устройство ввода рукописного текста - 41 устройство ввода рукописного текста: Устройство ввода вычислительной машины, обеспечивающее считывание, распознавание и ввод в ЭВМ стилизованного или произвольного рукописного текста

Разработчик:

Во все времена людям была присуща лень, а с появлением техники тяга излишне расслабиться усилилась ешё больше. Если раньше люди с удовольствием использовали сенсорную клавиатуру смартфона, наслаждаясь простотой и удобством такого способа ввода текста, то теперь почти никто не хочет утруждать себя даже этим.

Простота и удобство - вот главный девиз устройств начала двадцать первого века. Что может быть лучше, чем взять стилус и написать своей рукой текст, который будет корректно распознан смартфоном? Я думаю, ничего. Именно поэтому сегодня я предлагаю поговорить об одной из таких совершенных программ для распознавания рукописного текста - PenReader .

Penreader - приложение не бесплатное, но, как мне кажется, его стоит купить из - за его некоторых неоспоримых преимуществ:

  • Поддержка русского языка
  • Поддержка всех версия Android
  • Возможность использовать PenRader в любом приложении
  • Возможность создания макросов

Эти преимущества просто неоспоримы, так как я не смог отыскать ни одного приложения, которое имело бы все эти возможности. Самое главное - PenReader поддерживает русский язык, поэтому это приложение очень широко распространено в России.

Теперь я расскажу подробнее о том, как работать с PenReader.

Работа с приложением

После установки PenReader из Google Play , нам нужно выбрать язык распознавания, зайдя в меню приложения:

Хочу обратить ваше внимание, что для установки всех языков, кроме Английского, приложению требуется скачать специальную библиотеку.dll из Интернета, а ваш оператор может взять с вам за это деньги. Так что, будьте внимательны.

После установки нужного языка первое, что нужно сделать - опробовать распознавание текста.

Чтобы начать писать текст, нужно прикоснуться к полю ввода текста. После этого, вы перейдёте непосредственно на рабочий экран приложения PenReader , на котором вы увидите само поле рисования и некоторые кнопки:

  • «Конфигурация» - нажимая на эту кнопку, вы можете переключаться между языками ввода. Учтите, что выбирать можно только из тех языков, которые отмечены как "Активные" (см. выше)
  • «Назад» - нажав на эту кнопку единожды, ваш указатель будет перемещён на один символ назад. Чтобы перейти в начало строки, нужно удерживать эту кнопку
  • «Пробел» - вставляет пробел на том месте, где находится курсор.
  • «Стереть» - нажав на эту кнопку один раз, вы удалите символ перед курсором. Чтобы удалить всю строку, нужно удерживать кнопку
  • «Дополнительно» -открывает и скрывает дополнительные кнопки:

-«Hide» - нажав на эту кнопку, Вы выйдите из рабочего экрана PenReader.

-«Alt» - Переключает режимы ввода. Всего доступна два режима: ввод букв и ввод спецсимволов

-«Верхний регистр» - Если нажать на эту кнопку, то вы введёте следующую букву в верхнем регистре. При повторном нажатии все буквы, введённые вами станут заглавными (функция, аналогичная функции клавиши Caps Lock).

Penreader поддерживает разные режимы распознавания рукописного текста. Всего их 4:

  • Слитное распознавание позволяет пользователю писать слова и даже целые предложения привычным для него образом - не отрывая руки от "листа"
  • Побуквенное распознавание позволяет распознавать только ожин символ за определённый промежуток времени. Пытаться вводить несколько букв не имеет смысла - PenReader попытается распознать их как один символ
  • Интеллектуальное распознавание позволяет корректировать результаты распознавания
    прямо в процессе письма. Например, писать букву "А" можно так:
  1. Сначала ввести символ "/"
  2. Затем ввести символ "\"
  3. А после этого поставить между ними чёрточку "-"
    В этом случае программа будет работать так: распознает ввод символа «слэш», затем исправит его на букву Л, а затем - на А.
  • Раздельное распознавание даёт программе сигнал, что каждый написанный вами штрих будет распознан как единый символ. Этот способ немного схож с Побуквенным распознаванием

По умолчанию в приложении установлен режим Интеллектуального распознавания, поэтому, если он вам не подходит, то обязательно смените его перед началом работы.

Ниже вы видите пример побуквенного распознавания:

Настройки приложения

Некоторые пункта настроек мы уже рассмотрели выше, поэтому сейчас я расскажу только тех вещах, о которых мы ещё не говорили.

В настройках приложения PenReader есть раздел "Настройка распознавания". В него входят следующие подпункты:

Также мы можем увидеть раздел "Оформление":

  • Толщина линии - задаёт толщину линии, выводим на рабочем экране PenReader. Она может колебаться от 1 до 30 пикселей
  • Цвет линии - изменяет цвет линии на экране PenReader
  • Расположение экранной клавиатуры - изменяет расположение кнопок на рабочем экране при ландшафтной ориентации планшета
  • Прозрачность экранной клавиатуры - настраивает уровень прозрачности кнопок на экране ввода

Мы видим очень гибкую систему настроек. С её помощью мы можем подстроить приложение, что называется "под себя", до мельчайших деталей.

13 января 2012 в 15:37

Распознавание непрерывного рукописного текста в режиме off-line

  • Искусственный интеллект
Предисловие
Как известно, задача распознавания непрерывного рукописного текста в режиме off-line пока считается нерешённой.

Мне удалось решить эту задачу теоретически и практически. Практическая часть сейчас имеет вид демонстрационной версии программы. Решение общее, оно не ограничивается какой-либо областью применения, языком или размером словаря.

О программе
Программа полностью обучаемая. Процесс обучения выглядит просто: вы пишете символы в режиме on-line, программа их обобщает и выделяет алгоритм написания. Это первый этап обучения. Второй этап происходит во время работы. Если встречается символ, общий алгоритм написания которого совпадает с одним из имеющихся в наличии, а значения некоторых свойств выходят за рамки вычисленных на первом этапе диапазонов, то диапазоны расширяются. Конечно, только после подтверждения пользователем общего результата распознавания. К слову сказать, на первом этапе достаточно от трёх до семи предъявлений символа, и алгоритм готов.
Теория
Немного о теории. Существует несколько подходов к решению указанной задачи. Их обычно делят на два вида: структурные и эталонные. Первый основан на выделении и анализе различных структурных элементов символа и их признаков, свойств. Второй предполагает сравнение распознаваемого символа с набором заданных эталонов. Эти методы не позволяют решить задачу в общем виде.

Задача рукописного ввода в режиме on-line полностью и успешно решена. Это решение основано, в любом случае, на создании алгоритмов написания символов, учитывающих траекторию движения пера. То есть, последовательность смены его координат. Были предложения свести задачу распознавания в off-line режиме к распознаванию в режиме on-line. Для этого достаточно правильно считать линии с графической копии текста. Но сделать это принципиально невозможно. Можно считать отрезки линий между пересечениями, но чтобы их правильно соединить, уже нужна интерпретация.

Остаётся только одно решение - восстанавливать символы в процессе интерпретации отрезков, полученных на этапе считывания с цифровой графической копии текста. Для этого нужны две составляющие: специальное представление алгоритма написания символа, позволяющее это делать, и алгоритм интерпретации отрезков, способный проанализировать все возможные варианты интерпретации.

Практика
Это удалось сделать в полной мере. Как известно, главная задача демоверсии - продемонстрировать принципиальное решение поставленной задачи. На что в этом смысле способен тот прототип, который имеется сейчас? Программа способна распознавать одно слово, написанное произвольным непрерывным почерком на белой бумаге. Для перевода в цифровой файл слово может быть либо отсканировано, либо сфотографировано веб-камерой или цифровым фотоаппаратом. В принципе, уже сделано и распознавание текста, но эта функция требует доработки.

Ниже приведены примеры распознаваемых слов. Как видно, здесь не только обычное написание, но и «усложнённые» варианты: перечёркнутые слова, символы, написанные отрезками, имеющие лишние части и тому подобное. Это показывает, что в полностью готовом виде программа будет способна распознавать достаточно зашумлённые тексты.

Очевидно, что уверенно распознать можно только те символы, которые имеют все необходимые части примерно на своих местах. Если имеются недостающие или сильно искажённые части, то необходима интерпретация на уровне слов. Наличие словаря повышает процент распознавания, но не решает всех проблем. Бывают такие случаи, когда без понимания смысла фразы некоторые слова однозначно интерпретировать невозможно. Для этого нужна система искусственного интеллекта, способная понимать смысл фраз естественного языка. До недавнего времени информации о наличии таких систем на рынке не было. Сейчас уже есть: фирма ABBYY объявила о создании системы «Compreno» , в которой для перевода используется смысловая интерпретация фраз на основе «модели мира», не зависимой от конкретного языка.

У меня тоже есть прототип системы ИИ, способной понимать смысл текста. Если судить по той информации о «Compreno», которая сейчас есть в СМИ, моя система функционально гораздо шире. Она обучаема, способна к обобщению информации и к активному поиску знаний в случае, когда их не хватает для выполнения поставленной задачи. Другими словами, такая система вполне способна работать личным секретарём. Но у неё есть один серьёзный недостаток по сравнению с «Compreno» - по степени общей готовности она пока не дотягивает даже до демоверсии.

Коммерция
И в конце немного о коммерческой стороне проекта. В интернете есть интервью вице-президента компании ABBYY Lingvo Арама Пахчаняна. В отношении задачи распознавания непрерывного рукописного текста в режиме off-line там сказано, по сути, что эту задачу и не надо решать. Затраты на её решение (надо полагать, очень большие) не окупятся. И, похоже, в основном потому, что непрерывное писание фирма ABBYY Lingvo практически уже сделала неактуальным. Она полностью решила проблему распознавания раздельного рукописного текста, и на все случаи жизни разработала соответствующие бланки.

Возможно, это была шутка. Но всё равно, имеет смысл сказать следующее. Писать привычным непрерывным почерком удобнее и легче, чем вписывать буквы в квадратики. Если компьютер будет распознавать первое не хуже второго, то второе уйдёт в прошлое так же как перфокарты, чёрно-белые телевизоры и плёнки для фотоаппаратов.

В следующем короткое видео можно увидеть программу в действии. Возможно, это будет интересно.

Заключение
И ещё один важный момент – показатели эффективности, а именно, время и процент распознавания. Конечно, в демоверсии основное внимание уделялось второму критерию. Сейчас достигнут уровень не ниже 70%. В готовом варианте этот показатель можно сформулировать так: если человек сможет прочитать текст, то и программа тоже. О времени распознавания пока можно сказать только то, что его удастся довести до приемлемых величин.

Если всё пойдёт хорошо, будут ещё статьи о некоторых технических аспектах распознавания текста и об ИИ.

Благодарю за внимание.
____________
Update.
Дорогие хабравчане! Спасибо всем за фидбек, нам это очень важно и полезно. В целом топик был встречен положительно, что не может не радовать.

Негодующим личностям хотелось бы сказать: уважаемые, мы не ярмарочные фокусники. Мы отдаём отчёт в своих словах. Если мы написали, что в готовом продукте точность распознавания будет стремиться к 100%, значит мы в этом уверены.

Эту статью можете считать анонсом, у неё не было цели подробно раскрыть все технические подробности. Однако учитывая проявленный интерес, через некоторое время будет ещё одна статья, более подробно описывающая процесс распознавания.

Также будет доступная для скачивания демонстрационная версия программы.

Loading...Loading...