Доклады о будущих и современных технологиях
РАСПОЗНАВАНИЕ ТЕКСТОВОЙ ИНФОРМАЦИИ
Е. А. Летов, В. К. Маевский
Научный руководитель - В. К. Маевский, канд. техн. наук, доцент
Ярославский филиал МЭСИ
В процессе разработки комплексной системы управления предприятием, одной из областей деятельности является автоматизация документооборота. В ходе практической реализации возникли сложности в организации механизма оцифровки данных с бумажных носителей. Несмотря на огромное количество существующего на рынке программного обеспечения предназначенного для сканирования и распознавания текстов, все они не смогли удовлетворить потребности данного проекта. Большое количество специализированных символов в технической документации значительно снижает и без того невысокую эффективность распознавания текста. Решались задачи: распознавания обычной текстовой информации и текстовой информации в графических образах.
Распознавания обычной текстовой информации выполнялось с использованием нейронных сетей Хопфилда и Хэмминга. Используемая сеть состоит из двух слоев. Первый и второй слои имеют по т нейронов, где т
- число образцов. Нейроны первого слоя имеют по и синапсов, соединенных со входами сети (образующими фиктивный нулевой слой). Нейроны второго слоя связаны между собой ингибиторными (отрицательными обратными) синаптическими связями. Единственный синапс с положительной обратной связью для каждого нейрона соединен с его же аксоном. Идея работы сети состоит в нахождении расстояния Хэмминга от тестируемого образа до всех образцов. Расстоянием Хэмминга называется число отличающихся битов в двух бинарных векторах. Сеть выбирает образец с минимальным расстоянием Хэмминга до неизвестного входного сигнала, в результате чего будет активизирован только один выход сети, соответствуюЩиЙ этому образцу.
Распознавание текстовой информации в графических образах выполнялось с использованием четырех методов: метода сравнения с эталоном, метода, основанного на алгоритме скелетизации, метода инвариантных чисел и метода, основанного на использовании нейронных сетей.