Доклады о будущих и современных технологиях

АЛГОРИТМ БЫСТРОГО НАХОЖДЕНИЯ ЧАСТИЧНО ПОДОБНЫХ ТЕКСТОВ

Е. В. Шарапова

Научный руководитель - А. Л. Жизняков, д-р техн. наук, профессор Муромский институт Владимирского государственного университета

Одной из актуальных задач, возникающих в современном компьюте­ризированном обществе, является нахождение документов, полностью и частично похожих друг на друга. В связи с большим объемом текстов пря­мой поиск по словам - очень трудоемкая задача. Поэтому требуется ис­пользование более быстрых алгоритмов сравнения документов. Для этого можно использовать шинглы. Шингл в переводе с английского языка - «чешуйка». На такие «чешуйки», шинглы, делятся оба рассматриваемых текста. Деление на шинглы может осуществляться по-разному. Они могут идти друг за другом (встык), могут перекрывать друг друга (внахлест), мо­гут идти через некоторое расстояние друг от друга, пропуская несколько символов или слов. Шингл может содержать одну букву или одно слово, а может предложение или несколько предложений. От величины шингла за­висит качество и точность сопоставления документов. Чем больше ШиНгл, тем больше разброс вероятности заимствования. Это ведет к неправиль­ным результатам сравнения (вероятности совпадения). Если шингл ма­ленький (1-2 символа), то точность сравнения может быть очень высокой, но вычислительные мощности, затрачиваемые на реализацию системы сравнения с такими шинглами, могут быть слишком велики, ведь одна из главных задач использования шинглов - снизить трудоемкость сравнения документов. Уменьшение сравниваемого текста достигается путем коди­рования шингла, превращением его в какое-то число, например, с помо­щью алгоритмов CRC, MD5. Все коды шинглов документа формируют список кодов, по которому проводится сопоставление. Для ускорения сравнения из шинглов может быть сформирован супершингл, тоже пред­ставляющий собой числовой код. По кодам, полученным путем преобразо­вания шинглов или супершинглов, системой сравнения проводится сопос­тавление документов и определяется вероятность их совпадения. Разные методы деления текста на шинглы могут сильно отличаться по результа­тивности. Если шинглы идут друг за другом (встык), то их подвижка всего лишь одним-двумя символами может изменить весь текст до неузнаваемо­сти для системы сравнения документов, так как подвинутые шинглы будут содержать уже совсем другие слова и символы. Этого эффекта можно из­бежать, если применять метод наложения шинглов (внахлест), либо метод выборочного взятия ШиНглов.

Доклады о будущих и современных технологиях

Какая роль человеческого фактора в бизнесе будущего

В будущем роль человеческого фактора в бизнесе будет неотъемлемой. Технологии такие как Искусственный Интеллект и машинное обучение будут использоваться для автоматизации и оптимизации процессов в бизнесе. Однако их применение не …

Надежные системы хранения данных от «ОПТИМА-Сервис»

Современные организации полагаются на свои собственные информационные ресурсы для принятия важных бизнес-решений. Они используют мощные алгоритмы для извлечения полезной информации о клиентах и конкурентах из неструктурированных данных.

Технологии «Умный дом».

Технология «Умный дом» создавалась с одной целью – экономия времени, которое тратится на домашнюю рутинную работу. Новые технологии, применяемые в системе умного дома, поражают своим многообразием. С помощью, так называемой …

Как с нами связаться:

Украина:
г.Александрия
тел./факс +38 05235  77193 Бухгалтерия

+38 050 457 13 30 — Рашид - продажи новинок
e-mail: msd@msd.com.ua
Схема проезда к производственному офису:
Схема проезда к МСД

Партнеры МСД

Контакты для заказов оборудования:

Внимание! На этом сайте большинство материалов - техническая литература в помощь предпринимателю. Так же большинство производственного оборудования сегодня не актуально. Уточнить можно по почте: Эл. почта: msd@msd.com.ua

+38 050 512 1194 Александр
- телефон для консультаций и заказов спец.оборудования, дробилок, уловителей, дражираторов, гереторных насосов и инженерных решений.