Оcтавить заявку (495) 981-63-11
 

Кластеризация

Определять степень сходства текстов очень важно при работе с новостями, в поиске по сайтам, в контентной фильтрации и во многих других случаях. Мы разработали целый комплекс технологий для сравнения и систематизации документов.

Кластеризация

В Новотеке действует трехуровневая система объединения «похожих» новостей:

  • сюжеты — новости на одну и ту же тему, об одном и том же событии;
  • подсюжеты — очень близкие по содержанию новости, часто восходящие к единому источнику;
  • дубли — перепечатки и варианты одной и той же новости.

Объединение в сюжеты позволяет выявить те темы и события, о которых сегодня пишут, структурировать новостную картину дня. Новостной поток более чем за сутки обрабатывается очень быстро, примерно за 1 минуту, что позволяет обновлять сюжеты практически в реальном времени — раз в 5 минут.

Разумеется, технология кластеризации позволяет выявлять похожие тексты не только среди новостей — возможны и разнообразные другие применения.

Выявление дублей

Если в Новотеке эта технология позволяет выявлять перепечатки новостей (см. ссылки: Эта же новость), то в Персональном поиске — избегать многократного индексирования вариантов одной и той же страницы.

Распознаются не только в точности одинаковые документы, но и документы с измененными заголовками, с перестановкой абзацев, с незначительными добавками («Как сообщает...», «по данным...»), с пропущенным или немного измененным текстом.

В Новотеке система определения дублей работает с базой данных в десятки тысяч документов, выявляя дубли в полном новостном потоке с «окном» в 5-10 дней.

Выделение основной части веб-страницы

Эта технология также основана на сравнении большого числа документов — в данном случае, страниц сайта. Она позволяет отделить основное содержание страницы от «обвязки» — навигационных меню, рекламных модулей, анонсов других страниц и прочих повторяющихся блоков и элементов, доля которых может достигать 60-70%!

В результате выделения основного содержания страниц значительно повышается точность поиска, распознавания тематики и т. п.