| Оcтавить заявку | (495) 981-63-11 | ![]() |
Обменная сеть «Новотеки»
|
КластеризацияОпределять степень сходства текстов очень важно при работе с новостями, в поиске по сайтам, в контентной фильтрации и во многих других случаях. Мы разработали целый комплекс технологий для сравнения и систематизации документов. КластеризацияВ Новотеке действует трехуровневая система объединения «похожих» новостей:
Объединение в сюжеты позволяет выявить те темы и события, о которых сегодня пишут, структурировать новостную картину дня. Новостной поток более чем за сутки обрабатывается очень быстро, примерно за 1 минуту, что позволяет обновлять сюжеты практически в реальном времени — раз в 5 минут. Разумеется, технология кластеризации позволяет выявлять похожие тексты не только среди новостей — возможны и разнообразные другие применения. Выявление дублейЕсли в Новотеке эта технология позволяет выявлять перепечатки новостей (см. ссылки: Эта же новость), то в Персональном поиске — избегать многократного индексирования вариантов одной и той же страницы. Распознаются не только в точности одинаковые документы, но и документы с измененными заголовками, с перестановкой абзацев, с незначительными добавками («Как сообщает...», «по данным...»), с пропущенным или немного измененным текстом. В Новотеке система определения дублей работает с базой данных в десятки тысяч документов, выявляя дубли в полном новостном потоке с «окном» в 5-10 дней. Выделение основной части веб-страницыЭта технология также основана на сравнении большого числа документов — в данном случае, страниц сайта. Она позволяет отделить основное содержание страницы от «обвязки» — навигационных меню, рекламных модулей, анонсов других страниц и прочих повторяющихся блоков и элементов, доля которых может достигать 60-70%! В результате выделения основного содержания страниц значительно повышается точность поиска, распознавания тематики и т. п. |
| © 2003-2011 Поисковые технологии | Контактная информация |
|