|
Гитика — вариант поисковой системы созданной в рамках одноимённого проекта. С поправкой на несопоставимые масштабы системы (количество серверов и, соответственно, число индексируемых сайтов), клиент получает функциональные возможности поиска сравнимые с предоставляемыми традиционными системами (Google, Yandex, Bing), но здесь привычный поиск по ключевым словам сочетается с концептуальным поиском. В этом смысле, Гитика "не хуже" прочих поисковых систем, и лучше их настолько, насколько пользователю нужен концептуальный поиск. Отличие концептуального поиска от традиционного можно проиллюстрировать следующими примерами:
Интерфейс системы имеет два поля для набора поискового запроса: "Словарный поиск" и "Концептуальный поиск". Первое поле служит для задания обычного текстового запроса, то есть для поиска документов с указанными словами. А второе поле — для поиска "по понятиям". Сначала система ищет в базе знаний понятия, соотвествующие такому запросу, а уже потом документы, которые найденные понятия содержат. Так, например, если пользователь в поле "Концептуальный поиск" набрал "ЖКХ" и в поле "Словарный поиск" — "мусор", система выдаст документы, связанные с жилищно-коммунальным хозяйством и со словами: мусор, мусора, мусоре, мусором, мусору. Если пользователь не согласен с этой интерпретацией, он может снять соответствующий значок и получить все статьи, содержащие только слово "мусор". В текущей версии Гитика различает около 650 тысяч понятий, которые диагностирует, используя более 10-и миллионов слов и словосочетаний. Исходную информацию об актуальных понятиях и их взаимосвязях система получает от экспертной системы Гитика, которая пополняется из множества источников. Наибольший вклад в пополнение базы знаний вносит экстракция данных из Википедии. Хотя данная версия системы ориентирована только на русскоязычные тексты, применяемый метод позволяет также работать с любыми языками, представленными в Википедии. В этом смысле можно говорить, что пополнением базы знаний системы занимаются несколько тысяч экспертов. Данная версия каждые полчаса индексирует более 4500 источников интернета. Индекс включает материалы с начала 1994 года по настоящее время — более 340 млн. документов из более чем 10000 источников. |
||
Copyright © 2007-2024 ООО «RelTeam» |