Проблема перехода от формальных методов обработки текстов к
содержательному анализу, позволяющему, в частности, оперировать не
ключевыми словами, а понятиями, последние десять лет считается самой
значимой в сфере обработки информации. С ней связываются грядущие
трансформации мировой сети – создание модели интернета основанного на
семантических связях (Web 3.0), переход от контекстной к поведенческой
рекламе, появление фактографического поиска и многие другие.
Количество научных работ по данной теме, превышает все мыслимые пределы.
Ведущие IT-компании, второе десятилетие регистрируют сотни патентов
каждый год, пытаясь обеспечить себе лучшие позиции в будущих патентных
войнах.
Однако, столь значимая активность в научной и патентной сферах
совершенного не сочетается с практическими результатами десятилетия,
если, конечно, не считать стандартизацию микроформатов для записи
контактных данных, дат и телефонов.
Все это может вызывать обоснованные сомнения, в правильности выбранного
пути решения поставленной задачи.
С точки зрения сложившийся инфраструктуры данного научного направления,
когда второе поколение преподавателей учит студентов «правильным
методам», гарантированно не дающим результатов, проект
Гитика следует признать отдельным
альтернативным направлением.
Основное, что может привлекать внимание к этой работе, — наличие
действующих программных систем, которые можно смотреть, обсуждать и
критиковать.