« предыдущая статья | Все статьи | следующая »
Тест систем поиска
Индекс, запрос, релевантность
В основе современных технологий лежат два основополагающих процесса. Во-первых, это индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая программа (будь то настольный поисковик, корпоративная информационная система или Интернет поисковый движок) создает свою область поиска. То есть обрабатывает документы и формирует индекс этих документов (организованная структура, в которой содержится информация об обработанных данных). В дальнейшем именно созданный индекс используется для работы – быстрого получения списка нужных документов согласно запросу. Дальнейшее хоть и отнюдь не просто в плане технологии, но зато вполне понятно обычному пользователю. Программа обрабатывает запрос (по ключевому слову-фразе) и выводит список документов, в которых эта ключевая фраза содержится. Так как информация содержится в структурированном индексе, то обработка запроса проходит значительно (в десятки и сотни раз!) быстрее, чем в случае с прямым поиском (выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе).
Найденные документы программа выводит в результирующем списке согласно релевантности – соответствия документа тексту запроса. В различных технологиях, конечно, присутствуют различные методы поиска и определения релевантности документа (количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и так далее). На основе этих параметров определяется «вес» документа и, в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции. В случае с Интернет-поиском дело обстоит еще сложнее. Ведь в данном случае надо учитывать и множество иных факторов ( Page Rank Google тому пример). Но это тема для отдельной статьи, поэтому Интернет трогать не будем.
« предыдущая статья | Все статьи | следующая »
9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее.
Подробнее...
»
13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.
Softkey.info
Подробнее...
» Вся пресса
|