« предыдущая статья | Все статьи | следующая »
умная поисковая система
Тест систем поиска
Индекс, запрос, релевантность
В основе современных технологий лежат два основополагающих процесса. Во-первых, это индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая программа (будь то настольный поисковик, корпоративная информационная система или Интернет поисковый движок) создает свою область поиска. То есть обрабатывает документы и формирует индекс этих документов (организованная структура, в которой содержится информация об обработанных данных). В дальнейшем именно созданный индекс используется для работы – быстрого получения списка нужных документов согласно запросу. Дальнейшее хоть и отнюдь не просто в плане технологии, но зато вполне понятно обычному пользователю. Программа обрабатывает запрос (по ключевому слову-фразе) и выводит список документов, в которых эта ключевая фраза содержится. Так как информация содержится в структурированном индексе, то обработка запроса проходит значительно (в десятки и сотни раз!) быстрее, чем в случае с прямым поиском (выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе).
Найденные документы программа выводит в результирующем списке согласно релевантности – соответствия документа тексту запроса. В различных технологиях, конечно, присутствуют различные методы поиска и определения релевантности документа (количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и так далее). На основе этих параметров определяется «вес» документа и, в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции. В случае с Интернет-поиском дело обстоит еще сложнее. Ведь в данном случае надо учитывать и множество иных факторов ( Page Rank Google тому пример). Но это тема для отдельной статьи, поэтому Интернет трогать не будем.
SoftInform Search Technology ( умная поисковая система ) в первую очередь корпоративный инструмент поиска информации в локальной сети предприятия (документов практически любых форматов), информационных системах, СУБД, CRM и так далее. Важным преимуществом данной разработки является консолидация под своим управлением информации из различных источников. В SoftInform Search Technology (умная поисковая система) реализована система рубрикации (удобный и быстрый инструмент распределения любых документов по заданной тематике) и автокатегоризации документов – автоматического распределения новых документов по существующим рубрикам в соответствии с общим принципом похожести. Такой подход к организации и консолидации данных позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
« предыдущая статья | Все статьи | следующая »
Так, например, в базе из нескольких десятков тысяч документов нам нужно найти какую-либо информацию. Используя фразовый поиск, и даже идеально подбирая ключевые слова и фразы, добиться быстрого и адекватного результата практически не возможно. Чтобы получить какой-либо приемлемый результат нам придется просматривать документ за документом, выбирая новые ключевые слова и тратя время на изучение ненужной нам информации. Но гораздо проще было бы, найдя хоть один более-менее удовлетворяющий нас по тематике текст, нажать кнопку поиска похожих на него документов ( умная поисковая система ) …
9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее.
Подробнее...
»
13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.
Softkey.info
Подробнее...
» Вся пресса умная поисковая система
|