Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация в журнале Домашний компьютер

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Тихая революция

Российская линейка продуктов SearchInform незаменима в любом секторе, будь то корпоративная сеть предприятия или простой домашний компьютер. Десктопная версия (2,9 Мбайта) предлагается в двух модификациях: Standard (1500 руб.) и Professional (3000 руб.). Функциональные отличия обычной версии от профессиональной: нет возможности слияния и дефрагментации созданных индексов, ограничения поиска в источниках данных и отсутствие рубрикатора документов. Для особо скаредных граждан предлагается бесплатная версия, умеющая создавать только один индекс.

Фирменная технология7 позволяет работать с различными источниками информации, которая может содержаться не только в файловых форматах (включая PDF, HTM и HTML), но и в базах данных большинства распространенных информационных систем (Access, MS SQL, Oracle и SQL). Для вящей конкретизации поиска наличествует функция использования списков синонимов и выделения так называемых «важных слов».

По окончании установки и регистрации первым делом нам предложат загрузить и установить фильтр для индексации и поиска в PDF-документах вкупе с русскоязычной морфологической базой (рис. 20). Дело в том, что использование морфологии — один из важнейших приемов интеллектуального поиска текста, поскольку этот режим позволяет ввести в поисковую строку одно слово, а поиск будет осуществляться по всем его словоформам (например: ложка, ложкой, ложки, ложечки). Таким образом, жертвы на входящий трафик заумной морфологической субстанции более чем оправданны (использование морфологии включается в «Менеджере Индексов»).

Пришла пора создавать индексационные базы (программа называет их «индексами»), без которых поиск становится бессмысленным: Менеджер индексов > Создание индекса (рис. 21). SearchInform позволяет выбирать папку для баз индекса, равно как исключать из области поиска ненужные каталоги8. Не забудьте еще раз подумать о целесообразности использования морфологических баз — по умолчанию переключатель «Использовать морфологию» отключен, равно как и индексация во внешних базах данных (уже упоминавшиеся Access и MS SQL Server, попортивший мне кровь при запуске «Следопыта»).

Обратите внимание на кнопку «Настройка» диалога создания нового индекса — по умолчанию программа начнет индексацию всех дисковых разделов, что увеличивает время создания базы и ее размер. Выберем только необходимое (рис. 22). А далее остается ждать окончания процесса индексации. Разумеется, нет нужды создавать единственную базу, где будут свалены в кучу и офисные документы, и HTML-страницы. При необходимости точно так же создаются дополнительные индексы, подключаемые командой «Смонтировать индекс».

Процесс индексирования весьма нагляден и демонстрирует не только скорость, но и количество обработанных документов, и число уникальных слов, по которым будет осуществляться поиск. В конечном итоге, данный раздел, содержащий более 20 000 документов совокупным объемом около 580 Мбайт, был проиндексирован всего за 12 минут; объем проиндексированного контента составил 72 Мбайта (рис. 23). Да, SearchInform не индексировал графические и звуковые файлы, но от него это и не требовалось. Зато несколько десятков мегабайт индексационных баз смотрятся куда как выигрышно на фоне почти полугигабайта индексных файлов поисковика от Google.

Теперь заставим SearchInform отработать свою цену: обычный вариант поиска (вкладка «Поиск текста») по сочетанию «Антивирусные записки» выдал огромное количество документов, содержащих, в той или иной мере, искомые слова. Впрочем, нужные документы оказалась в первой пятерке (рис. 24). Если помните, Google Desktop Search «спекся» при запросе из 2000 знаков. Честное слово, мне надоел собственный гуманизм9 по отношению к участникам софт-ринга: даешь запрос из трех тысяч знаков! Неприметная вкладка «Поиск похожих», как выяснилось, обладает уникальной особенностью: в отличие от стандартного фразового поиска, здесь не требуется заранее подбирать ключевые слова — поиск осуществляется по всему документу в целом. Ну-с, любезный, получите три тысячи символов из начала статьи «Второе пришествие SPасителя». Предвкушая фиаско софтины, радостно потираю руки, но, увы, конфуз испытал ваш покорный слуга: программа через пару секунд выдала абсолютно точную ссылку на документ, причем без всякой дополнительной «шелухи» (рис. 25). Не испугал программу и поиск в архивах. Честно говоря, я не стал использовать секундомер для определения разницы во времени поиска среди обычных файлов и архивированных: практически один и тот же очень быстрый результат.

Дальнейшее «глумление» над софтиной порадовало старого софтверного волка: изменялся текст запроса, в который добавлялись произвольные фрагменты откровенной абракадабры, затем фразы менялись местами. Очень уж мне хотелось «убить» программу, но мой порыв остался неудовлетворенным: даже в этом случае нужный документ находился. Ко всему прочему, работа программы практически не сказывается на быстродействии системы.

Однако создание одного или нескольких индексов для действительно качественного поиска недостаточно. И чтобы максимально использовать возможности SearchInform, потребуется более подробное знакомство с синонимами, стоп-словами и «важными словами» (программные термины). Более подробно об этих «хитрых зверьках» вы сможете прочесть в программной «Справке».

Раздаем слонов

Эта процедура не вызвала бурных дебатов в силу талантов наших конкурсантов. Если вам идеологически чужда покупка программного обеспечения, и вы не мыслите поиск без участия MP3, видео и картинок, ваш выбор — бесплатный Google Desktop Search. Правда, за отсутствие материальных издержек придется расплатиться колоссальным объемом индексных файлов и весьма длительной процедурой индексации. Если вас интересует паталогическая точность поисковых результатов вкупе с возможностью создания рубрик документации, рекомендуем последнюю версию SearchInform. Немаловажным моментом станет «детское» время индексации и крайне демократичный размер созданных индексных баз.

Ищущий да обрящет.


7 Разработанная на основе математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста.

8 Скажите на милость, зачем мне индексировать файлы Corel Draw и каталоги с «хозяйством» виртуальных машин?

9 Причем, совершенно неоправданный.


стр.1 | стр.2 | стр.3


Назад

  
   Пресс-центр

9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее. Подробнее...

» Все новости


13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.   Softkey.info
Подробнее...

» Вся пресса

   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher