Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация в журнале Домашний компьютер

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Следопыт

Будь попрочнее старый таз,
длиннее был бы мой рассказ.
Английская народная песенка.

Перевод С. Маршака

Еще одна российская разработка — программа «Следопыт 3.0» от компании «Медиалингва» выпускается в двух версиях: персональная (300 рублей) умеет индексировать и находить информацию в популярных форматах DOC, RTF, TXT, HTML, XLS и PPT, а профессиональная (1200 рублей) теоретически может индексировать ZIP-архивы, PDF-документы, заниматься поиском в почтовых базах MS Outlook и использовать словарную морфологию. Начало установки «порадовало» необходимостью инсталляции SQL-сервера. Интересно, зачем мне на домашнем компьютере сия премудрость? Да и многие ли домашние пользователи в состоянии его правильно установить и сконфигурировать?..

После установки SQL-сервера пришел черед самой программы, и она честно сообщила о необходимости запуска этого самого сервера для ее, софтины, нормальной работы. После перезагрузки и запуска SQL-сервера меня немедля известили: «При первом запуске Следопыт создал области поиска по умлочанию» (sic!), и предложили тут же начать индексацию. Отказавшись от столь похвального рвения, я решил посмотреть на эти «области поиска по умлочанию»: как оказалось, индексации подлежали абсолютно все дисковые разделы (рис. 7). Не успел я оставить нужный для индексации раздел, как программа вновь вмешалась, предлагая сохранить настройки и начать свою работу. То же произошло и при выборе папки с почтовыми базами. Еле отбившись от такого «радушия», решил выяснить расположение каталога с индексными базами (кнопка «Свойства») — увы, в этом окне (рис. 8) мне так и не удалось выбрать другой каталог. Проблема решилась при обращении к окну поиска: кнопка «Настройки» скрывала искомую опцию замены папки с базами индекса (рис. 9).

На этом, уважаемые читатели, почти все. Да, именно так, поскольку модуль автоиндексации, запускаемый при каждом старте Windows, не подавал признаков жизни. При попытке вывести программу из ступора, последняя нервно реагировала кратким сообщением о сбоях в настройках SQL-сервера (рис. 10). Увы, все мыслимые «танцы с бубном» так и не дали положительного результата. Ко всему прочему, запуск любого приложения происходил с чудовищной задержкой. Очевидно, мой MS Word обиделся на программистов-грамотеев, явивших миру очаровательный перл «Запстить сервис автоиндексирования» вкупе с упоминавшимся «умлочанием». Особую пикантность этим словоформам придает лингвистическая направленность компании «Медиалингва»…

При заслуженном «убиении» «Следопыта» оный возопил о ручном удалении программных каталогов. Помилуйте, но уж процедуру деинсталляции можно было довести до ума. Очевидно, все дело в программных недоработках, о чем свидетельствует тот факт, что первый дистрибутив, загруженный по ссылке от разработчиков, вообще не хотел устанавливаться, оправдывая такой саботаж загадочной Program error # 25. Как видим, второй дистрибутив оказался немногим лучше… Простите, а вы кто, милейший? Ах, Коперник… Тогда милости просим — я слышал о вас много хорошего.

Звездочет-«русофил»

Бесплатный Copernic Desktop Search (2,6 Мбайта), как будто угадав мои желания, первым делом предложил отметить нужные параметры и каталоги индексации (рис. 11). Разумеется, по умолчанию «Коперник» готов индексировать все подряд, но при двойном щелчке по нужной области мы вольны выбрать тот или иной тип файлов, либо вообще запретить софтине индексировать данный раздел: Skip all files in this folder and its subfolders (рис. 12). Увы, «Коперник» соглашается индексировать исключительно весь раздел, отказывая в выборе нужных каталогов. Что же, придется смириться. Итак, нам предлагают индексировать Documents, Pictures, Music и Videos. Эти категории подразумевают следующее: все форматы MS Office, документы WordPerfect, PDF-файлы, HTML-страницы, «сермяжные» текстовые расширения TXT и RTF вкупе с другими форматами (ASP, C, CPP, CS, H, INC, INI, JAVA, PAS и XML). Архивные форматы «Коперник» знает «на пять»: GZ, RAR и TAR. Добавьте сюда поддержку справочного формата HLP и тэгов в звуковых файлах MP3, OGG, WMA и WAV. Очевидно, дабы совсем сразить автора этих строк, Коперник скромно шепнул о работе с метаданными EXIF в графических файлах форматов JPEG и GIF. После таких возможностей известие об индексации тех же метаданных в видеофайлах (MPEG, QuickTime и Windows Media) воспринялось как само собой разумеющееся.

Ко всему прочему, «Коперник» без малейшего труда самостоятельно «вычислил» расположение каталога с почтовыми базами Outlook Express, заодно предложив включить в область поиска контакты из адресной книги. Причем этот «звездочет» знаком и с почтовым клиентом Mozilla Thunderbird — мне это начинает нравиться5!

После установки начальных параметров я изменил расположение умолчального каталога с индексными базами (C:\Documents and Settings\ваше_имя\Local Settings\Application Data\Copernic\DesktopSearch) на более толковое (кнопка Options > Advanced > Index > Index folder, рис. 13), после чего «Коперник» занялся своим прямым делом. Правда, «звездочет» предупредил, что способен работать только в абсолютной тишине, то бишь при простое компьютера. Посему отключим всевозможные скринсейверы и дадим программе создать индексные базы.

Время индексации упоминавшегося логического раздела составило 22 минуты, причем так и не удалось «уломать» «Коперника» исключить из области индексирования ненужные папки. Объем индексной базы — 137 Мбайт. Как видите, «Ищейка» несколько проигрывает зарубежному конкуренту. Посмотрим, как софтина справится со своей основной работой — поиском файлов и документов. Обратите внимание, для запроса вовсе не обязательно нажимать кнопку поиска — процесс начинается автоматически после ввода искомого текста. Впрочем, запрос можно ввести в программной панели, поселяющейся в системной «Панели задач». Еще два плюса в личный зачет.

Первое испытание — поиск по знакомому нам словосочетанию «Антивирусные записки» дает вполне логичный результат: документ найден (рис. 14). Но как же так? Этот файл у меня наличествует в двух форматах: DOC и RTF. Почему не найден RTF-файл? При повторном запросе «Коперник» не нашел ни одного документа! Чудеса, да и только. На третьей попытке вновь был найден лишь DOC-файл. Все оказалось прозаично: «Коперник» успешно находил RTF-файлы, но исключительно с текстом, написанным латиницей. Более чем странная русофилия…

Уже без особой надежды ввожу в поле запроса те самые 300 знаков вступления к статье «Второе пришествие SPасителя», и… не может быть! — документ мгновенно найден (рис. 15). Вот уж чего не ожидал, так этого: абсолютно все слова запроса выделены цветом. С гораздо большим интересом прошу найти мне информацию по композиции «Желтая луна» из альбома Гребенщикова — как говорит нынешняя молодежь, легко! (рис. 16), причем западную софтину ничуть не смутили русскоязычные тэги этого MP3-файла. Однако «Коперник» вновь выказал редкостное упрямство, отказываясь находить информацию в русскоязычных TXT-файлах и веб-страницах. Причем поиск в PDF-документах давал отличные результаты. Возможно, мне больше повезет со следующим участником чемпионата.

Мне повезет?

Именно таким слоганом6 нас встречает главная страница поисковой машины Google. Что же, посмотрим, насколько реальным окажется это везение. Бесплатный инструмент Google Desktop Search невелик по объему (725 Кбайт) и загружается со страницы www.desktop.google.com. Установка происходит практически мгновенно, если не принимать в расчет истерику софтинки по поводу включенного монитора IMON антивируса NOD32. Впрочем, Google Desktop Search оказался тот еще фрукт: список приложений, с коими этот поисковик отказывается «дружить» весьма внушителен: в «черный список» попали сразу несколько антивирусных продуктов, не считая других приложений. На рис. 17 наглядно показано, что именно будет индексировать Google Desktop Search. Пожалуй, я зря «прицепился» к формату RTF: ну и пусть тексты моих статей хранятся в этом формате, ведь он скоро вымрет как класс. Ну не обещают нам, что «гугль» умеет индексировать RTF, значит, и надеяться не на что.

Самое «забавное», что никаких наcтроек мы не увидим и в помине: они отсутствуют по определению. Разумеется, ни о каком выборе областей индексирования не может быть и речи: Google Desktop Search сразу после установки начнет «тупо» индексировать содержимое всех дисковых разделов. Причем, как и предшествующая софтина, этот поисковик индексирует файлы и документы только при отсутствии каких-либо действий со стороны пользователя (двинули мышку — процесс прервался). Длится же индексация довольно долго: все поддерживаемые файловые форматы на всем 160-гигабайтном носителе определялись чуть более часа (дай бог, чтобы там набралось 4 гигабайта документов). Теперь предстояло найти папку с базами индексации. Как оказалось, сей каталог затаился в C:\Documents and Settings\ваше_имя\Local Settings\Application Data\Google\Google Desktop Search. Объем созданных баз — 413 Мбайт! Однако…

Думаю, нет смысла говорить, что в ответ на запрос из двух слов (те самые «Антивирусные записки»), поисковик тут же выдал исчерпывающий ответ: да, такой документ имеет место быть. Текстовый фрагмент из трехсот знаков тоже не смутил программу: в доли секунды мне сообщили о расположении искомого документа (рис. 18). При увеличении количества текста до 2000 знаков Google Desktop Search сдался — дескать, не в моих силах потрафлять твоим иезуитским фантазиям. Поиск творений г-на Гребенщикова оказался выше всяких похвал: именно таким образом и были прописаны ID3-тэги в MP3-файлах (рис. 19). Без запинок, в самом лучшем виде находились русскоязычные файлы и документы в форматах PDF и HTM/HTML. Ну не обещали нам RTF... стоп! При вводе текста из англоязычного RTF-файла Google Desktop Search спокойно выдал результат: мол, есть такая партия. И здесь «непонятки» с кириллицей в RTF. Ну да ладно, тем более проблема решилась совершенно неожиданно.

Энтузиасты уже успели выпустить для Google Desktop Search ряд дополнительных модулей, в том числе для работы с архивами, и плагин для интеграции программы с браузером Firefox. Меня прельстил плагин со знаковым именем Google Desktop Extreme. И как оказалось, не зря: после установки не только Desktop Extreme стал находить RTF-файлы, но и основной продукт. Как видите, функциональность Google Desktop Search расширяется ценой нескольких сотен килобайт входящего трафика. Причем работа поисковика в фоновом режиме постоянной индексации гораздо меньше влияла на быстродействие системы, нежели «г-н Коперник». Казалось бы, что еще желать для офлайн-поиска? Ан нет, у нас остался еще один участник.


5 Вообще-то, «Коперник» дружит и с другими почтовиками: Outlook 2000/XP/2003 и Eudora 5.0.

6 Правда, без вопросительного знака.


стр.1 | стр.2 | стр.3


Назад

  
   Пресс-центр

9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее. Подробнее...

» Все новости


13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.   Softkey.info
Подробнее...

» Вся пресса

   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher