Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация в журнале Домашний компьютер

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Настольный поиск

Вроде бы и немного по нынешним временам — «каких-то» 160 гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа: поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или несколько веб-страниц с интересной информацией. Хорошо хоть исходные тексты статей всегда хранятся в надежном месте…

Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо всевозможного хлама, тысячи файлов, весьма востребованных в самый неподходящий момент времени. Для начала потребуется вспомнить, в каком файловом формате содержался текст, что вы немедленно захотели получить: возможно, это HTML-страница, заботливо сохраненная несколько месяцев назад, или «кладезь человеческой мудрости» расположен в DOC- или RTF-файле. Все было бы просто замечательно, если бы искомый файл носил русскоязычное имя, соответствующее нашему запросу. Но, как известно, жизнь редко балует счастливыми совпадениями. В особенности, если запрашиваемая информация не имеет ничего общего с названием документа, а «прописана» где-то в текстовых дебрях неизвестного файла. Разумеется, можно заняться созданием некой картотеки, где с бюрократической скрупулезностью отмечать все файлы и документы с текстовой информацией, но… впрочем, и я не готов к такому подвигу.

О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте традиционной «функциональности», присущей большинству инструментов от Microsoft. Никто не спорит — можно отыскать файл по имени и расширению или группу файлов по маске, но, увы, не всегда. Типичный случай: для увеличения производительности Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном» варианте системного поисковика нас будет сопровождать этакий веселый щенок. По-моему, очень символичный персонаж — какова «ищейка», таковы и возможности поиска…

Поиск информации по ключевому слову в Windows тоже не блещет эффективностью: попробуйте ввести в крохотное поле поиска запрос из двух-трех предложений — дело даже не во времени, затраченном на поиск, а в том, что решительно невозможно задать определенный каталог, где обретается искомое. Ко всему прочему, моя англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные словосочетания1. Выход есть: использование программных решений на базе поисковых технологий. Схема работы таких поисковых систем, в первом приближении, довольно проста: поиск по фразе с учетом всех синонимов и словоформ.

Однако есть одно «но»: поиск по нескольким словам или крохотной фразе никогда не даст точного результата среди найденных документов. А поиск по длиннющей фразе (например, в половину документа) в существующих приложениях займет слишком много времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса в виде обычного документа, содержащего около 2000 уникальных слов, поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод списка найденных документов займет несколько десятков минут. Вы согласитесь столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости «хромает» качество поиска; при точных и адекватных результатах понадобится уйма времени и системно-аппаратных ресурсов.

Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный продукт в соответствии с личными предпочтениями и нуждами. Исходные условия: индексация и последующий поиск в логическом разделе, содержащем каталоги с текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов Outlook Express и The Bat2. Попутно программам будут предложены архивы с офисными документами и — не удивляйтесь! — звуковые файлы формата MP3 с ID3-тегами3.

Собачья радость

Мне до сих пор неловко за тот щенячий восторг, с каким я загружал бесплатную версию знаменитой «Ищейки 4.5». Позарившись на дармовую «косточку», я получил крайне ограниченную версию программы: мне предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML, и создание единственной базы данных. Сам виноват — нужно было заранее взглянуть на программные возможности. Пришлось вызвать «пса» по кличке «Ищейка Проф» ($15). Четыре сотни рублей по нашим временам — не столь большие деньги. «Ищейка Проф» умеет «вынюхивать», помимо упомянутых, расширения DOT (шаблоны MS Word) вкупе со старым добрым RTF.

На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка» поведала о своих дополнительных талантах, если «скормить» животине дополнительные модули. Тогда все станет действительно по-взрослому — это вам не глупый щенок из системного поисковика: без проблем станет индексироваться и обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в презентациях MS PowerPoint и скучнейших документах MS Excel4. Ко всему прочему, «Ищейка» расправится с архивным расширением ZIP, справочным форматом CHM, ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного формата придется отдать еще 6 долларов (20 баксов чохом за весь комплект плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска этих модулей — 2002 год…

Первое, что я бы посоветовал сделать по окончании установки, это отказаться от предложения создать новую зону поиска и выбрать заранее созданную папку для хранения базы проиндексированных документов (Опции > Индекс > Папка индексных файлов) — рис. 1. Дело в том, что по умолчанию «Ищейка» горит желанием немедленно проиндексировать указанные разделы, создав индексную базу в программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке» готовую базу индексации. В моем случае использовался логический диск F:, где я отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет смысла (рис. 2): время индексации в этом случае уменьшится. Затем «Ищейке» следует дать команду относительно файловых расширений для индексации. Помните, изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и некоторых других (рис. 3). В этом случае выбор форматов остается за «хозяином».

«Ищейка» шустро просчитала индексируемые документы (15968 штук суммарным объемом 1,75 Гбайта), после чего немедля приступила к индексации (рис. 4), которая продолжалась 24 минуты. Размер индексной базы составил 144 Мбайта. Обратите внимание на эти цифры: эти данные будут, в числе прочих параметров, определять нашего поискового лидера.

Что же, проверим хваленый «нюх»: в качестве жертвы выберем название цикла статей вашего покорного слуги — «Антивирусные записки». Вводим в поле запроса, командуем программе «Ищи!» и почти мгновенно получаем результаты поиска: название и расположение документов с этим словосочетанием, дату и время создания опусов, а также исходный текст (рис. 5).

Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата. В чем дело? Пробую ввести знакомые всем буквы BG, после чего получаю массу ссылок на документы с чужой критикой в адрес Билла Гейтса и… единственной MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков там и вправду повествовал об экзистенции, но тэги были выполнены латиницей! Стало быть, о поиске в русских тэгах можно забыть.

Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению к своей статье «Второе пришествие SPасителя» (см. ДК, #10, 2004 г.): три сотни печатных знаков. Увы, «Ищейка», поджав хвост, скорбно заскулила, рапортуя о нулевом результате. Расширенный поиск также не привел к успеху (рис. 6). Вот вам и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и положительными качествами: создание неограниченного количества зон поиска («Менеджер зон поиска») и отсутствие лимита на число документов в одной зоне поиска; возможность обновления поисковых баз по расписанию и вручную, а также создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую эффективность при работе с офисными документами. Но главный плюс, на мой взгляд, — крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает всего-навсего 3 мегабайта оперативной памяти. Однако на сайте разработчиков вы не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации. Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет бывалый искатель.


1 А что прикажете делать корпоративному сектору, работающему с гигантскими базами данных и впадающему в ступор при попытке найти очередной «шедевр» бухгалтерской мысли?

2 Есть у меня такая «странность»: хранить архивы электронных писем в другом дисковом разделе.

3 Специальная информация о музыкальном произведении, авторе, названии альбома, дате выпуска, жанре и т. п., «зашитая» в MP3-файл.

4 Модуль для документов Microsoft Excel не работает с документами, защищенными паролем и содержащими связанные таблицы.


стр.1 | стр.2 | стр.3


Назад

  
   Пресс-центр

9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее. Подробнее...

» Все новости


13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.   Softkey.info
Подробнее...

» Вся пресса

   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher