« предыдущая статья | Все статьи | следующая »
поиск текста
Чемпионат по настольному поиску (программы для локального поиска)
Введение
Вроде бы и не много по нынешним временам – всего «каких-то» 160 гигабайт дискового пространства. Да вот незадача – «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа: поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или несколько веб-страниц с интересной информацией. Слава Всевышнему, что исходные тексты статей всегда хранятся в надежном месте...
Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо всевозможного хлама, тысячи файлов, каковые оказываются востребованными в самый неподходящий момент времен. Для начала потребуется вспомнить, в каком файловом формате содержался текст, каковой вы немедленно захотели получить: возможно, это HTML-страница, заботливо сохраненная несколько месяцев назад, а, может статься, что кладезь человеческой мудрости (в нашем случае) расположен в DOC- или RTF-файле. Все было бы просто замечательно, если искомый файл носил русскоязычное имя, соответствующее нашему запросу. Но, как известно, жизнь крайне редко балует счастливыми совпадениями. В особенности, если запрашиваемая информация не имеет ничего общего с названием документа, а «прописана» где-то в текстовых дебрях неизвестного файла. Разумеется, можно заняться созданием некой картотеки, где с бюрократической скрупулезностью будут отмечены все файлы и документы с текстовой информацией, но… впрочем, и я не готов к такому подвигу.
О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте традиционной «функциональности», присущей большинству инструментов от Microsoft. Никто не спорит - можно отыскать файл по имени и расширению, или группу файлов по маске, но, увы, не всегда. Типичный случай: для увеличения производительности Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном» варианте системного поисковика нас будет сопровождать этакий веселый щено. По-моему, очень символичный персонаж – какова «ищейка», таковы и возможности поиска...
Поиск информации по ключевому слову в Windows тоже не блещет эффективностью: попробуйте ввести в крохотное поле поискового запроса фразу из двух-трех предложений - дело даже не во времени, затраченном на поиск, а в том, что решительно невозможно задать определенный каталог, где обретается искомое. Ко всему прочему, моя англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные словосочетани. Выход есть: использование программных решений на базе поисковых технологий. Схема работы таких поисковых систем, в первом приближении, довольно проста: поиск по фразе с учетом всех синонимов и словоформ.
Однако, есть одно «но». Дело в том, что поиск по нескольким словам или крохотной фразе никогда не даст точного результата среди найденных документов. А поиск по длиннющей фразе (например, в половину документа) в существующих приложениях занимает слишком много времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса в виде обычного документа, содержащего около 2000 уникальных слов, поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод списка найденных документов займет несколько десятков минут. Вы согласитесь столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости «хромает» качество поиска; при точных и адекватных результатах понадобится уйма времени и системно-аппаратных ресурсов.
Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный продукт в соответствии с личными предпочтениями и нуждами. Сразу скажу, что среди участников не будет одной известной программы: российский «Архивариус» снят с продажи без объяснения причин (www.wizetech.com/ru/document-search/index.shtml). Исходные условия «ринга»: индексация и последующий поиск в логическом разделе, содержащим каталоги с текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов Outlook Express и The Bat. Попутно программам будут предложены архивы с офисными документами и – не удивляйтесь! – звуковые файлы формата MP3 с ID3-тегами.
SoftInform Search Technology ( поиск текста ) в первую очередь корпоративный инструмент поиска информации в локальной сети предприятия (документов практически любых форматов), информационных системах, СУБД, CRM и так далее. Важным преимуществом данной разработки является консолидация под своим управлением информации из различных источников. В SoftInform Search Technology (поиск текста) реализована система рубрикации (удобный и быстрый инструмент распределения любых документов по заданной тематике) и автокатегоризации документов – автоматического распределения новых документов по существующим рубрикам в соответствии с общим принципом похожести. Такой подход к организации и консолидации данных позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
« предыдущая статья | Все статьи | следующая »
Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. На данный момент существует много и технологий, осуществляющих фразовый поиск (Google, Hummingbird, Verity и другие), но они в отличие от технологии СофтИнформ поиск текста не решают проблему поиска информации в полной мере.
9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее.
Подробнее...
»
13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.
Softkey.info
Подробнее...
» Вся пресса поиск текста
|