Публикация в журнале "CIO"
Тема недели
Корпоративный поиск
Автор: CIO
Опубликовано 04 октября 2005 года
Корпоративные поисковые системы
В динамически меняющемся современном мире все большее значение приобретают информационные технологии. Для обычного человека недостаточное владение информацией и отсутствие инструментов управления оной не является катастрофой. Но для предприятий и компаний, обладающих гигантскими объемами неструктурированных «знаний», такое положение дел принимает критический оборот.
Поиск в масштабе корпорации
Проблема организации данных в единую базу частично решается за счет систем докуентооборота, CRM и специализированных СУБД. Но, чем больше предприятие и чем разнообразнее его виды деятельности, тем сложнее обрабатывать информацию из различных источников. Документы на диске, базы 1С, Oracle и различные информационные системы - список этот можно продолжать бесконечно. Архивы веб-страниц, электронная корреспонденция и даже записи логов ICQ – в последнее время отнюдь немаловажный "информационный сектор", который можно смело подключать к основным хранилищам данных внутри любой крупной компании. На основе анализа многообразия этих источников поступления и хранения текстовых данных можно выделить две основные проблемы "информационного обеспечения". Это неструктурированность информации и ее поиск. В принципе, эти проблемы взаимосвязаны. Так как получив хорошую систему поиска информации по различным источникам, можно, тем самым, предельно систематизировать полученные результаты.
Есть проблема - есть и решение. Это корпоративные поисковые системы, работающие с различными источниками знаний, как на компьютере пользователя, так и в локальной сети. Их главная задача - осуществлять быстрый и точный поиск документов в больших объемах данных. О таких специализированных программах сегодня речь и пойдет. Встроенные же в различные системы документооборота поисковые элементы, будь они стократ великолепны, обсуждать не будем. По аналогии, домашние кинотеатры и телевизоры, встраиваемые, например, в холодильник в один ряд не поставишь.
Индексация
Прежде чем программа начнет отрабатывать свои основные функции, искать и выводить в удобном результирующем списке нужные пользователю документы, проводится функциональная артподготовка. Другими словами - создание области поиска (индексации выбранных пользователем файлов на диске, полей баз данных, электронной почты и так далее - в зависимости от возможностей той или иной системы). Созданный программой поиска индекс (организованная структура, в которой содержится информация об обработанных данных) и будет использоваться. В противном случае, поиск ведется простым перебором каждого существующего документа, что занимает огромное количество времени. Программы, использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Подход совершенно очевидный и хорошо известный. Подобные утилиты традиционно присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах. Но, даже мощности современных компьютеров не хватит для быстрого и адекватного поиска в гигантских объемах данных при прямом поиске. Перебор пары сотен документов на диске и поиск в громадной библиотеке и нескольких десятках почтовых ящиков - разные вещи. Поэтому, программы прямого поиска сегодня явно уходят на второй план - если речь идет об универсальных средствах. Принципы индексирования документов и хранения проиндексированных данных в разных системах, разумеется, отличаются. Например, "Следопыт" использует в качестве хранилища индексной базы SQL Server (что отнюдь нецелесообразно и громоздко), а SearchInform или dtSearch хранят структурированные данные по своей, самостоятельно разработанной системе. Конечно, в зависимости от применяемых технологий и способов оптимизации работы той или иной программы, скорости и размеры создаваемого индекса могут отличаться кардинально.
Что касается корпоративной программной этики: думаю, что уж коли речь у нас идет о корпоративных системах, то искать документы в локальной сети они непременно могут. Было бы странно, если например, "Ищейка Сервер" ограничивалась лишь индексацией файлов на компьютере пользователя и не могла ничего найти в сети. Так что в этом плане поверим разработчикам на слово (разумеется, рекламное) и будем считать, что любая программа справляется с задачей поиска в локальной сети предприятия "на ура". Хотя, если быть честным, то я должен вам сообщить, что все же заставил каждую программу из данного обзора проиндексировать пару папок на присоединенных сетевых дисках. На всякий случай. Проблем, к счастью для рассматриваемых систем, не было.
Опять же должен оговориться, что способы "извлечения" данных и последующего их вывода в результирующем списке в данном обзоре мы тоже рассматривать не будем - это тема для отдельной статьи. Как и изучение технологических особенностей организации данных в индексе, способов поиска документов и метрик, по которым этот поиск ведется и особенности наличия или отсутствия морфологии, словарей синонимов или возможностей нечеткого поиска. Ведь как уже отмечалось, самое важное в любой системе поиска - это скорость. И еще - адекватность. То есть практические показатели. Об этом подробнее…
Участники и диспозиция
Выяснить, какая же корпоративная система поиска информации на данный момент самая быстрая и толковая и призван данный обзор. Выбрав несколько популярных программ от российских и западных разработчиков (DtSearch Network, Google Desktop Search Enterprise, Следопыт Корпоративный, Ищейка Сервер и SearchInform Corporate Edition) мы провели несколько тестов на скорость индексации документов, быстроту и качество поиска. Еще раз отмечу, что в тестах участвовали корпоративные версии этих программ. Конечно, технологии как в сетевой версии, так и в "домашнем" варианте данных систем ничем не отличаются, но для чистоты эксперимента следует придерживаться установленных правил.
Для теста была собрана обширная библиотека художественной литературы (11 Гб. текстов в форматах .txt, .html и .doc), а вдобавок к ней приплюсована подборка новостей на различную тематику в тех же форматах. Первым заданием для тестируемых программ была индексация всего этого многообразия документов. Далее мы провели тесты на скорость поиска и на релевантность результатов, путем сравнения полученных списков по одинаковому запросу. В качестве запроса использовались фразы и отрывки (!) из новостей, содержащихся в подборке документов. Тестовой площадкой был выбран компьютер с процессором Athlon 2,2 МГц, объемом оперативной памяти 1 Гб, 160-гигабайтным IDE жестким диском Seagate на 7200 оборотов в минуту и системой Windows XP.
dtSearch 7.0
Разработчик: dtsearch Corp.
Официальный сайт: www.dtsearch.com
Стоимость лицензии на 5 пользователей: $800
Разработка компании dtSearch Corp. dtSearch Desktop со встроенным компонентом dtSearch Spider умеет индексировать и находить не только файлы на компьютере пользователя, но и веб узлы (на заданную глубину), ресурсы локальной сети, а также использовать внешние индексы, созданные на других компьютерах. Как и следовало ожидать, dtSearch распознает различные кодировки, в том числе и кириллические, а также множество форматов файлов, такие как .doc, .xls, .rtf, .pdf, .html и так далее. Нужно отметить также возможность поиска в базах данных в общем и по содержимому конкретных полей в них в частности.
Кроме традиционного поиска на "естественном языке" или с помощью формальных запросов, в dtSearch есть еще несколько видов поиска: с учетом морфологии, нечеткий (подразумевающий возможные ошибки и опечатки), фонетический (с учетом сходных по звучанию слов) и синонимический.
dtSearch справилась с тестовым заданием по индексации 11 Гб. текстов за 2 часа 57 минут, использовав на диске 4.15 Гб. под создание индекса.
Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы (хоть и с небольшой паузой - 11 гигабайт все-таки).
Должен заметить, что при поиске по приличному фрагменту текста (в несколько десятков слов) система однозначно "подвисала" на некоторое время, прежде чем выдать результат.
Google Desktop Search Enterprise
Официальный сайт: www.desktop.google.com/enterprise
Freeware
Бесплатная разработка компании Google предназначена для поиска информации на персональном компьютере пользователя, в сети Интернет и корпоративной сети предприятия.
Google Desktop Search Enterprise может похвастаться возможность индексации и поиска документов пары десятков самых распространенных текстовых форматов, а также электронной почты, тэгов аудио и видео файлов и изображений. Есть один немаловажный момент: для того, чтобы указать программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search Enterprise индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. Google Desktop Search Enterprise справилась с тестовым заданием за 3 часа 41 минуту, создав индекс размером 1.9 Мб. Скорость поиска - удовлетворительна и находится на одном уровне с уже признанными игроками рынка.
В отличие от, например, ISYS и dtSearch (системы документооборота типа Hummingbird или Documentum не в счет – они слишком громоздкие), Google Desktop Search Enterprise может похвастаться, наверное, самым дружественным пользователю интерфейсом. Но, по части администрирования и настройки работы в локальной сети она уступает конкурентам, причем, весьма ощутимо. Дело в том, что настроить сетевую работу так, как нужно в определенной ситуации, довольно непросто – система пытается все сделать самостоятельно. Тонкая настройка достигается только при установке дополнительных компонентов. Это колоссальный минус. Можно сказать, что как настольная система Google Desktop Search с компонентом gdetweak не имеет себе равных (даже с русским языком у нее нет проблем, разве что скорость индексирования маловата).
Но вот о корпоративном применении можно пока забыть. Заявленный поиск документов, похожих по содержанию (в Интернет-оригинале similar pages), работает из рук вон плохо, судя по всему, именно поэтому и не включен как в настольный, так и в сетевой вариант.
"Ищейка Сервер"
Официальный сайт: www.isleuthhound.com/ru
Стоимость серверной лицензии 95 долл., пользовательской - 12 долл.
"Ищейка Сервер" - программа поиска документов в корпоративной сети предприятия. В общем-то, этот продукт является ничем иным, как "Ищейкой Проф Deluxe", но с встроенной возможностью поиска в локальной сети. Программа поддерживает поиск документов следующих форматов: .txt, .doc, .rtf, .htm, .html и любые расширения, если формат файла совместим с ASCII, ANSI, Unicode. Например .с, .cpp, .bas, .pas и т.п. Правда, некоторые типы документов, такие как MS PowerPoint презентации .ppt, .pps, документы MS Excel.xls, ASP документы .asp и некоторые другие поддерживаются лишь при наличии дополнительно приобретаемых модулей. Детище компании iSleuthHound Technologies справилось с"перевариванием" 11 Гб. текстов ни много ни мало за 21 час 12 минут.
Размер индекса при этом составил те же самые 11 Гб., полученные на "входе". Должен заметить, что у "Ищейки" оказались самые незавидные показатели по сравнению с остальными программами, включенными в тестовую группу. Это касается также и скорости поиска. При использовании в качестве запроса фразы из нескольких десятков слов программа безнадежно зависала. Да и с адекватностью у "Ищейки" не все в порядке. На первом месте, как вы можете заметить (см. скриншот <HoundResult.jpg>) по запросу "папа" располагается документ, в котором фигурирует слово "папок». Что-то мне подсказывает, что разработчики явно перемудрили с использованием морфологии.
"Следопыт Корпоративный"
Официальный сайт: www.sledopyt.ru
Стоимость лицензии на 6 рабочих мест - 130 долл., неограниченной лицензии - 1250 долл.
Еще одна разработка российских программистов Следопыт 3.0 вполне заслуживает внимания набором своих функций и скоростью работы. Как и остальные "конкурсанты", эта система вполне справляется с поиском информации на персональном компьютере, в локальной сети и электронной почте. В дополнение к этому Следопыт может похвастаться поиском на компакт-дисках и других съемных устройствах и атрибутивным поиском.
Главным минусом Следопыта является то, что для своей работы он требует установки сервера MS SQL. Это добавляет громоздкости (дистрибутив занимает 40 мегабайт, что в десятки раз больше самого "легкого" GDE Enterprise). Не знаю, какую цель преследовали разработчики, решив создавать индекс на базе MS SQL, но особой радости пользователь от этого явно не испытает. А заявления о том, что данный подход придает системе "вес" как корпоративной просто нелогичен. Это нужно доказывать другими способами. Например, высокими показателями характеристик скорости.
А тут как раз "Следопыту" похвастаться особо нечем. Скорости поиска документов по созданному индексу (не слишком большому - 3 Гб.) были вполне приличными, но раза в два медленной, чем у, например dtSearch. И релевантность не хромала.
Зато 11 Гб. система индексировала шесть с половиной часов. Это самый худший результат за исключением почти 22 часов Ищейки, результаты которой вообще не лезут ни в какие ворота.
Ищет к тому же "Следопы"т документы только на русском и английском языках (можно сделать вывод, что технология языкозависимая). Но зато, по словам разработчиков, прекрасно умеет обрабатывать запросы на естественном и формальном языках, ранжировать документов по степени соответствия запросу, и проводить нечеткий, строгий и формальный виды поиска. Среди поддерживаемых типов документов можно упомянуть .rtf, .txt, .html, .xls, ppt, .pdf, архивы .zip, а также почтовые сообщения и архивы Microsoft Outlook. В принципе, если бы не низкая скорость работы и несколько аскетический интерфейс, то он бы мог вполне подойти на роль поискового сервера на предприятии.
SearchInform Corporate
Официальный сайт: www.softinform.com
Стоимость лицензии на 10 рабочих мест - 3000 долл.
Последней в списке, но отнюдь не последней по производительности, значится система SearchInform Corporate от компании "СофтИнформ". Лидер сегодняшнего обзора обработал тестовые документы за 1 час 31 минуту, ограничившись всего лишь двумя гигабайтами при создании индекса.
Поисковик разработан на основе активно продвигаемой разработчиками технологии "поиска документов, похожих по содержанию" - SoftInform Search Technology. Программа включает в себя все инструменты, необходимые для структуризации разрозненной информации в рамках предприятия и предоставляет собой эффективное решение любых проблем поиска и консолидации информации.
Программу характеризует высокая скорость индексирования (до 6 Гб/час), малый размер индекса (15-20% от реального объема текстовой информации), а также поддержка практически всех распространенных форматов текстовых файлов (включая .pdf и .html). Неплохо справляется SearchInform Corporate с индексированием архивов. Если другие участники теста умеют обрабатывать лишь zip-архивы, то здесь список поддерживаемых форматов гораздо шире - zip, rar, jar, tar, gz и tgz.
Если учесть небольшую функцию SearchInform - Smart Indexing, которая позволяет в режиме реального времени отслеживать нагрузку на процессор компьютера и регулировать уровень потребления программой системных ресурсов при индексации, то пальма первенства разработке "СофтИнформ" досталась по праву.
К тому же, процесс индексирования (в отличие от других программ в обзоре) весьма нагляден, и демонстрирует не только скорость, но и количество обработанных документов, а также число уникальных слов, по которым будет осуществляться поиск.
Лидером SearchInform Corporate можно признать и по скорости поиска. Тестовый объем в 11 Гб. программа щелкала как семечки, делая небольшую паузу только после первого запроса (в дальнейшем поиск проходил мгновенно). Притом адекватность поиска оказалась также на высоте.
Плюс ко всему, в программе SearchInform Corporate присутствует очень интересная функция: поиск документов похожих по своему содержанию на текст запроса. Это позволяет в процессе поиска избежать предварительного подбора ключевых слов - поиск осуществляется по всему документу в целом.
Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности.
Сравнение скоростей индексирования
Индексировалось 11 Гб. информации.
Компьютер: AMD Barton 2.5 MHz, 1 Гб. Оперативной памяти.
Система поиска |
Время индексации |
Размер индекса |
| Ищейка Сервер |
21 час 12 минут
|
11 Гб
|
| Следопыт Корпоративный |
6 часов 32 минуты
|
3 Гб
|
| DtSearch Network |
2 часа 57 минут
|
4.15 Гб
|
| Google Desktop Search Enterprise |
3 часа 41 минута
|
1.9 Гб
|
| SearchInform Coprorate |
1 час 31 минута
|
2 Гб
|
Резюме
На основе функционально-скоростных характеристик рассмотренных систем поиска однозначный вывод сделать непросто. Как оказалось, новая разработка компании "СофтИнформ" быстрее и функциональнее даже западных "проверенных временем" аналогов. Но…
Что касается российских разработок "Следопыт" и "Ищейка", то их работа на самом деле не впечатлила. Незавидное время индексации, недостаток важнейших функций (например, поддержки различных источников данных и рубрикации документов), поддержка только архивов формата ZIP. Но самый большой минус - в слишком медленном извлечении документов из небольшой по меркам предприятия текстовой базы в 11 Гб.. Сектор корпоративного поиска для этих программ явно не по зубам. Хотя для домашнего использования они вполне подойдут. Но и тут дорогу им уже перешел поисковой гигант Google.
Раскрученный и совершенно бесплатный GDS Enterprise поддается четкой настройке и обрастает дополнительными возможностями только при условии установки плагинов. Даже поддержка архивов реализована именно так. Плюс ко всему, для того чтобы ан полную катушку раскрыть возможности данной системы, разработчики предлагают предприятию подключиться к Premium Support. Который стоит 10000 долл. в год для каждой 1000 пользователей. Как мне показалось, без неплохо оплачиваемых экспертов Google развернуть полноценно работающую систему на предприятии будет невозможно. Поэтому, глядя на вполне неплохие скоростные показатели этой программы и ее дружественный IEшный интерфейс будет лучшее ее отнести к прекрасному «настольному» варианту поисковиков и сделать глубокий реверанс в сторону компании Google, которая таким образом сможет осуществить мечту Билла Гейтса - проникнуть в каждый дом.
Основное соперничество, если можно так назвать проведенные тесты, развернулось между уже известным программным продуктом dtSearch и новой разработкой российской компании "СофтИнформ" - SearchInform Corporate. Эти программы безупречно работают с русским языком, могут сравняться (за небольшим превосходством SearchInform) в скорости поиска – хотя неизвестно как все будет при работе с в десятки раз большими по размеру данными. Также обе системы могут похвастаться подключением сторонних источников знаний, таких как базы данных. Правда, остается еще вопрос цены. И тут разница в 2200 долларов может быть более чем критична (dtSearch 800 долл., SearchInform 3000 долл.) . Но в этом разница между системами и кроется. Да, dtSearch может вполне претендовать на роль ведущей поисковой системы для предприятий. Списки клиентов компании на ее сайте только подтверждают это.
Но SearchInform Corporate, вдобавок к своей самой высокой скорости индексирования и поиска документов и уникальной функции поиска документов похожих по содержанию может выступать как еще и как система, консолидирующая информацию на предприятии. Все дело в том, что данная система может обрабатывать не только документы на диске компьютера или в сети предприятия, но и использовать иные источники данных, такие как CRM или DMS, СУБД на базе MS SQL и так далее. Можно сказать, что SearchInform Corporate - это единственная программа из обзора, которая может решить обе важнейшие проблемы "информационного обеспечения" предприятия - как проблему поиска документов, так и консолидации знаний в единую удобную систему.
Назад
|