Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

» SoftInform Search Technology

» Поиск в корпоративной сети

» SearchInform Конкуренты

» Сегментация и анализ рынка

» SearchInform в Интернет

SearchInform Конкуренты

1. Основные отличия нашей технологии от конкурентов

2. Описание конкурентов

2.1. dtSearch

2.2. iSYS

2.3. Hummingbird Search Server

2.4. Verity

2.5. Google Desktop Search Enterprise

2.6. Copernic Desktop Search

2.7. Ищейка Проф. Deluxe + Ищейка Сервер

2.8. Архивариус 3000

2.9. Autonomy

3. Сравнение скоростей индексирования

3.1. Тест 1 Сравнение скоростей индексирования

3.2. Тест 2 Сравнение с Hummingbird (Fulcrum)

3.3. Сводная таблица скорости индексации

4. Резюме по конкурентам

1. Основные отличия нашей технологии от конкурентов

Ни у одного из наших конкурентов нет поиска документов похожих по содержанию, несмотря на то, что некоторые декларируют это. Но поиск похожих по содержанию документов реально у них не работает.

Реально протестировать удалось не всех конкурентов, а лишь часть из них, так как ряд программ, к сожалению, не имеют триальных версий для тестирования, что на наш взгляд показывает, что они не уверены в том, что их поисковая система лучшае. По остальным же сугубо общая информация. Если сказать кратко, то у SearchInform скорость индексирования в 2 раза выше, чем у лидеров рынка. Скорость поиска информации также в 2-4 раза выше, чем у самых продвинутых поисковых программ. Также немаловажно, что размер индекса у SearchInform также намного меньше, что в том числе положительно влияет на скорость поиска документов.

Тестирование проводилось с различными наборами информации между SearchInform и другими продуктами, поэтому в каждом тесте мы будем выводить количественный показатель между нашей системой поиска и конкурентами. Для простоты тестирования для программ брались Desktop версии (настольные поисковые системы). При анализе были выбраны лидирующие в мире компании, единственный кто выпадает из этого ряда это несколько технологий из России (Ищейка и Архивариус).

2. Описание конкурентов

2.1. dtSearch

www.dtsearch.com

Разработки компании dtSearch Corp. включают в себя линейку поисковых систем, как для домашнего пользования, так и для работы в сети предприятия. В частности dtSearch Desktop со встроенным dtSearch Spider умеет индексировать и находить не только файлы на компьютере пользователя, но и веб узлы (на заданную глубину), ресурсы локальной сети, а также использовать внешние индексы, созданные на других компьютерах.

dtSearch распознает различные кодировки, в том числе и кириллические, а также множество форматов файлов, такие как .doc, .xls, .rtf, .pdf, .html, плюс популярные базы данных (через ODBC). В базах данных, нужно заметить, возможен полнотекстовый поиск по содержимому конкретных полей и тегов.

Кроме традиционного поиска текста на «естественном языке» или с помощью формальных запросов, есть еще несколько интересных методов: морфологический (stemming) - когда для каждого слова ищутся все словоформы, нечеткий - подразумевающий возможные ошибки и опечатки, фонетический - с учетом сходных по звучанию слов и синонимический. DtSearch Desktop 7.0 справилась с тестовым заданием по индексации 11 гигабайт текстов за вполне неплохое время 2 часа 57 минут, использовав место на диске под создание индекса равное 4.15 Гб. Что касается поиска документов, то накладок с поиском русского текста у программы не было. Из минусов, при запросе в несколько десятков слов система довольно долго думала, прежде чем выдать результат. Поиск документов, похожих по содержанию на текст запроса не заявлен и отсутствует напрочь.

2.2. iSYS

www.isys.com

Компания ISYS существует уже 16 лет, и за это время приобрела более 10 000 потребителей своей продукции. С самого основания компании программные продукты ISYS ориентировались на бизнес-пользователей. В линейку ПО ISYS входят программы поиска, как на настольных компьютерах, так и в корпоративных сетях и в Интернет.

Корпоративная поисковая система ISYS предназначена для быстрого и удобного поиска информации. Будь то персональный компьютер, Интернет или корпоративная сеть предприятия. ISYS индексирует данные и позволяет искать документы используя операторы и ключевые фразы точно так же, как это происходит в случае с Интернет-поисковиками.

ISYS поддерживает несколько методов запросов (Command Line Query, Menu-Assisted Query, Natural Language Query); использует алгоритм релевантности документов и лингвистические особенности языка, позволяющие внедрить такие функции поиска как синонимы, нечеткий поиск (поиск с ошибками) и так далее.

ISYS поддерживает 125 форматов файлов (включая документы Microsoft Office, WordPerfect, электронную почту, PDF, XML, базы даны и так далее) и 30 языков, среди которых даже китайский, японский и корейский.

11 гигабайт тестовых текстов поисковая система проиндексировала примерно так же как и dtSearch, но с незначительным опережением, за 2 часа 53 минут. Размер индекса, наоборот, на долю процента занял больше - 4.2 гигабайта. Несколько усложненный для новичка метод поиска с различными вариантами запросов поначалу (для неопытного пользователя) может показаться неудобным. Но при кропотливом изучении все становится на свои места. Дело в том, что программа отказывается просто так выполнять поиск документов по «длинному», в несколько слов, запросу. Для этого в ней предусмотрены дополнительные методы. Правда, с русской морфологией в ISYS не все ладно, что впрочем, не мешает этой поисковой системе занимать одну из лидирующих позиций в мировом рейтинге. К плюсам программы полнотекстового поиска можно отнести очень качественно сделанную систему авторубрикации документов. Сразу же после индексации iSYS разбила все обработанные документы по рубрикам и представила их в удобном виде. Что касается поиска документов похожих по содержанию, то в данной системе его нет и, насколько нам удалось узнать – не намечается.

2.3. Hummingbird Search Server

www.hummingbird.com

Hummingbird Ltd. – один из лидеров в области программных продуктов для предприятий. Основным продуктом компании является Hummingbird Enterprise™ - интегрированная платформа для управления информацией на предприятии. Основанная в 1984 году, компания Hummingbird на данный момент является поставщиком информационных корпоративных решений для более чем 33 тысяч предприятий по всему миру, которые полагаются на Hummingbird в сфере объединения бизнес-процессов, информации и людей.

Программа Hummingbird Search Server (бывший Fulcrum/Open Docs), встроенная в Hummingbird Enterprise™ - это система быстрого поиска информации, включающая в себя поиск похожих документов и метапоиск. Тесты систем Hummingbird Search Server и SearchInform показали, что наша поисковая система индексирует данные в 4 раза быстрее, а размер созданного индекса у SearchInform меньше почти в три раза. Тесты проводились на текстовой базе в 6 гигабайт. SearchInform справился с заданием за 1 час 19 минут, создав индекс размеров 1,26 гигабайта. Показатели Hummingbird Search Server намного скромнее: индексация – 4 часа 50 минут, размер индекса – 3,5 гигабайта. Заявленный в Hummingbird Search Server поиск документов похожих по содержания на текст запроса реально не работает, оставаясь всего лишь заявленной функцией, и позволяет искать только идентичные документы, но никак не близкие по содержанию и смыслу. В подтверждение этого, после проведения тестов российским представителем компании Hummingbird было принято решение встроить в документооборот Hummingbird Enterprise™ наш поисковый сервер для продвижения на Российский рынок.

2.4. Verity

www.verity.com

Расположенная в Sunnyvale, калифорния, компания Verity занимается разработкой программных продуктов, включающих в себя как поиск информации, так и ее классификацию и анализ, в рамках информационного потока на предприятии. Технология Verity так же служит базой для более чем 260 программ от сторонних разработчиков. Продукты Verity работают на различных промышленных программно-аппаратных платформах, а также отличаются промышленной производительностью и масштабируемость, в частности, обслуживают десятки тысяч корпоративных и внешних одновременных пользователей. Verity имеет тысячи крупных компаний-клиентов среди мировых лидеров в индустрии и государственном секторе. Verity, согласно исследованиям Gartner Group, является мировым лидером в разработке полнотекстовых аналитических технологий для корпоративных информационных ресурсов, бизнес-приложений, корпоративных порталов и Интернета.

Verity K2 Enterprise 5.5 дает возможность поиска информации как в корпоративной сети предприятия, так и в электронной корреспонденции (правда, поддерживает только Outlook). Программа поиска, конечно, поддерживает практически все существующие форматы текстовых документов, как распространенных, так и специализированных. Также система использует тахономии и функцию Open Navigation, которая сочетает в себе инструменты классификации, позволяющие динамически выдавать пользователю требуемую информацию. В Verity K2 Enterprise 5.5 присутствует продвинутая система категоризации и классификации, которая обрабатывает поступающую информацию и автоматические определяет, кому из пользователей и какой документ нужен в данный момент времени. К сожалению, протестировать Verity K2 Enterprise 5.5 или Verity Enterprise Desktop Search не удалось, поэтому дать полную информацию о скорости индексации данных и скорости поиска информации мы дать не можем. И в дополнение: поиска документов, похожих по содержанию в данной поисковой системе не присутствует.

2.5. Google Desktop Search Enterprise

desktop.google.com/enterprise

Бесплатная разработка компании Google, предназначенная для быстрого поиска информации на персональном компьютере пользователя, в сети Интернет и корпоративной сети предприятия.

Google Desktop Search Enterprise может похвастаться возможностью индексации и поиска документов пары десятков самых распространенных текстовых форматов, а также электронной почты, тэгов аудио и видео файлов и изображений. Есть один немаловажный момент: для того, чтобы указать поисковой программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search Enterprise индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. Google Desktop Search Enterprise справилась с тестовым заданием за 3 часа 41 минуту, создав индекс размером 1,9 мегабайта. Скорость поиска информации удовлетворительная и находится на одном уровне с уже признанными игроками рынка. В отличие от, например, ISYS и dtSearch (системы документооборота типа Hummingbird или Documentum не в счет – они слишком громоздкие) Google Desktop Search Enterprise может похвастаться, наверное, самым дружественным пользователю интерфейсом. Но, по части администрирования и настройки поиска документов в локальной сети она уступает конкурентам, притом основательно. Дело в том, что настроить сетевую работу так, как нужно в определенной ситуации довольно непросто – поисковая система пытается все сделать самостоятельно. Тонкая настройка достигается только при установке дополнительных компонентов. Это глобальный минус. Можно сказать, что как настольная система поиска Google Desktop Search с компонентом gdetweak не имеет себе равных (даже с русским языком у нее нет проблем, разве что скорости индексирования маловаты). Но вот о корпоративном применении можно пока забыть. Заявленный поиск документов похожих по содержанию (в Интернет-оригинале similar pages) работает из рук вон плохо, судя по всему, именно поэтому и не включен в «не глобальный» как настольный, так и сетевой вариант.

2.6. Copernic Desktop Search

www.copernic.com

Copernic Desktop Search позволяет искать различные файлы, сообщения электронной почты (поддерживается работа с Outlook Express 5.x/6.x, Outlook 2000/XP/2003, Windows Address Book), документы Word, Excel, PowerPoint, Acrobat PDF, музыкальные и видео файлы, графику и т.д. Причём, поиск информации может осуществляться как на локальном компьютере, так и в Интернете. Встроенные средства просмотра различных файлов позволяют визуально увидеть результаты поиска документов. Например, если выделить в главном окне программы значок какого-либо HTML документа, то в Copernic Desktop Search отобразится его содержание. После инсталляции программы на Панели задач появляется небольшое окошко, предназначенное для ввода поискового запроса и быстрой настройки этой поисковой системы. Отдельно стоит отметить быстрый поиск и низкий уровень потребления ресурсов компьютера. Из минусов программы полнотекстового поиска можно выделить полное отсутствие возможности работы с русским текстом в форматах .txt и .html. Хотя в документах Microsoft Office русский текст Copernic ищет прекрасно. С индексированием тестовой базы данных программа справилась за рекордное время для настольных поисковых систем. 5 часов 11 минут (размер индекса составил 3 гигабайта). Но, как оказалось, что большинство файлов в тестовой подборке так и остались не проиндексированными. Например, все те же русские .txt и .html были «пройдены по верхам» - т.е. проиндексированы были только названия файлов, но никак не текст в них. Возникает вопрос: почему система не ищет русский текст в данных форматах файлов? Притом, что сам по себе русский язык она понимает прекрасно.

2.7. Ищейка Проф. Deluxe + Ищейка Сервер

www.iSleuthHound.com/ru

iSleuthHound Technologies компания, специализирующаяся, на разработке средств для интеллектуального быстрого поиска информации. Компания занимается как специализированными системами поиска сложной информации с доступом через Интернет и интранет, так и простыми решениями, ориентированными на конечного пользователя.

Ищейка и Ищейка Проф - использование поисковых технологий и ноу-хау компании для быстрого локального поиска неструктурированной информации. Программы имеют дружественный пользователю интерфейс и ориентированы на конечного пользователя.

Ищейка Сервер. Программа добавляет возможность найти нужный документ в корпоративной сети. Программа поддерживает поиск документов следующих форматов: .txt, .doc, .rtf, .htm, .html и любые расширения, если формат файла совместим с ASCII, ANSI, Unicode. Например .с, .cpp, .bas, .pas и т.п. Типы документов MS PowerPoint презентации .ppt, .pps, Документы MS Excel.xls, ASP документы .asp и несколько других поддерживаются только при наличии дополнительных модулей.

Детище iSleuthHound Technologies справилось с заданием по перевариванию 11 гигабайт текстов ни много ни мало за 21 час 12 минут. Размер индекса при этом составил те самые 11 гигабайт, полученные на «входе». Должны заметить, что у «Ищейки» оказались самые незавидные показатели по сравнению с остальными программами, включенными в тестовую группу. Это качается также и скорости поиска. При использовании в качестве запроса фразы из нескольких десятков слов программа безнадежно вешалась. Поиска документов похожих по содержанию нет. Что и не удивительно.

2.8. Архивариус 3000

www.wizetech.com/ru/document-search

Архивариус 3000 - это программа для поиска документов и почтовых сообщений на компьютере, в локальной сети и съёмных дисках (CD, DVD и др.). Поиск документов может производиться по ключевым словам или используя язык запросов, аналогично тому, как это делается в поисковых системах Интернета.

Программа полнотекстового поиска имеет многоязычный интерфейс, включающий русский, украинский и белорусский языки. Поддерживается смысловой поиск на русском, украинском, белорусском, английском, немецком, испанском, французском, чешском, датском, греческом, венгерском, итальянском, португальском и шведском языках.

Архивариус поддерживает популярные форматы файлов от MS Office и PDF до TXT и LEX, поиск в архивах ZIP, RAR, ARJ и многих других. Поиск почтовых сообщений Outlook, Outlook Express, MS Exchange и The Bat!. Также возможен доступ из дома к рабочим документам через Интернет.

В принципе, Архивариус 3000 достойная настольная поисковая система, позволяющая пользователю работать с данными на своем персональном компьютере. Конечно, сетевыми возможностями эта программа не обладает. К тому же, разработка Wizetech Software вообще отказывается индексировать что-либо, превышающее размер в 1,5 гигабайта. Поэтому приходится последовательно проводить «подготовку информации к поиску», скармливая данной программе собранную библиотеку в порядке живой очереди. Это немного раздражает, хотя Архивариус спасает то, что после индексирования он может искать сразу по всем созданным индексам. Что касается скорости, то 1,5 гигабайта текстов Архивариус переварил за 27 минут (при размере индекса в 800 мегабайт). Можно сделать вывод, что 11 гигабайт будет проиндексировано примерно за 4 часа. Поиска документов, похожих по содержанию на текст запроса, опять же не присутствует.

2.9. Autonomy

www.autonomy.com

Autonomy Corporation – один из лидеров создания программной инфраструктуры для предприятия. Технология Autonomy позволяет структурировать информацию в единое целое из различных источников, будь то CRM, система управления знаниями, локальная сеть предприятия или онлайн-ресурсы компании. Autonomy – единственная из всех рассмотренных систем, которая так же как и SearchInform может в той или иной мере консолидировать информацию на предприятии из различных источников. Именно поэтому потребителями продукции Autonomy являются более тысячи крупнейших компаний по всему миру, среди которых Ford, Ericsson, Shell, Nestle, BBC, Reuters, Hutchinson 3G, Royal Sun Alliance, Sun Microsystems, Philips, Boeing, Schneider Electric, Coca Cola и многие другие.

Технология компании Autonomy позволяет компьютеру разбирать смысловое значение неструктурированной информации путем использования математических алгоритмов сопоставления «паттернов», или образцов, для определения основных концепций, содержащихся во фрагментах информации. Продукты компании Autonomy предоставляют средства для решения фундаментальных задач, стоящих перед любой компанией или организацией, и может быть применима в любом приложении, работающем с информационными потоками и массивами, включая информационные и корпоративные порталы, системы электронной коммерции, системы управления взаимоотношениями с клиентами, системы анализа данных и т.д. Одной из самых сильных сторон данной системы является автоматическая категоризация информации, основанная на кластеризации документов.

Но рассматривать Autonomy как конкурента именно в смысле поиска информации было бы нелогично. Да, это мощная система управления информацией, но быстрым фразовым поиском и на должном уровне реализованном поиске документов похожих по содержанию на текст запроса она не обладает. Что касается поиска документов похожих по содержанию – ничего общего с нашей технологией не имеет – в Autonomy это построено на базе кластеризации документов (авторубрикации), что не позволяет, прежде всего, отсортировать документы похожие по содержанию в порядке релевантности. Также данная система не может в полной мере решить проблемы информационной размытости и многие другие.

3. Сравнение скоростей индексирования

3.1. Тест 1 Сравнение скоростей индексирования

Индексировалось 11 Гб. информации.
Компьютер: AMD Barton 2.5 MHz, 1 Гб. Оперативной памяти.

Система поиска Время индексации Размер индекса
Ищейка Проф Deluxe 21 час 12 минут 11 Гб
Архивариус 3000 4 часа Около 6 Гб
Isys desktop 7.0 2 часа 53 минут 4.2 Гб
DtSearch 7.0 2 часа 57 минут 4.15 Гб
Google Desktop Search Enterprise 3 часа 41 минута 1,9 Гб
Copernic Desktop Search* 5 часов 11 минут 3 Гб
SearchInform 1 час 31 минута 1,9 Гб

*Большинство документов .html и .txt, содержащих русский текст хоть и был проиндексированы, но кроме как по заголовкам, найти их было невозможно. Удручающий результат для русскоязычного пользователя. А ведь система хорошая.

3.2. Тест 2 Сравнение с Hummingbird (Fulcrum)

В данном тесте сравнивались поисковые возможности поисковика Fulcrum, который встроен в продукты Hummingbird. После проведения тестирования было принято решение встроить в документооборот Hummingbird наш поисковый сервер для продвижения на Российский рынок.

Индексировалось 6 Гб. текстов

Hummingbird - 4 часа 50 минут
SearchInform – 1 час 19 минут
Размер индекса Hummingbird = 3,5 гигабайта
Размер индекса SearchInform = 1.26 гигабайта

3.3. Сводная таблица скорости индексации

Здесь приводятся коэффициенты – показатель системы / показатель searchinform

Система поиска Время индексации Размер индекса
Ищейка Проф Deluxe В 14 раз хуже в 5 раз более
Архивариус 3000 В 2.63 раза хуже В 3 раза более
Isys desktop 7.0 В 1.9 раза хуже В 2.1 раза более
DtSearch 7.0 В 1.9 раза хуже В 2.1 раза более
Hummingbird В 3.6 раза хуже В 2.8 раза более
Google Desktop Search Enterprise В 2.5 раза хуже Одинаково*
Copernic Desktop Search В 3.4 раза хуже В 1.5 раз более

*Если в SearchInform не использовать поиск документов похожих по содержанию, то размер индекса станет в 2 раза меньше

4. Резюме по конкурентам

Как видно из сводной таблицы по скоростям индексирования и поиска информации, а также по размеру получаемого индекса SearchInform на порядок эффективней существующих на сегодня поисковых систем. Ни одна из систем поиска (в случае с системами документооборота рассматривалась в строенная в эту систему технология поиска) не может похвастаться наличием адекватно и быстро работающего поиска документов, похожих по содержанию. Несмотря на отставание в скорости индексирования и поиска, настольные и бесплатные программы Google Desktop Search и Copernic Desktop Search для домашнего пользователя вполне могут конкурировать с SearchInform, хотя бы частично. Это обусловлено симпатичным и дружественным интерфейсом и простотой в использовании. Хотя в случае с Copernic Desktop Search данное утверждение в полной мере касается только англоязычных пользователей, так как с русским языком программа дружит не всегда адекватно.

Но что касается самой технологии и использования системы поиска в корпоративном секторе, где важна скорость, как индексирования данных, так и получения результатов без ущерба для качества, то равных SearchInform на данный момент нет. Поиск документов, похожих по содержанию а текст запроса, сверхзвуковые скорости индексации и поиска делают технологию компании СофтИнформ лидером любых тестов, будь то тесты скоростей или релевантности найденных документов.

  
   Пресс-центр

9 января 2007 года.
Компанией «СофтИнформ» выпущена новая версия программы SearchInform, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов в больших объёмах данных.
В новой версии программы, изменения затронули функционал, была улучшена работа с индексами, подключаемыми по сети, что сделало работу программы в локальной сети еще надёжнее. Подробнее...

» Все новости


13 декабря 2006 года.
Компания «СофтИнформ» выпустила новую версию программы SearchInform 3.2.01, корпоративной системы, предназначенной для полнотекстового поиска и поиска похожих по содержанию документов.   Softkey.info
Подробнее...

» Вся пресса

   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher