![]() |
|
||||||
|
|
| Компания | Домой > О компании СофтИнформ> Пресса о SearchInform | ||
|
Нет плагиату18.10.2007 / События в мире ПО / Михаил Брод
В августе компания "Софтинформ" объявила о выходе новой версии программы "Плагиат-информ". В начале октября программа была представлена на выставке Softool-2007, а несколькими днями позже была проведена официальная пресс-конференция о новых решениях компании "Софтинформ". На пресс-конференции директору компании Льву Матвееву, сделавшему доклад, был задан естественный вопрос: "Почему пресс-конференция была собрана через несколько месяцев после выхода релиза?" И был получен ответ, что за это время было осуществлено несколько реальных внедрений, что позволило выйти на пресс-конференцию с ощутимыми результатами. Но обо всем по порядку. Система "Плагиат-информ" унаследовала поисковую технологию, заложенную в базовый продукт компании — SearchInform. Основное отличие этого продукта от своих аналогов заключается в том, что основана она на запатентованной компанией "Софтинформ" функции поиска документов, похожих по содержанию на текст запроса. Именно эта уникальная возможность технологии и позволяет компании "Софтинформ" наиболее эффективно решать большинство проблем обработки и поиска информации.
Данная технология успешно применяется для поиска дублирующих друг друга документов в информационных базах предприятий. Обычно такие дубли накапливаются в течение продолжительного времени и зачастую начинают вносить путаницу в работу сотрудников. Поисковая технология помогает, во-первых, избавиться от дублей, а во-вторых, упростить поиск нужной информации. И при этом резко снижается время, затрачиваемое при обычном поиске дублей. Например, для определения дублей и ненужных похожих файлов может быть использована функция построения отчета анализа похожести. Причем эта операция занимает в десятки раз меньше времени, чем при обычном сравнении. Для примера, сравнение документов в информационной базе, в которой содержится несколько миллионов документов, займет около месяца. А при использовании функции построения анализа похожести — порядка суток. Несколько иная задача стоит в случае поиска плагиата. Здесь необходимо определить как первоисточник, так и те документы, в которых была использована эта информация. Наиболее ярко эта проблема существует в учебных заведениях, где студенты каждый семестр пишут курсовые работы. При большом количестве студентов определить, какие из работ являются оригинальными, а какие созданы за счет компиляции ранее написанных работ, преподавателям зачастую бывает просто нереально — слишком велик объем требуемой для анализа информации. О том, как может помочь в работе вузов программа "Плагиат-информ", и говорил в своем докладе Лев Матвеев.
Система одинаково хорошо может использоваться как небольшими, так и крупными вузами. И не только каждым из них в отдельности. Система является масштабируемой и может быть развернута для вузовских объединений, пожелавших создать единую информационную систему студенческих и научных работ. Единственным новшеством для вузов и их студентов при внедрении системы будет требование сдачи курсовых и иных работ в электронном, а не распечатанном виде. Как определить факт плагиата? Для этого необходимо наличие базы документов, используемых для сравнения. В их числе могут быть как работы, выполненные в конкретном вузе, так и работы, размещенные в интернет-коллекциях рефератов. В настоящее время компания "Софтинформ" ведет постоянный мониторинг новых поступлений в более чем полутора сотнях общедоступных коллекций. По словам Матвеева, "все новые рефераты, появляющиеся в Сети, скачиваются и пополняют общую базу для проверки. Это держит базу постоянно в актуальном состоянии. Обновление базы работ для проверки осуществляется постоянно, причем каждый попадающий в базу источник проверяется на соответствие заявленной теме. Таким образом, удается избежать наличия в базе сомнительных текстов, а также рекламного мусора". При внедрении системы в пределах одного вуза предполагается, что поисковая система будет включать как базу собственных, вузовских, работ, так и работ, размещенных в Интернете. При этом база работ из сети Интернет будет регулярно обновляться со специализированного сервера, через коннектор обновления. Отличие в развертывании системы для крупного вуза заключается только лишь в количестве серверов, выполняющих обработку данных в моменты пиковых нагрузок.
Межвузовская версия позволяет объединить любое количество вузов в единое информационное пространство. В вузах устанавливаются клиентские версии системы "Плагиат-информ", которые для проверки работ связываются с единым центром обработки данных, расположенным в сети Интернет. Полнофункциональные клиентские версии "Плагиат-информ", устанавливаемые в вузах, включают систему внутренней буферизации на уровне локальной сети. При присоединении дополнительных вузов к межвузовской системе "Плагиат-информ" нет необходимости в реструктуризации всей системы, нужно просто увеличить число кластеров и серверов в центре обновления данных. Система "Плагиат-информ" поддерживает три степени глубины проверки работ на плагиат — от быстрой проверки до углубленной:
Для каждого варианта проверки в системе формируется собственный индекс — в целом по работам, индекс по абзацам, а для углубленного поиска индекс строится по предложениям. Система является языконезависимой, что позволяет, подключив морфологический модуль требуемого языка, сразу начинать работать с текстами, написанными на этом языке. Эта особенность позволила компании приступить к внедрению системы в Казахстане. (По словам Матвеева, это государство оказалось наиболее заинтересованным в обеспечении качества подготовки своих будущих специалистов, в отличие от России.) Поэтому первым внедрением системы стало внедрение в КазГосНТИ, а на 2008 год заложен бюджет на внедрение в десяти ведущих государственных вузах Казахстана. По России на сегодня подписан контракт с Южным федеральным университетом. И еще около десяти вузов тестируют систему, и с ними готовится подписание соглашения. Ведутся переговоры и на Украине. Возможно, что в следующем году начнется внедрение системы и в вузах этого государства. Вторым направлением деятельности компании, о котором говорил ее генеральный директор, является использование системы полнотекстового поиска для организации системы информационной безопасности организации. О том, что деятельность инсайдеров является одной из основных причин утечки информации, говорится давно. Причины, по которым сотрудники компании могут становиться инсайдерами, самые разнообразные. Но суть их деятельности одна — передать за пределы организации конфиденциальную информацию. Способы могут быть разными — и копирование информации на съемные носители, и отправка их посредством электронной почты или выкладывания на внешние файловые хранилища, использование сервисов коротких сообщений и простая распечатка документов.
Следует отметить, что контур безопасности, основанный на решениях компании "Софтинформ", может использоваться и с несколько иной целью, например, для контроля переписки сотрудников и их переговоров посредством сервисов коротких сообщений, анализа материалов, размещенных на локальных дисках рабочих станций. Все это сказывается на том, что компании, установившие и использующие у себя данную систему, не афишируют это и одним из требований договора с компанией-разработчиком является неразглашение сведений о компании-клиенте. А такие компании, внедрившие систему, уже есть. Предлагаемое решение позволяет отслеживать утечки конфиденциальной информации посредством электронной почты, ICQ, внешних устройств (USB/CD), документов, отправляемых на печать, а также отслеживать появление конфиденциальной информации на компьютерах пользователей. Вся перехваченная информация доступна для полнотекстового поиска. Данный контур обладает мощным поисковым движком, позволяющим вести по перехваченной информации фразовый поиск с широким набором функций и уникальный поиск похожих, позволяющий использовать в качестве запроса целые абзацы текста. Система информационной безопасности состоит из нескольких подсистем:
Вся перехваченная информация индексируется и становится доступной для полнотекстового поиска. Остается лишь настроить службу оповещения, которая будет реагировать на определенные словосочетания, встречающиеся в информационном потоке. Это решение в чем-то похоже на решения, основанные на создании системы разграничения доступа к различного типа устройствам, таким как системы DeviceLock или ZLock, но, в отличие от них, не ставит никаких запретов, зато может информировать соответствующие службы безопасности о возможной утечке данных. Что не поддается системе — работа с зашифрованными или запароленными данными. В связи с этим Матвееву был задан вопрос, а что выбирают организации — использование, к примеру, PGP для защиты почтовых сообщений либо возможность перлюстрации почты? В ответ прозвучало, что, как правило, организации выбирают возможность доступа к передаваемой ее сотрудниками информации, нежели к ее защите с помощью систем шифрования. И по производительности системы. Индексирующий сервер способен обрабатывать до одного терабайта информации, что позволяет использовать его для контроля сотни рабочих станций или до пятисот почтовых аккаунтов. В заключение на вопрос, в каком направлении собирается двигаться компания, Лев Матвеев сказал, что есть одна очень интересная тема — распознавание речи, но пока не удалось найти для этой работы соисполнителей, у которых есть подходящее решение. На этом пресс-конференция закончилась. Остается пожелать компании "Софтинформ" дальнейших успехов. Назад |
|
|
© 2012 SearchInform | Контакты | Лицензирование | Безопасность | Условия использования | Инструкции | Вакансии |