SearchInform  
| ОТЗЫВЫ | КОНТАКТЫ |
Latvija Global

information Security

Компания Домой > О компании СофтИнформ> Пресса о SearchInform
 
Новости
 
Отзывы
 
Для журналистов

Нет плагиату

18.10.2007 / События в мире ПО / Михаил Брод

В августе компания "Софтинформ" объявила о выходе новой версии программы "Плагиат-информ". В начале октября программа была представлена на выставке Softool-2007, а несколькими днями позже была проведена официальная пресс-конференция о новых решениях компании "Софтинформ".

На пресс-конференции директору компании Льву Матвееву, сделавшему доклад, был задан естественный вопрос: "Почему пресс-конференция была собрана через несколько месяцев после выхода релиза?" И был получен ответ, что за это время было осуществлено несколько реальных внедрений, что позволило выйти на пресс-конференцию с ощутимыми результатами. Но обо всем по порядку.

Система "Плагиат-информ" унаследовала поисковую технологию, заложенную в базовый продукт компании — SearchInform. Основное отличие этого продукта от своих аналогов заключается в том, что основана она на запатентованной компанией "Софтинформ" функции поиска документов, похожих по содержанию на текст запроса. Именно эта уникальная возможность технологии и позволяет компании "Софтинформ" наиболее эффективно решать большинство проблем обработки и поиска информации.


Лев Матвеев, генеральный директор компании "Софтинформ"

Данная технология успешно применяется для поиска дублирующих друг друга документов в информационных базах предприятий. Обычно такие дубли накапливаются в течение продолжительного времени и зачастую начинают вносить путаницу в работу сотрудников. Поисковая технология помогает, во-первых, избавиться от дублей, а во-вторых, упростить поиск нужной информации. И при этом резко снижается время, затрачиваемое при обычном поиске дублей.

Например, для определения дублей и ненужных похожих файлов может быть использована функция построения отчета анализа похожести. Причем эта операция занимает в десятки раз меньше времени, чем при обычном сравнении. Для примера, сравнение документов в информационной базе, в которой содержится несколько миллионов документов, займет около месяца. А при использовании функции построения анализа похожести — порядка суток.

Несколько иная задача стоит в случае поиска плагиата. Здесь необходимо определить как первоисточник, так и те документы, в которых была использована эта информация. Наиболее ярко эта проблема существует в учебных заведениях, где студенты каждый семестр пишут курсовые работы. При большом количестве студентов определить, какие из работ являются оригинальными, а какие созданы за счет компиляции ранее написанных работ, преподавателям зачастую бывает просто нереально — слишком велик объем требуемой для анализа информации.

О том, как может помочь в работе вузов программа "Плагиат-информ", и говорил в своем докладе Лев Матвеев.

Система одинаково хорошо может использоваться как небольшими, так и крупными вузами. И не только каждым из них в отдельности. Система является масштабируемой и может быть развернута для вузовских объединений, пожелавших создать единую информационную систему студенческих и научных работ. Единственным новшеством для вузов и их студентов при внедрении системы будет требование сдачи курсовых и иных работ в электронном, а не распечатанном виде.

Как определить факт плагиата? Для этого необходимо наличие базы документов, используемых для сравнения. В их числе могут быть как работы, выполненные в конкретном вузе, так и работы, размещенные в интернет-коллекциях рефератов. В настоящее время компания "Софтинформ" ведет постоянный мониторинг новых поступлений в более чем полутора сотнях общедоступных коллекций.

По словам Матвеева, "все новые рефераты, появляющиеся в Сети, скачиваются и пополняют общую базу для проверки. Это держит базу постоянно в актуальном состоянии. Обновление базы работ для проверки осуществляется постоянно, причем каждый попадающий в базу источник проверяется на соответствие заявленной теме. Таким образом, удается избежать наличия в базе сомнительных текстов, а также рекламного мусора".

При внедрении системы в пределах одного вуза предполагается, что поисковая система будет включать как базу собственных, вузовских, работ, так и работ, размещенных в Интернете. При этом база работ из сети Интернет будет регулярно обновляться со специализированного сервера, через коннектор обновления. Отличие в развертывании системы для крупного вуза заключается только лишь в количестве серверов, выполняющих обработку данных в моменты пиковых нагрузок.

Межвузовская версия позволяет объединить любое количество вузов в единое информационное пространство. В вузах устанавливаются клиентские версии системы "Плагиат-информ", которые для проверки работ связываются с единым центром обработки данных, расположенным в сети Интернет. Полнофункциональные клиентские версии "Плагиат-информ", устанавливаемые в вузах, включают систему внутренней буферизации на уровне локальной сети. При присоединении дополнительных вузов к межвузовской системе "Плагиат-информ" нет необходимости в реструктуризации всей системы, нужно просто увеличить число кластеров и серверов в центре обновления данных.

Система "Плагиат-информ" поддерживает три степени глубины проверки работ на плагиат — от быстрой проверки до углубленной:

  • быстрая проверка используется для предварительной оценки работ, а также позволяет сразу же определить, какие работы являются неприкрытым плагиатом;
  • проверка в smart-режиме позволяет более тщательно проверить работу и выявляет факт плагиата даже при серьезной редактуре текста и составлении работы из разных источников;
  • углубленный поиск позволяет получить максимально детализированный отчет об источниках, из которых производились заимствования информации.

Для каждого варианта проверки в системе формируется собственный индекс — в целом по работам, индекс по абзацам, а для углубленного поиска индекс строится по предложениям. Система является языконезависимой, что позволяет, подключив морфологический модуль требуемого языка, сразу начинать работать с текстами, написанными на этом языке.

Эта особенность позволила компании приступить к внедрению системы в Казахстане. (По словам Матвеева, это государство оказалось наиболее заинтересованным в обеспечении качества подготовки своих будущих специалистов, в отличие от России.) Поэтому первым внедрением системы стало внедрение в КазГосНТИ, а на 2008 год заложен бюджет на внедрение в десяти ведущих государственных вузах Казахстана.

По России на сегодня подписан контракт с Южным федеральным университетом. И еще около десяти вузов тестируют систему, и с ними готовится подписание соглашения. Ведутся переговоры и на Украине. Возможно, что в следующем году начнется внедрение системы и в вузах этого государства.

Вторым направлением деятельности компании, о котором говорил ее генеральный директор, является использование системы полнотекстового поиска для организации системы информационной безопасности организации. О том, что деятельность инсайдеров является одной из основных причин утечки информации, говорится давно. Причины, по которым сотрудники компании могут становиться инсайдерами, самые разнообразные. Но суть их деятельности одна — передать за пределы организации конфиденциальную информацию. Способы могут быть разными — и копирование информации на съемные носители, и отправка их посредством электронной почты или выкладывания на внешние файловые хранилища, использование сервисов коротких сообщений и простая распечатка документов.

Следует отметить, что контур безопасности, основанный на решениях компании "Софтинформ", может использоваться и с несколько иной целью, например, для контроля переписки сотрудников и их переговоров посредством сервисов коротких сообщений, анализа материалов, размещенных на локальных дисках рабочих станций. Все это сказывается на том, что компании, установившие и использующие у себя данную систему, не афишируют это и одним из требований договора с компанией-разработчиком является неразглашение сведений о компании-клиенте. А такие компании, внедрившие систему, уже есть.

Предлагаемое решение позволяет отслеживать утечки конфиденциальной информации посредством электронной почты, ICQ, внешних устройств (USB/CD), документов, отправляемых на печать, а также отслеживать появление конфиденциальной информации на компьютерах пользователей. Вся перехваченная информация доступна для полнотекстового поиска. Данный контур обладает мощным поисковым движком, позволяющим вести по перехваченной информации фразовый поиск с широким набором функций и уникальный поиск похожих, позволяющий использовать в качестве запроса целые абзацы текста.

Система информационной безопасности состоит из нескольких подсистем:

  • SearchInform Server с коннектором индексации рабочих станций позволяет отследить появление конфиденциальной информации на компьютерах пользователей;
  • SearchInform MailSniffer предназначен для перехвата почтового трафика на уровне сетевых протоколов, индексирования полученных сообщений и осуществления поиска по ним. С помощью MailSniffer можно наладить контроль над качеством работы сотрудников посредством мониторинга переписки;
  • DeviceSniffer — программа, которая перехватывает информацию, записываемую на устройства через порты USB или, например, на CD/DVD-диски;
  • IMSniffer — программа, перехватывающая данные, отправляемые клиентами для мгновенного обмена сообщениями (ICQ, QIP и так далее);
  • PrintSniffer — программа, которая контролирует содержимое документов, отправленных на печать;
  • AlertCenter позволяет мгновенно предупредить лиц, ответственных за информационную безопасность, о нарушении политики безопасности.

Вся перехваченная информация индексируется и становится доступной для полнотекстового поиска. Остается лишь настроить службу оповещения, которая будет реагировать на определенные словосочетания, встречающиеся в информационном потоке.

Это решение в чем-то похоже на решения, основанные на создании системы разграничения доступа к различного типа устройствам, таким как системы DeviceLock или ZLock, но, в отличие от них, не ставит никаких запретов, зато может информировать соответствующие службы безопасности о возможной утечке данных.

Что не поддается системе — работа с зашифрованными или запароленными данными. В связи с этим Матвееву был задан вопрос, а что выбирают организации — использование, к примеру, PGP для защиты почтовых сообщений либо возможность перлюстрации почты? В ответ прозвучало, что, как правило, организации выбирают возможность доступа к передаваемой ее сотрудниками информации, нежели к ее защите с помощью систем шифрования.

И по производительности системы. Индексирующий сервер способен обрабатывать до одного терабайта информации, что позволяет использовать его для контроля сотни рабочих станций или до пятисот почтовых аккаунтов.

В заключение на вопрос, в каком направлении собирается двигаться компания, Лев Матвеев сказал, что есть одна очень интересная тема — распознавание речи, но пока не удалось найти для этой работы соисполнителей, у которых есть подходящее решение.

На этом пресс-конференция закончилась. Остается пожелать компании "Софтинформ" дальнейших успехов.

Назад





Новости компании
2012-05-04

SearchInform провела мастер-класс на конференции«Электронная Казань 2012»

Все новости компании


Новости о продуктах компании
2012-04-11

SearchInform представила новую версию NetworkSniffer

Все новости о продуктах компании


Пресса
2012-05-16

«Делай ноги» или зачем нам знать, когда сотрудник собирается уйти?

Вся пресса