Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2064

.pdf
Скачиваний:
13
Добавлен:
07.01.2021
Размер:
2.87 Mб
Скачать

Рис. 7.5. Характеристика текста по динамике изменения числа вспомогательных знаков в предложении

Самый популярный из них представляется службой Turnitin (www.turnitin.com). Она работает на коммерческой основе и сличает предоставляемые преподавателями студенческие работы с текстами из так называемых «коллекций рефератов» (они продаются в Internet для использования в качестве курсовых работ).

Другой инструмент EVE2 (www.canexus.com.eve) генерирует отчет, содержащий процент заимствований и аннотированную копию анализируемой работы с выделенными красным цветом заимствованных фрагментов. К недостаткам EVE2 относят ограниченность масштаба поиска (только по Web-контенту в формате HTML, при том, что большая часть материалов во Всемирной паутине хранится в других форматах).

111

Рис. 7.6. Структурная схема работы детектора плагиата

Один из последних детекторов плагиата описан в [21]. Схема работы детектора приведена на рис. 7.6.

«Грамматический разбор» осуществляется «вероятностным пакетом распознавания частей речи OTAG (web.bham.ac.Uk/o.mason/software/tagger)». Каждому слову в файле он приписывает название: существительное, прилагательное, местоимение и т.д. По этой информации оценивается структура построения предложений. Кроме того, вычисляется «индекс легкости чтения» Флеша и образовательный индекс ФлешаКинсайда для каждого абзаца и документа в целом. Индексы отражают информацию о среднем числе слов в предложении и среднем числе слогов в слове. По этим данным делается заключение о числе авторов, принимавших участие в написании всего текста (в норме должен быть один). Если подозрение о плагиате продолжает сохраняться, идет обращение по протоколу SOAP к Web-сервису поисковой машины Google.Web API. Фрагменты текста, идентифицированные в результате грамматического разбора как «потенциально заимствованные у других авторов», проверяются на наличие в базах данных, доступных Google. Прежде всего производится поиск точных соответствий, затем контекстных совпадений ключевых слов. Индекс плагиата устанавливается в диапазоне от одного до пяти.

Более детальной информации не сообщается по причине (по заявлению авторов) необходимости ее сокрытия от проверяемых.

Другой класс задач по анализу текстов – задача контент-анализа. В ХХ веке начинать день с просмотра газет для многих стало ритуалом. В современном обществе средства массовой информации (СМИ) не столько сообщают о последних событиях в мире, сколько задают общий настрой в обществе, тонус жизни, ценностосмысловую презентацию. Через СМИ регулируется социальное и политическое поведение, задается нравственный и психологический климат в обществе, закрепляются или меняются стереотипы

восприятия и реакции.

Технология формирования общественного мнения, а значит, власти над ним, осуществляемая через СМИ, достаточно сложна. Она

– основа информационных войн. С некоторыми методами выявления атак на сознание и подсознание познакомимся в этом подразделе.

112

Авторы текстов выстраивают аргументацию своих намерений таким образом, чтобы лучше донести или скрыть их. Считается, что анализируя текст, можно определить, о чем действительно хотел сказать или умолчать автор. Эту задачу часто удается решить методом «чтения между строк» или контент-анализом.

Контент-анализ базируется на подсчете встречаемости лингвистических составляющих в исследуемом информационном массиве. Он дополняется выявлением в тексте их статистических характеристик и анализом структурных связей между ними.

Вкачестве подсчитываемых составляющих выступают категории – множество слов, объединенных по тому или иному признаку. Например, категория «жилье» включает совокупность синонимов: берлога, дом, жилье, жилище, логово, обиталище, обитель. Категории «агрессивность» соответствует агрессивно окрашенная лексика: бить, бушевать, грозить, на зло, одолеть, погром, рычать…

В60-х годах ХХ века был разработан Гарвардский психосоциологический компьютерный словарь, в котором 3500 слов разбивались на 83 группы. Наиболее часто встречающиеся слова названы ключевыми. Есть количественные оценки «эмоциональной окраски этих слов». На этой основе создан Стэнфордский политический словарь, с его помощью производилась кодировка исследуемых текстов для обработки на компьютерах. Словарь включал 6584 слова, 977 из них характеризуют позитивное восприятие, 1513 – негативное восприятие, 1391 – силу, 579 – слабость, 1218 – активность, 722 – пассивность. Приведенные цифры показывают, что формирование категорий – не простая задача.

Впрактике контент-анализа встречаются и более сложно устроенные категории. Они строятся через объединение нескольких характеристик, каждой из которых дополнительно присвоен признак по заранее фиксированным шкалам [22].

Частота упоминания в тексте некоторой категории подсчитывается как сумма относительных частот входящих в нее слов. Относительные частоты слов находятся через отношение числа появлений слова к общему числу слов анализируемого текста. Полученные частоты категорий сравниваются с нормой – ожидаемой относительной частотой ее встречаемости в данном классе текстов. Нормы формируются с использованием частотных словарей, относящихся к разным сферам человеческой деятельности. Если

113

анализируются тексты, написанные в рамках этой деятельности, то отклонение реальных частот от нормы и есть необходимый материал для дальнейшего анализа. Нормы можно составить для отдельных людей, и через анализ текущей текстовой (или речевой) информации контролируется динамика их состояния через отклонения от нормы.

Для выявления связей между категориями текст разбивается на предложения (абзацы, страницы), которые нумеруются по порядку и в каждом таком фрагменте определяются встречаемости различных категорий. Связь различных категорий оценивается через коэффициенты корреляции построенных кривых. Например, категория президент (верховный, главнокомандующий, первые лица…) связана с категориями «рост уровня жизни (падение уровня жизни) населения», и «преступность» и т.д.

Если анализу подвергается массив упорядоченных во времени текстов, поступивших из одного источника, речь идет о контентмониторинге текстовой информации. Так, анализ пресс-релизов РАО ЕЭС позволил выявить закономерности, связывающие различные психолингвистические характеристики текстов с последующими биржевыми изменениями курса акций компании.

На этом мы ограничимся изложением способов получения информации из анализируемых текстов при проведении контентанализа. Главная задача: как интерпретировать полученные результаты – не имеет однозначного решения и определяется квалификацией и интуицией интерпретатора. Поэтому иногда встречаются такие выводы, которые воспринимаются «как высосанные из пальца». Тем не менее полезную информацию с помощью контент-анализа удается получить при решении ряда актуальных задач. Перечень некоторых из них приведен ниже.

1. Объективность отражения событий прессой. Принимая решение, какое издание следует выписать на очередной год, имеет смысл узнать, придерживается ли оно фактической стороны происходящих событий. Не секрет, что ряд изданий замалчивает некоторые события. Причины: это негативно скажется на интересах заказчика либо публикация ряда материалов не укладывается в картину восприятия действительности аудиторией, на которую рассчитывает газета.

Задача решается нахождением корреляции между кривой, отражающей реальные события, и кривыми, полученными контентанализом для каждой газеты. Пример решения такой задачи описан в

114

[23].

С помощью информационной системы «Артефакт» вычислялось количество упоминаний в текстах определенных категорий.

Информационная система «Артефакт» (http://www.integrum.com) – публичная российская информационная система коллективного пользования, содержащая политическую, коммерческую, научную и адресно-справочную информацию. Неоднократно высказывалось мнение, что «Артефакт» надежная, проверенная временем система в России. В ней содержится около 5000 различных баз данных, суммарный объем которых превышает 350 Гб. Ежедневно в память системы добавляются полные тексты тысяч документов.

Всистеме «Артефакт» можно найти информацию, поставляемую:

центральной прессой (газеты и журналы) с глубиной архивов с 90-х годов;

зарубежной прессой (порядка 150 русскоязычных изданий ближнего и дальнего зарубежья за последние 5 лет);

Internet-изданиями (около 200 сайтов за последние 2-3 года);

«мониторингом СМИ»/аналитика (сотни аналитических изданий);

компьютерной прессой (полные тексты 50 компьютерных журналов за последние 3-4 года);

региональной прессой (~ 1000 изданий) за последние 3-5 лет;

«мониторингом» телерадиоэфира (десятки баз данных);

базами данных экономического плана, адресно-справочной информации и др.

Всистеме принято, что в запросе, состоящем из одного слова, будут найдены все документы, в которых содержится любая форма этого слова (любое число, падеж, время, наклонение, лицо – для глагола).

Система позволяет искать слова, находящиеся на определенном расстоянии или следующие в определенном порядке.

Вчастности, строилась кривая «число забастовок в России –

время». С помощью системы «Артефакт» проводился поиск категории «забастовка», встречающихся в газетах: «Независимая газета», «Известия», «Московский комсомолец», «Коммерсант Daily Завтра», «Российские вести», «Правда». Далее находились коэффициенты корреляции действительного процесса с построенными с помощью упомянутой информационной системы. Полученные результаты следует отнести к категории неожиданных данных (табл. 7.2).

Таблица 7.2

Коэффициенты корреляции результатов контент-анализа с действительными событиями

115

Газета

Независимая газета

Известия

Московский комсомолец

Коммерсант Daily

Завтра

Российские вести

Правда

 

 

 

 

 

 

 

 

 

Коэффициент

0,71

0,54

0,47

0,34

0,12

0,02

-0,05

корреляции

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Об объективности отражения такого феномена в обществе как «забастовка» вряд ли можно составить представление по публикациям большинства российских изданий.

Рассмотрим другой пример: контент-анализ эффективности работы РАО ЕЭС. Исходные данные – регулярно помесячно публикуемые пресс-релизы компании и цены ее акции за 4 года. Детальный анализ данных описан в книге [24]. Краткое изложение его результатов приведено ниже.

По пресс-релизам оценивались ежемесячно 62 категории. Находились коэффициенты взаимной корреляции между функциями, характеризующими каждую категорию и курсом акций при сдвиге коррелируемых кривых на 0,1,2,3,4,5 месяцев. Нулевой сдвиг соответствовал непосредственной реакции акционеров на сообщаемую информацию. Сдвиги на один и более месяцев соответствовали реакциям акционеров на реальные результаты хозяйственной деятельности компании, а не одну лишь публикуемую компанией информацию. Фрагмент полученных данных представлен в табл. 7.3.

Таблица 7.3

Коэффициенты корреляции изменения частоты категорий и курсов акций компании РАО ЕЭС

Категория

 

 

Месяцы

 

 

 

0

1

2

3

4

5

Власть (В)

0,39

0,36

0,47

0,22

0,08

-0,03

 

 

 

 

 

 

 

Аффиляция

0,17

-0,03

0,09

-0,16

-0,16

-0,29

(А)

 

 

 

 

 

 

Достижение

0,13

0,26

0,45

0,42

0,52

0,19

(Д)

 

 

 

 

 

 

Д+В-А

0,37

0,46

0,60

0,39

0,32

0,13

 

 

 

 

 

 

 

116

К категории «Власть» относится информация о различных управленческих решениях, связанных с распределением задач, координацией их выполнения, побуждением исполнителей и т.д. Из таблицы следует, что ожидания от твердой руки (власти) позитивно сказывается на курсе акций. Реальный эффект проявления «Власти» наступает через два месяца, когда коэффициент корреляции достигает значения 0,47. Через 5 месяцев корреляция по этой позиции ничтожна. Интерпретация низкого результата – проявилась нерешительность и бюрократизм в проведении управленческих решений.

Аффиляция – деятельность, направленная на поиск дружеских связей, социальную кооперацию, взаимоподдержку. Ее влияние на курс акций незначительно.

Достижение – деятельность, направленная на достижение результата. Реальные проявления фактора «Достижение» наступает через два месяца, а своего пика достигают через 4.

Показатель «Достижение + Власть – Аффиляция» коррелирует с экономическими показателями более сильно, чем каждый из его составляющих. В нулевой точке ожидания практически отсутствуют, через 2 месяца регистрируется максимум, затем наступает спад.

Интерпретация результатов. Проведенный анализ позволил приподнять завесу таинственности происходящего в компании. Большинство показателей, по которым прогнозируется будущая ситуация, акционерами не улавливается. Но если начала проявляться тенденция падения комбинированной категории Д+В–А, нужно сто раз подумать, прежде чем покупать акции этой компании. А лучше их просто побыстрее продать.

Заключение

В этой части учебного пособия показаны области применения теории случайных процессов на практике в части обработки и защиты информации. Число таких приложений при необходимости можно продолжать долго. Ясно одно, что провозгласив о начале эпохи модернизации в России, следует позаботиться о подготовке квалифицированных кадров, владеющих теоретическим аппаратом в избранной сфере деятельности.

117

Библиографический список

1.Тарасов Г.П. Статистические методы обработки информации в системах измерения ионизирующего излучения / Г.П.Тарасов. – М.: Атомиздат, 1980.– 208 с.

2.Ван Кампен Н.Г. Стохастические процессы в физике и химии / Н.Г.Ван Кампен. – М.: Высш. шк., 1990.– 376 с.

3. Светлицкий В.А. Случайные колебания механических систем / В.А. Светлицкий. – М.: Машиностроение, 1991.– 320 с.

4.Дмитриев В.И. Прикладная теория информации / В.И.Дмитриев. – М.: Высш. шк., 1989.– 320 с.

5.Об информации, информатизации и защите информации: Федеральный закон от 20.02.95 № 2–1–Ф3.

6.ГОСТ Р 50922-96. Защита информации. Основные термины и определения.

7.Об участии в международном информационном обмене: Федеральный закон от 04.07.96 № 85–Ф3.

8.Основы информационной безопасности / Е.Б. Белов, В.П. Лось, Р.В. Мещеряков, А.А. Шелупанов. – М.: Горячая линия – Телеком, 2006. – 544 с.

9.Кузнецов Н.А. Информационная безопасность систем организационного управления. Теоретические основы: в 2 т. / Н.А. Кузнецов. – М.: Наука, 2006.– Т.1. – 495 с., Т.2. – 437 с.

10.Барышников Ф.Ф., Дубов В.В., Перебейнос В.В. Способ обнаружения глаз людей и животных. Патент RU 2223516, заяв. 02.07.2002, опубл. 10.02.2004.

11.Носко В.П. Локальная структура гауссовых случайных полей в окрестности высоких бликов / В.П. Носко / Доклады академии наук СССР. – 1969.– Т. 189. – №4. – С. 714-717.

12.Newbold P.M. Detection of a changes in the characteristics of a GaussMarkov process // IEEE Trans. Aerospace and Election Syst., 1968,4 N5, p.707-718.

13.Никифоров И.В. Последовательное обнаружение изменения свойств временных рядов / И.В.Никифоров. – М.: Наука,1983. – 200 с.

14.Варламов В.А. Детектор лжи / В.А.Варламов. – М.: ПЕРСЭ-пресс, 2004.

352 с.

15.Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений /А.И.Иванов. – Пенза.: Изд-во Пенз. гос. ун-та, 2000. – 188 с.

16.Бондаренко В.П. Математическое и программно-алгоритмическое обеспечение в задачах идентификации и распознавания речи / В.П.Бондаренко / Вестник Сиб. гос. аэрокосмического ун-та. Спецвыпуск «Системная интеграция и безопасность». – Красноярск: СибГАУ, 2006. – С. 11-14.

17.Женило В.Р. Специальная техника и информационная безопасность/ В.Р. Женило и др.; под ред. В.Н. Кирана. – Т.1. – М.: Академия управления МВД России, 2000. – 780 с.

118

18.Ролдугин С.В. Модели речевых сигналов для идентификации личности по голосу / С.В. Ролдугин, А.Н. Голубинский, Т.А. Вольская // Радиотехника. – 2002. – № 11. – С. 79-81.

19.Батов В.И. Другому как понять тебя? / В.И. Батов. – М.: Знание, 1991. –

68 с.

20.Тюрин Ю.Н. Статистический анализ данных на компьютере / Ю.Н. Тюрин. – М.: ИНФРА-М, 1998. – 528 с.

21.Колин Н. Web-инструмент для выявления плагиата / Н. Колин, Ш. Ганеш // Открытые системы. – 2005.– № 1. – С. 40-44.

22.Шмелев А.Г. Психодиагностика личностных черт / А.Г.Шмелев. – СПб.: Речь, 2002. – 480 с.

23.Дудихин В.В. Конкурентная разведка в Интернет / В.В. Дудихин, В.З. Дудихина. – М.: ООО Изд-во АСТ, 2004. – 229 с.

24.Шалак В.И. Контентанализ. Приложения в области: политологии, психологии, социологии, культурологи, экономики, рекламы / В.И.Шалак / Российская акад. наук; Ин-т философии. – М.: Омега-Л, 2004. – 272 с.

119

Учебное издание

Борис Николаевич Епифанцев, Маргарита Ярополковна Епифанцева

СЛУЧАЙНЫЕ ПРОЦЕССЫ В ЗАДАЧАХ ОБРАБОТКИ И ЗАЩИТЫ ИНФОРМАЦИИ

Часть 2. Теория случайных процессов для решения прикладных задач

Учебное пособие

***

Ректор Т.И.Калинина

***

Подписано к печати 15.05.12 Формат 60х90 1/16. Бумага писчая Оперативный способ печати Гарнитура Times New Roman Усл. п. л. 7,0, уч.-изд. л. 5,65 Тираж 100 экз. Заказ №__ Цена договорная

***

Издательство СибАДИ 644099, г. Омск, ул. П. Некрасова, 10

Отпечатано в подразделении ОП издательства СибАДИ

120

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]