Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
20.04.2023
Размер:
3.56 Mб
Скачать

большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.

В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики,

нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием — аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK — Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам,

решаемым той или иной организацией.

Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:

-задачи установления факта принадлежности слова к некоторой части речи;

-задачи приведения слова к канонической форме;

-задачи выделения семантически связных цепочек слов;

-задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;

-задачи восстановления системы ссылок и умолчаний;

-задачи соотнесения термина с грамматической и семантической категориями;

-задачи связывания тематически связных фрагментов текста.

Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии (многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение,

хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая

трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.

Сегодня за рубежом (увы, не у нас) на решение этих проблем затрачиваются значительные средства. Например, для решения проблем, связанных с автоматизацией обработки и анализа текстов, в бюджете американской военной исследовательской организации DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно.

Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе — NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий — см. далее) эксперта-

аналитика.

Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К

числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интер-текстовых ссылок и умолчаний (случаи неявного упоминания слов

итерминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в

текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов

иподходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем — суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы

«объяснить» программе, как поступать в таком случае.

3.5.2 Структурированные текстовые данные

Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе — формализованный текст, таблицы,

базы и хранилища данных, предоставляющие возможности поиска и фильтрации данных в

таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило,требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило,

представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.

В связи с этим, чрезвычайно важным фактором, определяющим успешность применения созданной базы данных, является структура описаний (совокупность атрибутов,

используемых для описания объектов учета) . Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придется проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.

Вопросу атрибуции данных мы посвятим отдельный подраздел в данном разделе. При этом мы не будем затрагивать проблему синтеза классификаций, которые используются для декомпозиции некоторой системы или предметной области на классы сущностей,

описываемых набором атрибутов — эти вопросы подробно рассматриваются в специализированной литературе, посвященной вопросам теории баз данных, их проектирования, организации процесса проектирования и создания . При рассмотрении вопросов, связанных с атрибуцией данных, наше внимание будет сосредоточено на проблеме

создания специфических баз данных — баз данных, предназначенных для хранения первичных материалов ИАР (сообщений) и описания источников информации,

адаптированных к решению задач автоматизированного анализа ситуаций.

Однако, прежде, чем перейти к рассмотрению этого блока вопросов, рассмотрим специфику структурированных источников информации. Мы уже указали на необходимость использования для работы со структурированными данными двухуровневых моделей интерпретации, а именно — модели организации данных (метаданных или метамодели).

Располагая такой моделью, аналитик получает уникальную возможность получения специализированных массивов данных, отражающих состояние некоторого атрибута объекта анализа. В том числе, благодаря наличию структурной организации, может быть легко получен упорядоченный во времени массив численных значений некоторого параметра системы или процесса, или, наоборот — мгновенный срез состояния системы, образованный совокупностью измерений всех ее параметров.

В этом смысле, база данных представляет собой уникальный источник информации,

использование которого в сочетании со средствами автоматизации ИАР способно многократно повысить продуктивность труда аналитика. Характерно, что большинство технических средств сбора информации, выражающих результаты в символьном виде,

способно служить источниками только таких — специализированных данных. Как следствие, методологическое обеспечение систем анализа структурированных и числовых параметрических данных во многом совпадает. Даже в случае, когда в качестве параметров используются естественно-языковые термины, они могут рассматриваться как численные оценки значения атрибута, между которыми могут быть установлены те или иные отношения

(порядка, величины, объема понятия и т. д.). В результате для обработки таких данных могут быть (хоть и с некоторыми изменениями) применены пакеты автоматизированной статистической обработки данных наблюдений, системы математического моделирования и иные программные средства, располагающие широкими возможностями для проведения статистических исследований, анализа временных рядов, спектрального анализа и так далее.

По существу, одной из задач информационной работы и является построение именно такого, структурированного ресурса для «внутреннего потребления» субъектом ИАР. Однако на пути к этому необходимо решить целый ряд сложных проблем, связанных с переходом от символьных данных произвольной семантики к символьным данным специальной семантики, обладающих метризованным словарем. Здесь, в частности, используются методы нечетких множеств, многозначной и нечеткой логики (работы А. Лукасевича, Л. Заде и их последователей).

3.5.3 Взаимные преобразования различных типов данных

Структурированные текстовые данные занимают промежуточную ступень между численными и естественно-языковыми данными. К этому виду могут быть приведены практически любые числовые данные, при этом речь идет не о преобразовании записи числа из системы цифровой записи в запись с помощью числительных натурального языка, а

реальной трансляции числа в термин. Примером такого преобразования может выступать преобразование числовых данных «длина отражаемой или излучаемой объектом волны светового колебания» в текстовые данные типа «цвет объекта» и тому подобные. При этом используются не только значения величин, но и производные первого и второго порядков,

результаты интегрирования, вычисления дискретной суммы и тому подобных вычислительных процедур.

Инструментом выполнения таких преобразований служат модели трансляции, задачей которых является установление взаимно однозначного соответствия между параметром

(группой параметров) и термином на основе объективных критериев. В наглядной интерпретации процесс трансляции данных с частной семантикой (областью определения терминов знаковой системы) к виду данных универсальных знаковых систем может быть представлен так, как это сделано на рисунке, приведенном ниже.

Рисунок 9 — Графическое представление процесса трансляции

Графическая интерпретация процесса трансляции иллюстрирует частный случай применения модели трансляции для преобразования данных, отображающих процесс,

характеризующийся одним параметром, в совокупность терминов четырех классов: имена

(имя процесса, имя параметра, имя состояния, предикат и характеристика предиката). С

помощью подобной модели трансляции могут быть получена следующая совокупность

высказываний: «Процесс (имя) пребывает в состоянии (Т1). Значение параметра (имя параметра) (характеристика крутизны Д1, наречие) (предикат П1, глагол)». Усложнение подобной модели трансляции может позволить формировать и более сложные высказывания,

но это потребует усложнения тезауруса. Однако уже в таком виде при использовании системы координат параметр/время высказывания будут содержать существительные,

наречия и глаголы.

Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус,

состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в терминах, определенных на трех уровнях иерархии. Термин

«нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В

языках естественного общения такое требование в большинстве случаев не выполняется (до тех пор, пока для решения задач практической деятельности такой термин не будет введен и не заместит общеупотребительный термин).

Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков

(модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В

частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели.

Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции.

Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных.

3.5.4 Анализ информативности источников

При рассмотрении технологии поиска, отбора и экспресс-анализа мы не касались проблемы анализа информативности источников. Между тем, задачи анализа информативности источников чрезвычайно важны, поскольку напрямую связаны с вопросами эффективности ИАР.

Наиболее распространенным подходом к анализу информативности источника является подход, основанный на определении отношения числа сообщений, релевантных проблеме исследования, к общему числу сообщений, однако такой подход не всегда приемлем. Например, если некий источник функционирует в соответствии с известным графиком и в установленное время предоставляет релевантные данные, его информативность в соответствии с описанным подходом может оказаться крайне низкой. Но если учесть возможность отслеживания данных только на заданном интервале времени, то при разумной организации работ информативность окажется намного выше, нежели у многих других источников, передающих релевантные данные в непредсказуемый момент времени.

Другой аспект проблемы оценивания информативности связан с характером данных и категорией потребителя (в том числе, его ценностной ориентацией и финансовыми возможностями). Допустим, что, действуя по поручению некого штаба предвыборной кампании, ваша организация решает задачу определения предвыборной тактики гипотетического соперника заказчика, пытающегося «оседлать» малоимущие слои населения. Если в интересах решения задачи вы без разбора закупаете все множество местных газет, то наиболее вероятно, что большую часть денег вы тратите понапрасну. Ведь соперник вашего кандидата тоже ограничен в средствах, и постарается оптимизировать затраты, а значит, он не станет размещать свою предвыборную агитацию в дорогих изданиях

(на них придется минимум средств из его бюджета), а будет ориентироваться на дешевые, но содержательные, либо на бесплатно распространяемые газеты, публикующие программу телепередач. Информативность таких газет в целом (в пересчете на количество статей)

может оказаться невысокой, но релевантные данные будут встречаться регулярно (из номера в номер).

Можно привести похожий пример, но из сферы бизнеса: едва ли имеет смысл скупать всю региональную прессу для получения суточной сводки биржевых котировок — для того есть специальные колонки в солидных газетах (а тем более — в ГСТК Интернет и «за

бесплатно»). И наоборот... Всем известно, что реклама — двигатель прогресса, что стоит она недешево, и что существуют определенные требования к числу показов рекламы для того,

чтобы объект рекламы отпечатался в памяти потребителя. Пусть перед вами стоит задача установления системы целей и коэффициентов их важности для некого рекламодателя... Вот здесь вам, действительно, стоит изучить весь массив региональной прессы, дабы установить рекламную политику объекта: состав привлекаемых СМИ, стоимость размещения рекламного блока, слои населения, потребляющего продукцию данного СМИ. Возможно,

вам придется сымитировать попытку размещения рекламы в СМИ и изучить предлагаемую их рекламным отделом тактику проведения рекламной кампании... то есть, бизнес-разведка в чистом виде. А на выходе — сведения о бюджете рекламной кампании, оценка приоритетов конкурента и иные полезные сведения.

Таким образом, любая организация, работающая в сфере ИАО и борющаяся за повышение качества своей информационной продукции, помимо прочих работ должна осуществлять:

-непрерывные поисковые мероприятия в интересах определения круга источников информации по своей специфике;

-проводить активный поиск и отслеживать периодически обновляемые информационные ресурсы телекоммуникационных сетей;

-располагать классификацией аудитории и вести работы по установлению типа аудитории того или иного средства массовой информации.

По существу, на момент получения очередной задачи субъект ИАР должен располагать готовой гипотезой о составе и характере источников, потенциально представляющих интерес для проведения исследований в своей «зоне ответственности». Для освоения новой области исследований полезны различные методы активизации мыслительной деятельности от «метода кроссворда» до мозговых штурмов и исследований технического плана.

Но не все так просто: существует ряд проблем, связанных с процессом оценки информативности, да и с процессом анализа и интерпретации текстовых данных в целом.

Как это ни странно, но при решении этих проблем компьютерные системы способны оказать чуть ли не большую пользу, чем эксперт-аналитик. В том числе, речь идет и о проблемах эмоциональной аттестации текстов и выявлении скрытых противоречий и недомолвок во внешне нейтральных и непротиворечивых текстах, а также о проблеме поддержания целостности и стабильности модели мира аналитика.

3.5.5 Проблема активной фильтрации сообщений

Одним из наиболее распространенных путей добывания информации в сфере средств массовой информации является использование каналов межличностных коммуникаций

(хотя, «метод потолка и пальца» в СМИ еще никто не отменял). Система межличностных связей бывает крайне сложной, и на пути к потребителю информация проходит через сложную цепочку связей, выполняющую роль активного фильтра.

Работа с сообщениями вторичных источников имеет свою специфику,

заключающуюся в том, что относительная простота получения доступа к ним сочетается с крайней сложностью интерпретации данных, получаемых от них. Характерной особенностью современной информационной обстановки является экспоненциальный рост числа вторичных источников информации по отношению к первичным. В создавшихся условиях аналитические службы уже не могут пренебрегать такой важной характеристикой канала распространения информации, как ценностная ориентация вторичного источника или их совокупности. Это приводит к тому, что все больший вес приобретает задача оценивания и «аттестации» источников. Важность этой задачи легко проиллюстрировать с помощью представленного на рисунке примера отображения исходного сообщения первичного источника А0 в сообщения А1 и А2 вторичных.

В предложенном примере исходное сообщение А0, изначально представленное множеством информационных составляющих а0, а1, .., а7, проходя по цепочке информационного взаимодействия, теряет часть составляющих, трансформируясь в А1 и А2.

В данном случае эти потери вызваны различиями в ценностной ориентации индивидов В и С,

а множества В и С отражают характеристики их фильтров ценностной ориентации.

Рисунок 10 — Случай пассивной фильтрации сообщения

Рассматриваемый здесь случай демонстрирует двоичный вариант пассивной мультипликативной фильтрации сообщения. При этом коэффициенты фильтра принимают значения 0 или 1, исключая или пропуская без изменений ту или иную составляющую исходного сообщения. На практике такой случай встречается довольно часто и может условно именоваться «случай умалчивания». Однако такая блокировка части сообщения не

всегда убедительно выглядит для потребителя сообщения — на практике значения элементов упорядоченного множества коэффициентов передачи (назовем их условно множителями),

составляющего характеристику ценностной ориентации могут колебаться в диапазоне действительных чисел (данное утверждение условно, так как зависит от формальных договоренностей).

Реальная возможность оценивания характеристики совокупной ценностной ориентации всей передающей цепочки, как правило, отсутствует. В редких случаях,

используя провокационную стратегию (тестирование) можно определить реакцию компонентов цепочки на отдельные входные сообщения, однако действие социальных и психологических факторов при общении способно обесценить результат такой работы.

Психологические установки собеседников, различия в их социальном статусе,

целевой и ценностной ориентации нередко служат причиной того, что в процессе общения собеседники, образуя своебразную систему, оказывают друг на друга взаимное влияние, что также приводит к искажению сообщения. Варианты искажений в таких мини-системах могут быть резко полярными — от сокрытия до многократного преувеличения или инверсии отдельных смысловых составляющих сообщения. Особенно часто этот феномен наблюдается при попытках сглаживания конфликтных ситуаций.

Особый интерес представляют результаты анализа искажений при наличии нескольких версий сообщения, поступивших из различных источников, поскольку они позволяют сформировать представление о ценностной ориентации вторичных источников и осуществить их категорирование по признаку сонаправленности векторов их целей с целями некоторых политических, финансовых и иных группировок. Вопрос мотивации вторичного источника в данном случае не рассматривается, поскольку применительно к индивидууму,

мотивация тех или иных его поступков может быть крайне разнообразна, а для объединений и группировок, как правило, легко выводится из основной целевой функции и совокупной ценностной ориентации.

Казалось бы, все эти характеристики можно выявить лишь в результате кропотливой работы по анализу смыслового содержания сообщений. Да, это так, но... некоторые данные,

косвенно характеризующие сообщение и его источник, могут быть получены и на этапе формального и экспресс-анализа сообщений, причем, даже без погружения на семантический уровень. Зачастую даже анализ поверхностных грамматических структур способен дать очень много полезной информации.

Мы уже писали, что организация, активно работающая в сфере ИАО, в интересах создания корпоративного ресурса данных, релевантных основной тематике исследований вынуждены разрабатывать и эксплуатировать собственные базы и хранилища данных, а

Соседние файлы в папке из электронной библиотеки