Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Александр Бурьяк.АНАЛИТИЧЕСКАЯ РАЗВЕДКА.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
2.98 Mб
Скачать

18.5. Системы для контент-анализа.

Назначение программной системы для контент-анализа – получение числовых характеристик содержания текста или набора текстов, например, подсчет количества упоминаний некоторых ключевых слов, количества публикаций на некоторую тему.

Мангейм Дж. Б., Рич. Р. К.: "Нас может интересовать, например, сколько времени или печатного пространства уделено интересующему нас предмету в том или ином источнике. Сколько слов или газетных столбцов было уделено каждому из кандидатов во время определенной избирательной кампании? Сколько статей или страниц бывает ежегодно посвящено в американских политологических журналах анализу государственно-политических проблем Африки?" ("Политология: методы исследования", стр. 283)

Привлекательность контент-анализа - в легкости осуществления собственно подсчета при условии использования компьютеров, опасность - в возможных последствиях недостаточного учета контекста.

Мангейм, Рич: "Возможная ошибка, связанная с грубо прямолинейным подсчетом слов, состоит в том, что одно и то же слово может употребляться в самых разных контекстах, изменяющих его значение." (там же, стр. 274) Чтобы избежать такой ошибки, следует анализировать контекст. Это может делать оператор либо (с худшим качеством, но быстрее) компьютерная программа. "Прежде всего необходимо учитывать, что сообщения публикуются и соответствующим образом составляются не просто так, а с какой-то определенной целью - информирования, описания, призыва, предписания, самозащиты или даже дезинформации." (стр. 285) "Если мы должны дать адекватную оценку значимости некоторого сообщения, нам зачастую надо для этого знать, кому оно адресуется и как распространяется." (стр. 286)

18.6. Системы для фильтрования данных.

Текстов в открытых источниках, как правило, много больше, чем способна проанализировать даже очень мощная разведывательная служба. Поэтому перед тем, как подвергнуться анализу, тексты обычно проходят фильтрование: разделение на скорее всего нужные и скорее всего ненужные.

Назначение программной системы для фильтрования данных - отбор текстов или текстовых фрагментов, содержащих требуемые сведения. Фильтрование может осуществляться формально (компьютерной программой) или неформально (оператором). Обычно сначала осуществляется формальное фильтрование, после чего полученные данные дополнительно проходят неформальный отбор. Также можно говорить о предварительном фильтровании, осуществляемом на уровне источников, авторов, заголовков, ключевых слов, резюме, и об окончательном фильтровании, осуществляемом на уровне полных текстов.

Программа формального отбора ищет тексты или текстовые фрагменты, содержащие указанные ключевые выражения. Программа должна узнавать ключевые выражения в различных вариантах их написания. Поиск может вестись в пределах файла, каталога, тома. На выходе программы может быть файл со строками или абзацами, содержащими нужные выражения, и ссылками на файлы, в которые эти строки или абзацы входят.

18.7. Системы поддержки неформального анализа текстов.

В системах поддержки нетипового анализа больших массивов текстовых данных могут предлагаться следующие возможности:

  • расцвечивание компонентов текста;

  • поиск фрагментов текста;

  • создание выборок фрагментов текста;

  • параллельная демонстрация фрагментов текста;

  • создание ссылок между фрагментами;

  • размещение "закладок" различных типов;

  • поддержка различных вариантов редакции фрагментов текста;

  • поддержка различных вариантов структуризации для одного и того же набора фрагментов текста.

Возможные цели неформального анализа: выявление ...

  • замысла;

  • представлений, лежащих в основе текста;

  • слабых мест (противоречий, повторений, чрезмерных или недостаточных детализаций, очевидностей, неполноты или лишнего,неоптимальностей структуры);

  • интеллектуального уровня, мыслительных парадигм и информированности авторов;

  • состояния текста (законченный, почти законченный, далекий от завершения);

  • перспективы доработки и использования текста.