Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Kol_metody_i_inform_tekhnologii.doc
Скачиваний:
3
Добавлен:
01.04.2025
Размер:
629.25 Кб
Скачать

Тема 9. Контент-анализ текстов в гуманитарных исследованиях

Контент-анализ – это формализованный метод исследования содержания информации посредством выявления устойчиво повторяющихся смысловых единиц текста (названий, понятий, имён, суждений и т.д.). Он предполагает перевод в количественные показатели массовой текстовой информации с последующей статистической ее обработкой для оценки и интерпретации формы и содержания информационного источника. В основе метода лежит подсчет частот появления в тексте определенных смысловых единиц (переменных) содержания, а также изучение характера использования этих смысловых единиц автором текста и контекста их употребления. Возможны и варианты, когда выводы могут быть сделаны даже на основании единственного присутствия или отсутствия определенной смысловой единицы в тексте.

Смысловыми единицами текста обычно являются: понятия, выраженные в отдельных терминах; группы понятий, объединенных тематической областью (категорией); темы, выраженные в целых смысловых абзацах, частях текстов; имена собственные; отдельные факты; аппеляции к потенциальному адресату.

Самостоятельное значение имеет подсчет общего количества употребленных в тексте слов – имен существительных, прилагательных, глаголов и т.п. Это позволяет оценить «выразительность» языка документа, его сложность и организованность. При этом слово (словосочетание) выступает простейшей единицей анализа.

Распространенными ошибками в применении контент-анализа являются: 1) Оперирование нестандартизированными мерами при сравнении разных текстов (например, использование в выводах не относительных, а абсолютных частот); 2) Многозначительность некоторых слов, которая может быть прояснена только из контекста употребления.

Виды контент-анализа: 1) Автоматическая классификация документов по содержанию – используется при составлении рубрикаторов, каталогов, библиографических баз данных; 2) Семантический анализ, изучающий организацию слов вокруг некой идеи, для чего изучаемый текст сводится к ограниченному набору определенных элементов, которые затем подвергаются анализу на базе фиксации частоты повторяемости символов и их корреляции друг с другом; 3) Структурный анализ обращает внимание не на то, что говорится в тексте, а на то, как говорится. В этом случае единицами измерения становятся: количество времени или печатного пространства (колонок, статей) уделенного в тексте (корпусе текстов) интересующему исследователя предмету, место различных сюжетов в тексте (например на какой странице газеты размещен текст и сопровожден ли иллюстрацией), размер заголовка; 4) Концептуальный анализ, при котором, слова, описывающие изучаемые явления, сводятся в обобщенные концептуальные образования (категории или тематические области) и производится анализ частот уже не отдельных слов, а этих категорий; 5) Анализ co-occurency, ориентированный на изучение совместной встречаемости отдельных слов различных категорий в тексте; 6) Concordens -анализ, изучающий частоту встречаемости в тексте различных классов лексики; 7) Когнитивное картирование, использующееся при изучении системы аргументации автора текста, позволяющее преобразовать линейную аргументацию в иерархическое древо и построить иерархическую модель понятийных структур; 8) Анализ Data Mining и Контент-мониторинг, занимающиеся обнаружением качественно новых данных в общем непрерывном потоке информации на основе методов математической и структурной лингвистики

Процедура контент-анализа предполагает проведение предварительной подготовительной работы над изучаемым текстом, которая заключается в поиске в документе смысловых единиц и их индикации. Если смысловой единицей выступает понятие (имя существительное), то для подготовки к анализу необходимо составить словарь синонимов (тезаурус), а также изучить возможность употребления данного слова в различны падежах, или в виде прилагательного (например, крестьянин – крестьянский). Каждый вариант написания в тексте изучаемого понятия требует соответствующей индикации. Когда смысловой единицей текста выступают явления или тематические области (категории), выраженные в различных терминах, например, тематическая область «экономика» может включать такие понятия как: производство, собственность, промышленность, инвестиции, капитал, налог и др., в таком случае, требуется индикация всех слов, входящих в данную тематическую область. При этом, каждая изучаемая тематическая область требует отдельной индикации. Данная подготовительная работа позволяет избежать погрешностей в последующих интерпретациях полученных цифровых данных. Результаты подсчета частот сведенные в таблицы сопряженности могут быть проанализированы с помощью статистического критерия согласия хи-квадрат (χ2) (См. Тема 5.).

Каждая смысловая единица должна быть изучена с точки зрения контекста ее употребления. Простейшим вариантом данной процедуры является определение положительности, отрицательности или нейтральности контекста употребления конкретного понятия или факта (явления). Для иллюстрации контекста используется словарь прилагательных, характеризующих употребление отдельных понятий (имен существительных). При изучении текстов, в которых присутствует специфическая (например, профессиональная или жаргонная) лексика обычно возникает проблема соотнесения данного текста с некой нормой, которой может служить относительная частота употребления специфической лексики средним носителем языка (информация об этом сводится в частотные словари). Статистически значимые отклонения от норм могут быть отслежены с помощью компьютеризованной статистической оценки z-score.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]