
- •I. Общие cведения о контент-анализе текстовой информации
- •1.2. Логико-содержательный анализ текстовой информации
- •1.3. Область применения контент-анализа текстовой информации
- •1.4. Контент-анализ текстовой информации в системе социологического исследования
- •Узелковое письмо.
- •5.1. Принципы переработки текстовой информации.
- •5.2. Аннотирование и реферирование
- •5.3. Аналитико-синтетическая переработка информации
- •5.4. Инструменты конечного пользователя
- •Леция №7 Основные cведения из математической статистики
- •Лекция №8 алгоритм как метод преобразования информации. Типы алгоритмов. Нормальный алгоритм маркова. Количественные измерения информации на основе формулы Шеннона
- •Лекция №9 Компьютерные алгоритмы контент-анализа текстов – по начальной букве, по всем буквам, спектры Морозова.
1.4. Контент-анализ текстовой информации в системе социологического исследования
Социология, если говорить в первом приближении, – это наука об обществе.
Такое определение верно лишь отчасти. Общество является объектом социологии, равно как и объектом других общественных наук – политологии, истории и т.д. У социологии имеется свой специфический предмет. Предметом социологии является социальное, т.е. все то, что связывает людей в обществе, организует их совместную деятельность. Общество нельзя представить как простую совокупность индивидов. В процессе деятельности индивиды вырабатывают устойчивые отношения, устойчивые модели поведения в наиболее типичных ситуациях, регулирующие нормы и правила. Социология как раз и занимается изучением этих «надстроек», в отношении которых принято использовать понятие социального института.
Социальный институт – это исторически сложившаяся устойчивая форма безличного социального взаимодействия, реализующая определенные потребности людей в соответствии с принятыми нормами. Структура социологии включает три части: общие социологические теории, теории «среднего уровня» (социология управления, социология образования, экономическая социология и т.д.) и конкретные социологические исследования. В ходе социологических исследований используется целый ряд методов. Метод исследования – это обоснованный набор процедур, выполнение которых приводит к заданному результату с определенной долей погрешности. Наиболее известными методами исследования в социологии являются следующие(таблица 1):
Наблюдение
Эксперимент
Опрос
Интервьюирование
Фокус-группа
Контент-анализ
Метод |
Количественная сторона |
Качественная сторона |
Наблюдение |
заполнение карты наблюдателя |
описание наблюдаемого явления |
Эксперимент |
подсчет изменения свойств элементов экспериментальной группы в сравнении с контрольной группой |
изложение результатов эксперимента |
Опрос |
закрытые вопросы |
открытые вопросы |
Интервьюирование |
подсчет количества категорий |
реконструирование явления |
Фокус-группа |
подсчет количества высказываний по интересующей проблеме в том или ином смысле |
запись транскрипта |
Контент-анализ |
обработка данных матрицы «случай*переменная», определение частотности смыслов, соотнесение текстовых переменных с экстра-параметрами (пол, возраст, профессия, партийная принадлежность и т.д.) |
формирование выборки текстов, конструирование категорий, выявление межкатегориальных связей, поиск смыслов на пересечениях категорий |
В основе каждого метода социологического исследования лежит определенное сочетание количественной и качественной методологии. Количественная методология применима к информации, которая может быть формализована, выражена в виде чисел. Преимущество количественных методов – возможность выполнять математические операции над массивом данных: находить центральную тенденцию, среднее значение, складывать и т.д. Недостаток количественных методов – числа сами по себе, без интерпретации, не могут объяснить социальные явления. Качественная методология имеет дело со смысловыми фрагментами информации, из которой логически можно вывести следствия, например, проверить гипотезы. Качественные методы упрощают формулирование выводов по результатам исследования, однако при их некорректном использовании страдает репрезентативность – способность по части объекта судить о его состоянии в целом. Так, фрагмент одного интервью может отражать лишь субъективный взгляд одного человека, а не позицию общественного мнения. В литературе порой присутствует подразделение методов социологических исследований на количественные и качественные. Как правило, наилучший исследовательский эффект дает сочетание методов. Место контент-анализа среди других методов социологии может быть различным:
самостоятельные исследования степени остроты социальных проблем, динамики интереса потребителей информации к тем или иным вопросам
предварительное, разведочное исследование, позволяющее обозначить наиболее актуальные проблемы, на основе которых затем составляются вопросы анкеты и варианты ответа
способ обработки ответов на открытые вопросы анкеты, углубленных интервью, записей фокус-групповых дискуссий.
ЛЕКЦИЯ №2
Научный подход к тексту начинается с абстрагирования от содержания, принятия в расчет лишь формы. Иными словами, на основе исходного текста строится модель, каркас которой затем наполняется множеством характеристик. Моделирование позволяет вернуться к содержанию, но на более продвинутом уровне, когда становятся видны истинные намерения автора текста.
2.1. МАТЕМАТИЧЕСКИЕ МЕТОДЫ КОМПЬЮТЕРНОГО КОНТЕНТ-АНАЛИЗА ТЕКСТОВ
Существует целый ряд заблуждений относительно того, что же такое контент-анализ. Очень часто этот термин дословно переводят на русский язык как «анализ содержания» и считают, что все поняли, что это просто содержательный анализ текстов, их истолкование. В других случаях контент-анализ путают с реферированием текстов или с поиском информации в текстовых базах данных.
Исторически появление контент-анализа было реакцией на возникшую потребность в создании объективных методов анализа текстов, результаты которых не зависели бы ни от личности исследователя, ни от того, где и когда эти исследования проводятся. То есть требовалось найти такие методы оценки текстов, которые не вызывали бы разногласий между исследователями и были воспроизводимы в любое время и в любом месте.
К математическим оценкам текстов в компьютерном контент-анализе можно предъявить ряд требований. Во-первых, эти оценки должны сами по себе иметь хорошее математическое обоснование. Во-вторых, они должны быть просты, понятны и легко интерпретируемы даже людьми, далекими от математики. Лишь в этом случае методы контент-анализа получат широкое распространение и применение в гуманитарных исследованиях. В-третьих, они должны иметь удобное наглядное представление не только в виде таблиц чисел, но и в виде графиков и диаграмм. Последнее просто в иной форме выражает требование к удобному интерфейсу компьютерных программ, позволяющему отображать данные, как в дискретной, так и в аналоговой форме.
Характеристиками или элементами содержания, по отношению к которым применяется процедура подсчета, могут быть отдельные слова, словосочетания, предложения, абзацы, тексты. При этом сами характеристики никогда не являются самоцелью. Они интересны лишь в той степени, в какой являются индикаторами происходящего во внеязыковой реальности. В этом заключается существенное отличие контент-анализа от методов квантитативной лингвистики и статистического изучения языка.
ЛЕКЦИЯ №3
ПОНЯТИЕ ИНФОРМАЦИИ И ЕЕ ИЗМЕРЕНИЯ
Слово «информация» вошло в международный обиход от латинского слова «information», что в переводе означает – осведомление, просвещение. Такой перевод указанного слова дает право понятие «информация» трактовать как «сообщение, осведомляющее о положении дел, о состоянии чего-либо».
Указанным толкованием пользовались всегда, когда делались заявления, давались указания или предостережения, касающиеся отношений между людьми. В таких случаях не было нужды долго размышлять, что такое «информация», чтобы знать, когда это слово можно употреблять, а когда нет.
Когда же идеи, распространившиеся с развитием кибернетики, стали способствовать применению слова «информация» и к ситуациям, до того не рассматривавшимся, возникла потребность в уточнении рассматриваемого понятия. К числу таких ситуаций следует отнести, например, установление связи между человеком и животным, между человеком и машиной, между машинами или в самом общем случае – между человеком и окружающей его действительностью.
Процесс уточнения понятия «информация» привел к различным его толкованиям, среди которых встречаются и такие, в которых данное понятие объясняется с помощью других, имеющих столь же неопределенное значение, например, таких как «сведения», «содержание», «данные» и т.д.
Среди различных толкований понятия «информация» встречается такое:
Если наименование некоторого понятия х обозначить Тх, а определяющее его выражение (содержание) через Dx,то информация – это предложение типа Тх есть Dx [45].
Другими словами – информация это содержание, заключенное в символе, которым обозначается то или иное понятие как название определенного объекта. Наиболее легко такое толкование рассматриваемого понятия иллюстрируется анализом содержания математических символов.
Общеизвестно, что математические знаки (символы) служат для записи математических понятий, предложений и выкладок. Первыми математическими знаками были символы для изображения чисел – цифры, возникновение которых предшествовало введению письменности.
Например, число π – отношение длины окружности к диаметру. В первой строке таблицы 1 последнее предложение переписано в форме «Тх есть Dx».
Таблица 1
х (понятие) |
Тх (наименование понятия) |
Dx (выражение понятия) |
Число π |
π |
Отношение длины окружности к диаметру |
Функция |
|
Закон по которому произвольному числу х ставится в соответствие строго определенное число у |
Производная функции |
|
Предел отношения приращения функции к приращению аргумента, если последний стремится к нулю |
Здесь же приведены предложения «Тх
есть Dx»
для раскрытия информации, которая
содержится в математических символах
и
.
О роли математических знаков и важности точного определения их смысла русский математический гений Н.И. Лобачевский написал:
«Подобно тому как дар слова обогащает нас мнениями других, так язык математических знаков служит средством еще более совершенным, более точным и ясным, чтобы один передавал другому понятия, которые он приобрел, истину, которую он постигнул, и зависимость между частями, которую он открыл. Но так как мнения могут казаться ложными от того, что разумеют иначе слова, то всякое суждение в математике останавливается, как скоро перестаем понимать под знаком то, что оно собой представляет» [цит. по:35].
Роль употребления математических знаков отнюдь не сводится к большей краткости символической записи математических предложений по сравнению с их словесным выражением. Только на основе разработанной системы математических знаков стало возможным создание математических «исчислений», в которых математические умозаключения заменяются выкладками производимыми по определенным формальным правилам.
Более того использование математической символики способствовало созданию математического языка, который преобладает над естественным языком при описании математических знаний.
Выдающийся русский физиолог и психолог Иван Михайлович Сеченов (1829-1905) при изучении различных форм человеческого мышления определил форму, которую назвал мышление символами [61].
Действительно, окружающий мир наполнен различными предметами, которые человек может запоминать c их индивидуальными различиями. Но в силу подмеченного опытным путем закона регистрации впечатлений по сходству в человеческой памяти все сходные предметы, по мнению Сеченова И.М., смешиваются в средние итоги.
Эти средние продукты мышления не есть точное воспроизведение действительности, но по смыслу они представляют знаки, заменяющие собой множество однородных предметов.
Таблица 2
Знак |
Изображаемый объект |
|
Египетский коршун |
|
Рука |
|
Глаз |
|
Дом |
|
Рот |
Такие знаки Сеченов И.М. называл символами первой инстанции.
Далее в так называемых средних итогах того или иного предмета человек научился различать отдельные части данного предмета. Расчленение целого предмета на части и оценка математических соотношений между частями И.М. Сеченов назвал символами второй ступени.
Очевидно, что знаковое письмо древнего человека служит доказательством того, что на данном этапе своего умственного развития человечество мыслило символами второй ступени.
Действительно, в таблице 2, заимствованной из [6], приведено несколько примеров египетских иероглифов, которые в неком обобщенном виде напоминают предметы, сущность которых они обозначают.
Если применительно к таблице 2 знак – иероглиф (наименование понятия) обозначить как Тх, а сущность описываемого им объекта – через Dx, то и в данном случае информация это – «Тх есть Dx».
Исследователи египетских иероглифов обнаружили, что кроме знаков, символически изображающих существа или предметы, имеют место знаки, изображающие абстрактные понятия. Например, желая изобразить небо, египтяне рисуют змею, пожирающую свой хвост. При этом тело змеи покрыто пёстрой чешуей потому, что чешуйки изображают звезды на небе. Это животное тяжело как земля и тихо как вода; как оно каждый год сбрасывает кожу, так и годичный цикл, совершив полный круг, начинается заново. То, что змея питается своим телом, означает, что все порождаемое в мире Божественным промыслом вновь претерпевает умиление.
Приведенный пример описания абстрактного понятия с помощью знаков – иероглифов свидетельствует, во-первых, о неоднозначном толковании и, во-вторых, о субъективном представлении этого и других абстрактных понятий.
Возможно поэтому совершенствование процесса мышления пошло по пути классификации звуков, с помощью которых произносились иероглифы, и изображение характерных звуков новыми символами – буквами, определенный набор которых составил алфавит естественного языка.
Изучение алфавитов древних языков и анализ трансформирования букв до современного написания позволил многим лингвистам заключить, что любая буква – символ объемных знаний, отражающих принципы построения всего живого и разумного на земле.
Действительно, в [6] перечислены следующие формы письма славяно-арийских народов.