Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопросы к зачету (1).doc
Скачиваний:
6
Добавлен:
22.09.2019
Размер:
108.03 Кб
Скачать
  1. Каким образом на основе имеющихся у нас матриц парных сравнений составляется система уравнений? Как при этом используются таблицы нормального распределения?

Итак, мы хотим найти средние величины (математические ожидания) некоторых гипотетически существующих случайных величин. Прежде всего отметим, что, поскольку для каждого объекта совокупностям оценок разных респондентов отвечает одна и та же

случайная величина, логично предположить, что приблизительное (выборочное) распределение этой величины может быть найдено двумя путями: путем многократного опроса одного (любого) респондента, либо путем однократного опроса многих

респондентов. Результат будет один и тот же!

Теперь сложим все наши матрицы ПС. Нетрудно понять, что тогда на пересечении i-й строки и j-го столбца полученной матрицы-суммы будет стоять количество респондентов, утверждающих, что ai > aj. Поделим эту сумму на общее количество респондентов и получим соответствующую долю. Обозначим ее через pil.

pij = P(ξ ij>0)

mi - mj = zij (σij 2 + σij 2 –2rij σi σj)1/2

Мы получили систему уравнений для нахождения искомых шкальных значений mi и mj.

Подчеркнем, что уравнения получаются на основе суммарной матрицы ПС очень быстро: по каждой частоте pij сразу, только заглянув в соответствующую статистическую таблицу,

находим zij и, значит, сами уравнения. (подробнее см. в лекциях, в учебнике – пиздец)

  1. Как решается система уравнений? Можно ли получить однозначное решение? Как интерпретируются результаты? Почему полученная шкала будет интервальной?

Во-первых, предположим, что rij = 0. Приравнивая к нулю рассматриваемый коэффициент корреляции, мы тем самым налагаем и соответствующие содержательные ограничения на нашу модель.

Во-вторых, будем полагать, что σi = σj = σ. Другими словами, предположим, что мера уверенности в оценках нашими респондентами разных объектов одинакова. Итак, система в результате сделанных допущений превращается в следующую:

mi - mj = zij σ 2 в степени1/2.

будем полагать, что σ — произвольно. Положим его равным 1, т.е. будем решать систему

как бы без него.

Во-первых, рассматриваемая система переопределена — число уравнений, вообще говоря, гораздо больше числа неизвестных (количество пар, которые мы можем оставить из каких-либо объектов, больше, чем количество объектов, если мы имеем дело с

более чем тремя объектами). Следовательно, эта система чаще всего не будет иметь решения: даже если мы и найдем решение нескольких уравнений, совсем необязательно они будут удовлетворять и оставшимся уравнениям. На помощь приходит знакомый нам по регрессионному анализу метод наименьших квадратов (напомним, что там мы ищем прямую линию, которая была бы максимально близка одновременно ко всем рассматриваемым точкам, может быть даже не проходя ни через одну из них). Говоря более конкретно, будем искать такие mi и mj, которые обращают в минимум сумму квадратов разностей между правыми и левыми частями системы.

Σ ((тi - тj) - zij 2 в степени1/2)2 стремится к min

Напомним читателю, что выбираются такие от, и т с помощью вычисления производных выражения (6.8) (п производных — по числу искомых величин) и приравнивания каждой из них к нулю. Получаем n линейных уравнений с n неизвестными. Такая система легко решается. (смотрите в лекциях, авторы, когда писали алгоритм, не задумывались о том, поймут ли их или что. Им было похуй)

А шкала интервальная, потому что в итоге мы строим интервалы блеать!

5. Факторный анализ:

1) ФА как метод измерения латентных переменных

Идея факторного анализа: если некоторое кол-во наблюдаемых переменных коррелируют друг с другом, значит за ними стоит общая латентная переменная. Если в рамках группы наблюдаемых переменных ни одна не коррелирует ни с какой другой, то никаких латентных переменных нет.

Модель А.Ф. предполагает, что значение любой измеряемой переменной зависит от небольшого числа латентных (скрытых) факторов. Основной целью А.Ф. является определение латентных факторов по результатам реальных измерений, и снижение размерности за счет замены набора исходных переменных выделенными факторами.

В связи со сказанным целесообразно заметить, что, хотя ФА — статистический метод и как таковой в принципе не может доказать наличие или отсутствие каких бы то ни было причинно- следственных отношений, тем не менее при его использовании мы часто имеем основания полагать, что латентная переменная олицетворяет собой причину, обусловливающую тот или иной уровень относящихся к ней наблюдаемых характеристик (хотя в практических задачах далеко не всегда бывает очевидным, что является причиной, что — следствием).

2) Почему если нет корреляций между наблюдаемыми переменными, то ФА проводить бессмысленно?

Если есть корреляция между переменными, то за ними стоит латентная переменная (фактор), если нет, то никаких факторов не наблюдается, соответственно факторный анализ проводить бессмысленно.

  1. Как определить, сколько нужно факторов?

Выделяем 1 фактор и смотрим, модель будет хорошая или нет. Если нет – добавляем еще фактор. Выделяется столько факторов, сколько наблюдаемых переменных – в рамках метода главных компонент. Оставить надо только сильные.

3 способа:

  1. ориентация на % сохраненной информации (50-70%)

  2. критерий Кайзера: нужно оставить те факторы, по которым собственное значение больше 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.

  3. метод каменной осыпи: факторы выделяются по убыванию их силы. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных.

Когда выбрасываем факторы, мы теряем информацию. Надо отследить, сколько информации сохранилось по каждой переменной, чтобы убедиться, что у нас нет переменных, по которым сохранилось слишком мало информации.

  1. Интерпретация полученных факторов

Факторная структура представляется в виде матрицы факторных нагрузок . Факторная структура называется простой, если каждой измеряемой переменной соответствует только одна значительная по величине нагрузка. Если первоначальная факторная структура недостаточно проста для содержательной интерпретации, она может быть подвергнута дополнительному вращению, вследствие чего информативность отдельных факторов может измениться. Различают ортогональные и неортогональные методы вращения. При ортогональном вращении факторы сохраняют свою статистическую независимость. Неортогональное (косоугольное) вращение допускает корреляцию между "вращенными" факторами, если это позволяет получить более простую для интерпретации структуру. Интерпретация факторов (как до, так и после вращения) производится на основе матрицы факторных нагрузок, при этом учитываются значения нагрузок и их знаки. При интерпретации фактора принимаются во внимание, главным образом, те исходные переменные, которые имеют на него максимальные по абсолютной величине нагрузки. Если все значительные нагрузки имеют одинаковые знаки, фактор интерпретируется как "фактор размера", измеряющий "количество" некоторого свойства, определяемого с помощью соответствующих переменных. Если рассматриваются положительные и отрицательные нагрузки, фактор интерпретируется как "фактор формы", дифференцирующий объекты по обладанию некоторыми противоположными свойствами. Замечено, что во многих случаях в результате вращения факторы формы трансформируются в факторы размера.

Интерпретация факторов производится по таблице факторных нагрузок после вращения (таблица "Матрица повернутых компонент") в следующем порядке:

1. По каждой переменной (строке) выделяется наибольшая по абсолютной величине нагрузка - как доминирующая. Если вторая по величине нагрузка в строке отличается от уже выделенной менее чем на 0,2, то и она выделяется, но как второстепенная.

2. После просмотра всех строк - переменных, просмотрите столбцы - факторы. По каждому фактору выписывают наименования (обозначения) переменных, имеющих наибольшие нагрузки по этому фактору. При этом обязательно учитывается знак факторной нагрузки переменной: если знак отрицательный, это отмечается как противоположный полюс фактора. 3. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные.

Если трудно подобрать термин из соответствующей теории, допускается наименование фактора по имени переменной, имеющей по сравнению с другими наибольшую нагрузку по этому фактору.

6. Шкала Лайкерта:

Он же предложил строить фрагмент анкеты, направленный на измерение латентной переменной, в виде так называемого кафетерия – таблицы, строкам которой отвечают наблюдаемые переменные, а столбцам – значения этих переменных. Метод иногда называют методом суммарных оценок.

1) Как узнать, относится ли придуманное нами суждение к предполагаемой латентной переменной?

Алгоритм построения шкалы Лайкерта предусматривает проведение некоторого пилотажного исследования, цель которого — отбор таких признаков, значения которых коррелируют с суммой значений всех остальных. Именно такие признаки предлагается включать в анкету, предназначенную для проведения основного исследования.

Вычислив коэффициент корреляции между рангами проверяемого признака и суммой рангов всех остальных признаков, оценим, является ли он достаточно большим для

того, чтобы можно было говорить о наличии соответствующей связи. Для этого зададимся каким-то пороговым значением: будем считать, что если этот коэффициент больше 0,8, то связь есть, если меньше — то ее нет.

Первый вопрос — о существовании одномерной латентной переменной. После указанного отбора останутся только такие наблюдаемые признаки, каждый из которых коррелирует с суммой остальных. Это означает, что для измерения латентной переменной будут использованы такие наблюдаемые, которые образуют связанный "пучок". Это дает основание полагать, что за наблюдаемыми переменными действительно скрывается некий латентный фактор.

Можно показать, что при фиксации значения латентной переменной (т.е. при рассмотрении только таких респондентов, для которых сумма баллов, приписанных ими

рассматриваемым суждениям, будет одна и та же), связ между наблюдаемыми переменными пропадает. Таким образом, мы можем считать, что гипотетический латентный фактор действительно обусловливает наблюдаемые связи.

Второй вопрос — о выборе адекватных наблюдаемых признаков. Та же связь, о которой мы только что говорили, свидетельствует и о том, что наши наблюдаемые переменные имеют отношение к одной и той же латентной. Как мы уже отмечали, решая вопрос о том, те ли наблюдаемые переменные мы берем для того, чтобы через них выражать интересующий нас латентный фактор, необходимо убедиться не только в том, что эти переменные отвечают задаче по самой своей сути (по своему наименованию), но и том, что они измерены именно так, как надо.

2) Как определяется итоговое значение установки каждого респондента?

Значение латентной переменной для каждого респондента будет равно сумме баллов, отвечающих степеням его согласия с рассматриваемыми суждениями, для нашего респондента – сумме (3 + 4 + 5 + 1 + …). Если количество суждений равно, например, 10, то возможные значения нашей латентной переменной будут варьировать от 10 (наименее

удовлетворенный человек) до 50 (наиболее удовлетворенный).

7. Латентно-структурный анализ:

1) ЛСА как метод измерения латентной переменной и как метод классификации

Мы предполагаем, что имеется совокупность респондентов, для которых существует одномерная латентная номинальная переменная с заданным числом градаций k.

Пусть для определенности k = 2. Имеется анкета с N дихотомическими вопросами. Предполагается, что вопросы подобраны таким образом, что респонденты с разными значениями латентной переменной почти всегда по-разному будут отвечать на вопросы анкеты, а с одним и тем же значением — как правило, будут давать примерно одинаковые ответы. Предположим также, что за счет этого связь между наблюдаемыми переменными можно объяснить действием латентной переменной.

Приведем пример. Пусть наши респонденты — московские студенты, латентная переменная — их отношение к будущей специальности. Вопросы имеют примерно такой

вид:

1) Часто ли Вы посещаете библиотеку (не реже раза в

неделю)?

2) Имеется ли у Вас домашняя библиотека из книг по

специальности (не менее 10 книг)?

3) Читали ли Вы когда-нибудь книгу по специальности

по собственной инициативе, без рекомендации ее

преподавателем?

4) Были ли у Вас двойки на экзаменах?

5) Случалось ли Вам, присутствуя на лекции, слушать

плейер?

6) Часто ли Вы пропускаете лекции (более трех лекций

в неделю)?

Ясно, что студенты, мечтающие о работе по приобретаемой специальности, будут на первые три вопроса давать, как правило, положительные ответы, а на последние три – отрицательные. А для студентов, равнодушно или негативно относящихся к выбранной специальности, будет иметь место обратная картина.

2) Понятие латентного класса

Задача метода заключается в том, чтобы, изучив наблюдаемое поведение индивидов, вывести эту скрытую характеристику и разделить (классифицировать) индивидов по сходству (равенству) ее значений.

Исследователь начинает с изучения связи и стремится вывести соответствие между латентной характеристикой и обследуемыми индивидами, необходимо выдвинуть предположение, к-рое позволяло бы на основа­нии связи вопросов делать вывод о наличии сходства (равенства) между индивидами, т. е. о сходстве (равенстве) значений присущей им латентной характеристики.

Так, подсовокупности индивидов при условии равенства или сходства значений латентной переменной являются однородными. В большинстве ситуаций использования этих мо­делей исследователь стремится разработать средства измерения, напр, анкету или батарею тестов, обеспечивающих такую локальную од­нородность. В зависимости от предположений о конкрет­ном виде функций F и G получают различ. латентно-структурные модели (модель латентно-полиноминальная, латентных дистанций, Раша и др.). Простейшей из них является модель ла­тентных классов, в к-рой предполагается, что как явная, так и латентная переменные принимают конечный ряд значений. (не знаю, то ли это, но конкретного разбора этого понятия нигде нет)

3) Термины, на основе которых строится модель: вероятность попадания объекта в латентный класс; вероятность положительного ответа на некоторый вопрос анкеты; вероятность положительного ответа одновременно на несколько вопросов анкеты; вероятность положительного ответа на некоторый вопрос анкеты при условии, что нам известно, к какому латентному классу принадлежит объект

Обозначим через pi – вероятность положительного ответа наших респондентов на i-й вопрос (долю респондентов, давших такой ответ); через pij – вероятность положительных ответов одновременно и на i-й, и на j-й вопросы; через pijk – вероятность положительных

ответов одновременно на i-й, j-й и k-й вопросы и т.д.

Те же буквы с индексом 1 наверху (pi 1, pij 1, pijk 1) будут обозначать соответствующие частоты для первого латентного класса, с индексом 2 наверху (pi 2, pij 2, pijk 2) – то же

для второго латентного класса.

pi j k - вероятность положительного ответа на i-й и k- й вопросы и одновременно – отрицательного ответа на j-й вопрос.

V1, V2 – доли латентных классов в общей совокупности респондентов. V1 + V2 = 1.

Вероятность Р (1/ + + - + - +) попадания объекта, давшего набор ответов ++ - + - +, в первый латентный класс и аналогичная вероятность Р (2/++-+-+) — для второго латентного класса.

Ясно, что это равенство, вообще говоря, будет неверным, поскольку ответ на один вопрос (скажем, о том, имеет ли респондент библиотеку) зависит от его ответа на другой вопрос (скажем, читает ли он по собственному желанию книги по будущей профессии). А вот для лиц, принадлежащих к одному латентному классу, в соответствии с аксиомой локальной независимости подобное соотношение будет справедливым:

Pij1 = pi1*pj1. Pij2=pi2*pj2

Формула полной вероятности :

Pi=V1pi 1 + V2pi 2.

Подчеркнем, что, пользуясь приведенной формулой, мы тем самым предполагаем, что каждый респондент в какой-то класс обязательно попадает и не может попасть в два класса сразу.

4) Аксиома локальной независимости

Между рассматриваемыми наблюдаемыми переменными будет иметься статистическая связь и что ее, всего вероятнее, можно будет объяснить действием латентной переменной. Это проявится в том, что при фиксации значения латентной переменной эта связь пропадет. Заметим, что это, уже неоднократно упоминаемое нами положение, Лазарсфельд первым четко сформулировал и назвал аксиомой локальной независимости.

5) Вычисление вероятности попадания респондента в определенный латентный класс при условии, что нам известно, какие ответы он дал на вопросы анкеты (сочетание положительных и отрицательных ответов).