Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

отчет по лабе 2

.docx
Скачиваний:
21
Добавлен:
06.12.2018
Размер:
1.2 Mб
Скачать

Отчет по лабораторной работе №1 (SPSS)

В данной работе я буду проводить анализ данных, подвергая их подробному (обнаружение ошибок ввода, проверка закона распределения, описание данных подходящими статистическими характеристиками) и встроенному исследованию.

  1. Загружаем фаил Nedvig.

  2. Строим атрибуты переменных.

  3. Выставляем необходимые переменные и метки в диалоговых окнах.

  4. Подключаемся в вид данных, подставляем вместо данных их метки.

  5. Переходимк к наблюдению.

  6. Заполняем строку наблюдения произвольными данными.

Переходим к исследованию данных.

  • АнализОписательные статистикиРазведочный анализ (зависимая переменная – Цена) В итоге созданы таблицы Сводный отчет по наблюдениям и Описательные статистики:

  • 5% усеченное среднее: среднее значение, вычисленное без учета 5% наименьших и 5% наибольших значений.

95% доверительный интервал: доверительный интервал, в котором находится среднее значение с вероятностью 95%.

Межквартилъная широта: расстояние между первым и третьим квартилями.

Помимо таблиц создаются Диаграмма ветвей и листьев (Диаграмма ствол-лист)( и Коробчатая диаграмма (Ящик с усами) Boxplot.

  • Диаграмма ветвей и листьев Ствол - лист представляет собой комбинацию гистограммы и табличного списка. Подобно гистограмме, в диаграмме ветвей и листьев длина каждой строки соответствует количеству наблюдений, попадающих в определенный интервал. Но, сверх этого, на данной диаграмме выводится также наблюдаемое численное значение для каждого наблюдения. Для этой цели численные значения разбиваются на два компонента: ветвь, представляющую собой первую цифру или группу цифр и лист — последующие цифры. Ветвь соответствует тем разрядам численного значения наблюдаемой переменной, которые не изменяются, а листья — разрядам, которые изменяются в пределах избранного интервала.

  • Коробчатая диаграмма Boxplot состоит из прямоугольника, занимающего пространство от первого до третьего квартиля (от 25 до 75 процентиля). Линия внутри этого прямоугольника соответствует медиане. Кроме того, на коробчатой диаграмме отмечаются максимальное и минимальное значения, если только они не являются выбросами. Значения, удаленные от границ более чем на три длины построенного прямоугольника (экстремальные значения), помечаются на диаграмме звездочками. Значения, удаленные более чем на полторы длины прямоугольника, помечаются кружками.

  • Строю дополнительно гистограмму с кривой нормального распределения. Для этого выполняю команду АнализОписательные статистикиРазведочный анализ... В окне просмотра будет выведен результат теста Колмогорова- Смирнова на нормальное распределение, гистограмма и графики, демонстрирующие отличия от нормального распределения. Если для теста Колмогорова-Смирнова в результате получена вероятность ошибки р менее 0,05, то данное распределение значимо отличается от нормального. В данном примере при р < 0,0001 распределение нельзя считать нормальным.

  • Подобным образом проводим исследование данных о цене квартир в зависимости от типа дома (в окне исследовать указываем Тип дома в качестве фактора (Список факторов). Строем все таблицы и диаграммы.)

По гистограммам распределения цены в зависимости от типа дома видно, что ценам до двух тысяч соответствуют наибольшие частоты. Имеют правостороннюю асимметрию.

  • Далее проводим исследование данных о цене квартир в зависимости от района. Для этого в окне исследовать указываем Район в качестве фактора (Список факторов). Строем все таблицы и диаграммы.

Наибольшие частоты соответствуют ценам до полутра тысяч, так же идет правосторонняя симметрия.

  • Строем диаграмму рассеяния для переменной Цена. Для этого выбираем Графика – Мастер диаграмм. В открывшемся мастере диаграмм выбираем Диаграмма рассеяния – Простая диаграмма рассеяния. В качестве Оси Y выберете переменную цена, Оси X – Номер квартиры.

  • Строем диаграмму рассеяния для переменной Цена.

  • Характерно 2 экстремальных значения, удалив их, получим диаграмму рассеяния :

  • Изменятся данные для переменной Цена после удаления выбросов

Построим OLAP-куб (зависимость среднец цены от типа дома и района)

Вывод: Данные близки к нормальному распределению, но они не являются чистыми. Близки к нормальному потому что не выходят за 4 сигмы.

Соседние файлы в предмете Основы цифровой экономики