отчет бд 2 сем
.docxЛабораторная работа №4
по дисциплине «Основы работы с большими данными (Data Science)»
РЕГРЕССИОННЫЙ АНАЛИЗ
Цель лабораторной работы.
Целью лабораторной работы является приобретение навыков по:
выполнению парного регрессионного анализа,
использованию Excel для проведения регрессионного анализа, в мои числе множественного,
визуализации результатов,
объяснению результатов.
Задание на выполнение и ход лабораторной работы.
По данным наблюдений двух величин был выполнен регрессионный анализ, найден коэффициент детерминации и уравнение линии регрессии. Построен ее график, а также диаграмма рассеяния.
Проверка результатов:
Таблица с данными:
График зависимости Y от X:
Диаграмма рассеяния:
По данным наблюдений трех величин (одной зависимой и двух независимых) был выполнен регрессионный анализ и найден коэффициент детерминации. Построена диаграмма рассеяния для каждого регрессора.
Таблица с данными:
Диаграммы рассеяния:
Регрессионный анализ:
Была добавлена третья независимая величина, выполнен регрессионный анализ, найден коэффициент детерминации и уравнение линии регрессии.
Таблица с данными:
Диаграммы рассеяния:
Регрессионный анализ:
Корреляция данных:
Была осуществлена интерпретация полученных результатов.
При получении данных:
Оценка линии регрессии имеет вид Y = 0,69X1 – 0,56X2 – 0,30X3 + 7,73
Коэффициент корреляции равен -0,605435598
Коэффициент детерминации равен 0,901172413
Интерпретация полученных результатов:
Коэффициент детерминации 0,9012 можно трактовать как долю дисперсии переменной отклика, в 77,7% вариаций пройденных пеших туристических походов можно объяснить продолжительностью маршрутов, количеством маршрутов и средним количеством человек на каждом маршруте.
Наблюдаемые значения отклоняются от линии регрессии в среднем на 2,55 единиц.
Значимость F равная 23,05 показывает, что независимые переменные “Продолжительность маршрутов”, “Количество маршрутов” и “Среднее количество человек” имеют статистически значимую связь с количеством пройденных пеших туристических походов.
При данных P-значениях можно сделать вывод, что “Продолжительность маршрутов” (p = 0,1144), “Количество маршрутов” (p = 0,3286) и “Среднее количество человек” (p = 0,2728) статистически значимы.
Коэффициент β=7,73 можно трактовать как в случае высокой длительности, низком количестве маршрутов и низкой посещаемости количество пройденных пеших туристических походов будет равно 7,73.
Коэффициент φ=0,69 можно рассматривать как за низкую длительность количество пройденных пеших туристических походов будет увеличиваться на 0,69.
Коэффициент σ=-0,56 можно рассматривать как при высоком количестве маршрутов количество пройденных пеших туристических походов будет увеличиваться на -0,56.
Коэффициент ᴧ=-0,30 можно рассматривать как при высокой посещаемости количество пройденных пеших туристических походов будет увеличиваться на -0,30.
На основе реальных статистических данных выполнить корреляционный анализ для трех величин (одной зависимой и двух независимых).
Лабораторная работа №5
по дисциплине «Основы работы с большими данными (Data Science)»
МЕТОД ОПОРНЫХ ВЕКТОРОВ
Цель лабораторной работы.
Целью лабораторной работы является:
изучение ключевых концепций методов опорных векторов;
приобретению навыков по использованию Excel для проведения расчетов методом опорных векторов для линейно-разделяемых данных в двумерном пространстве;
визуализации результатов;
объяснению результатов.
Задание на выполнение и ход лабораторной работы.
В соответствии со своим вариантом для заданной предметной области:
Был сформулирован классификационный признак (вопрос, на который нужно получить ответ) и подобраны 2-7 критериев.
Вопрос: придут ли к нам на пешие туристические походы еще раз?
Критерии: категория, были ли дети, длительность, сложность, километраж
Был сформирован набор данных (не менее 30 объектов, из них не менее половины – для обучающего набора).
Пояснения к таблице:
4. Было проведено попарное исследование методом опорных векторов на обучающем наборе. Для каждой пары построен график, найдены опорные вектора (точки) (возможны варианты), расстояние между ними, вычислена линейную функцию (также возможны варианты), построена гиперплоскость (ее график). Были проанализированы результаты и сделаны выводы.
Графики опорных векторов: y = -5x + 66; y = -5x + 71;
График гиперплоскости: y = -5x + 68,5;
При километраже менее 30 км длительность будет от 2 до 8 часов, в ином случае – от 8 часов и более.
Графики опорных векторов: y = -0,5x + 12,6; y = -0,5x + 7,4;
График гиперплоскости: y = -0,5x + 10;
При длительности от 2 до 8 часов сложность от 1 до 5, в ином случае – от 6 до 10.
Графики опорных векторов: y = -0,72x + 13,5; y = -0,72x + 9,07
График гиперплоскости: y = -0,72x + 11,29
Категории 1, 3, 5, 7 выбирают маршруты со сложностью от 6 до 10, категории 2, 4, 6, 8 выбирают маршруты со сложностью от 1 до 5.
Лабораторная работа №6
по дисциплине «Основы работы с большими данными (Data Science)»
ГЕНЕТИЧЕСКИЕ АЛГОРИТМЫ
Цель лабораторной работы.
Целью лабораторной работы является:
изучение ключевых концепций методов эволюционного моделирования;
приобретению навыков по использованию Excel для проведения расчетов на основе генетического алгоритма;
изучение этапов генетического алгоритма;
приобретению навыков по формированию функции приспособленности.
Задание на выполнение и ход лабораторной работы.
В соответствии с заданной предметной областью (лабораторная работа №1) сформулирована функция приспособленности на основе задачи коммивояжера (в соответствии с вариантом).
Сформулированы правила скрещивания и уточнены правила мутации (в соответствии с вариантом).
Вычисляется наиболее популярный маршрут.
Правила скрещивания:
Четные по номеру гены от 1 родителя, нечетные - от 2;
Нечетные по номеру гены от 1 родителя, четные - от 2;
Четные по номеру гены с начала от 1 родителя, нечетные - с конца от 2;
Нечетные по номеру гены с начала от 1 родителя, четные - с конца от 2;
Особь может участвовать в скрещивании 2 раза;
Если ребенок получился такой же или в зеркальном отражении, как и родитель, то попарно меняем местами 1 и 2, 3 и 4 и т.д.;
Вариант мутации:
Нечетные варианты – инверсия
В соответствии с вариантом сформирована начальная популяция из четырех особей.
Вычислены функции приспособленности.
Сформированы четыре потомка.
Сформирована новая популяция из четырех особей.
Повторены п.4-5 несколько раз (не менее 4).
Сформировано оптимальное решение.
Оптимальным
решением, в нашем случае наиболее
популярный маршрут, получился
Проанализированы результаты и сделать выводы.
изучены ключевые концепции методов эволюционного моделирования;
приобретены навыки по использованию Excel для проведения расчетов на основе генетического алгоритма;
изучены этапы генетического алгоритма;
приобретены навыки по формированию функции приспособленности.
