Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответики.docx
Скачиваний:
119
Добавлен:
13.03.2016
Размер:
684.82 Кб
Скачать

12. Интерполяция и экстраполяция данных

Интерполяция- точное прохождение искомой функции через имеющийся массив данных

Экстраполяция- улавливание тенденции об изменении значения, но при этом на участке, где имеются статистические данные допускается отклонение функции от данных статистик.

При использовании методов интерполяции на практике, для прогнозирования значения за пределами заданного интервала АВ малопригодны, в связи с тем, что поведение функции за пределами данного интервала может быть непредсказуемым. точность прогнозирования при использовании экстраполяционных подходов будет зависеть от количества имеющихся статистических данных, чем больше объем статистических данных, тем выше точность прогнозирования.

Работа экстраполяционных методов заключается в том, что необходимо выбрать вид функции и определить коэффициенты данной функции. для определения внешнего вида функции можно выдвинуть гипотезы на основе внешнего вида функции или из того соображения, что любая функция может быть описана рядом, то выдвигается гипотеза, которая после проверки на адекватность усложняется путем добавления высших степеней ряда. после выдвижения гипотезы о виде функции необходимо найти коэффициенты данной функции и проверить ее адекватность. Для поиска коэффициентов используется критерий согласия, который минимизирует отклонение между экспериментальными точками и значениями, полученными с использованием выдвинутой гипотезы.

I=I(F(xi)-yi) y= C0+C1x+C2x2+...+Cnxn

13. Методы вариационного анализа данных Вариационный анализ (показатели вариации абсолют и относит.)

Вариация – это различие индивидуальных значений признака внутри изучаемой совокупности.

Вариация бывает: случайная и систематическая.

1. Размах 2. Средне линейное отклонение 3. Дисперсия 4. Средне квадратическое отклонение

5. Коэффициент вариаций

Простейшим показателем вариаций является размах вариации. Это разность между максимальными и минимальными значениями признака.

Средне линейное отклонение – это среднее арифметическое из абсолютных индивидуальных отклонений значений от их средней.

Дисперсия это среднее арифметическое из квадрата отклонений индивидуальных значений от их средней арифметической.

Дисперсия практически применяется при расчете тесноты связей и при расчете ошибок выборочного наблюдения.  Корень квадратный из дисперсии даст величину среднеквадратического отклонения:

Среднеквадратическое отклонение применяется для характеристики степени колеблемости признака. Если необходимо сравнить две совокупности по разным признакам, то исчисляют показатель вариации или коэффициент вариации. Коэффициент вариации:

Коэффициент вариации позволяет сравнить степень варьирования признаков в вариационных рядах с разным уровнем средних. Вообще коэффициент вариации является мерилом надежности средней. Если коэффициент вариации V>40%, то надежность средней невелика. Достаточным является, если V<35%. Чем меньше коэффициент вариации, тем надежнее среднее.

  1. Пакеты для работы с массивами данных

RapidMiner — среда для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Эксперименты описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса RapidMiner-а. Работает с файлами xls, csv, xml, db.

RapidMiner — открытый программный продукт, свободно распространяемый под лицензией GNU AGPLv3.

RapidMiner может работать и как отдельное приложение, и как «интеллектуальный движок», встраиваемый в другие приложения, включая коммерческие.

Функциональные возможности:

  • RapidMiner предоставляет более 400 операторов для всех наиболее известных методов машинного обучения, включая ввод и вывод, предварительную обработку данных и визуализацию.

  • Имеется встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов.

  • Графическая подсистема обеспечивает многомерную визуализацию данных и моделей.

  • Имеется пошаговый учебник, включающий популярное введение в машинное обучение и интеллектуальный анализ данных.

Программа «NeuroPro 0.25» является свободно распространяемой версией программного продукта для работы с искусственными нейронными сетями.

Возможности программы:

  • Чтение, запись, редактирование, конвертирование файлов данных, представленных в форматах dbf

  • Создание слоистых нейронных сетей для решения задач прогнозирования и классификации:

  1. Число слоев нейронов - до 10.

  2. Число нейронов в слое - до 100. Число нейронов в слое может задаваться отдельно для каждого слоя нейронов.

  3. Решение задач прогнозирования.

  4. Нейросеть может иметь несколько выходных сигналов (решать одновременно несколько задач прогнозирования и классификации)

  • Обучение нейронной сети с применением одного из следующих методов градиентной оптимизации (градиент вычисляется по принципу двойственного функционирования):

    1. Градиентный спуск.

    2. Модифицированный ParTan-метод.

    3. Метод сопряженных градиентов.

    4. Квазиньютоновский BFGS-метод.

  • Тестирование нейронной сети, получение статистической информации о точности решения задачи.

    Matlab и Simulink

    MATLAB («Matrix Laboratory») — пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете. MATLAB работает на большинстве современных операционных систем, включая Linux, Mac OS, Solaris и Microsoft Windows.

    Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования. Основной особенностью языка MATLAB являются его широкие возможности по работе с матрицами.

    Наборы инструментов:

    • Цифровая обработка сигналов, изображений и данных

    • Системы управления

    • Финансовый анализ

    • Анализ и синтез географических карт, включая трёхмерные: Mapping Toolbox.

    • Сбор и анализ экспериментальных данных

    • Визуализация и представление данных

    • Средства разработки, позволяющие создавать независимые приложения из среды MATLAB.

    • Взаимодействие с внешними программными продуктами

    • Базы данных

    • Научные и математические пакеты

    • Нейронные сети

    • Нечёткая логика

    • Символьные вычисления

    • Помимо вышеперечисленных, существуют тысячи других наборов инструментов для MATLAB, написанных другими компаниями и энтузиастами.

    Simulink – это графическая среда имитационного моделирования, позволяющая при помощи блок-диаграмм в виде направленных графов, строить динамические модели, включая дискретные, непрерывные и гибридные, нелинейные и разрывные системы.  Интерактивная среда Simulink, позволяет использовать уже готовые библиотеки блоков для моделирования электросиловых, механических и гидравлических систем, а также применять развитый модельно-ориентированный подход при разработке систем управления, средств цифровой связи и устройств реального времени.  Дополнительные пакеты расширения Simulink позволяют решать весь спектр задач от разработки концепции модели до тестирования, проверки, генерации кода и аппаратной реализации. Simulink интегрирован в среду MATLAB, что позволят использовать встроенные математические алгоритмы, мощные средства обработки данных и научную графику. 

    Weka — библиотека алгоритмов машинного обучения для решения задач интеллектуального анализа данных (data mining). Система позволяет непосредственно применять алгоритмы к выборкам данных, а также вызывать алгоритмы из программ на языке Java. — среда для анализа знаний, разработанная в университете Вайкато (Новая Зеландия).

    Пользователями Weka являются исследователи в области машинного обучения и прикладных наук. Она также широко используется в учебных целях.

    Weka — это открытый программный продукт, развиваемый мировым научным сообществом, свободно распространяемый под лицензией GNU GPL. Weka предоставляет доступ к SQL-базам через Java Database и в качестве исходных данных может принимать результат SQL-запроса.

    Explorer имеет несколько панелей.

    • Панель предобработки Preprocess panel позволяет импортировать данные из базы, CSV файла и т. д., и применять к ним алгоритмы фильтрации, например, переводить количественные признаки в дискретные, удалять объекты и признаки по заданному критерию.

    • Панель классификации Classify panel позволяет применять алгоритмы классификации и регрессии (в Weka они не различаются и называются classifiers) к выборке данных, оценивать предсказательную способность алгоритмов, визуализировать ошибочные предсказания, ROC-кривые, и сам алгоритм, если это возможно (в частности, решающие деревья).

    • Панель поиска ассоциативных правил Associate panel решает задачу выявления всех значимых взаимосвязей между признаками.

    • Панель кластеризации Cluster panel даёт доступ к алгоритму k-средних,EM-алгоритмудля смеси гауссианов и другим.

    • Панель отбора признаков Select attributes panel даёт доступ к методам отбора признаков.

    • Панель визуализации Visualize строит матрицу графиков разброса (scatter plot matrix), позволяет выбирать и увеличивать графики, и т. д..

    1. SPSS Statistics («Statistical Package for the Social Sciences») компьютерная программа для статистической обработки данных, один из лидеров рынка в области коммерческих статистических продуктов, предназначенных для проведения прикладных исследований в социальных науках.

    Возможности:

    • Ввод и хранение данных.

    • Возможность использования переменных разных типов.

    • Частотность признаков, таблицы, графики, таблицы сопряжённости, диаграммы.

    • Первичная описательная статистика.

    • Маркетинговые исследования

    • Анализ данных маркетинговых исследований

    Основу программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.

    Выходные данные представляются на отдельном листе (например в виде таблиц с заранее указанными столбцами). Так можно на основе анкетирования проанализировать данные, выявить тренды и т.д. Удобна в использовании в маркетинговых исследованиях

  • Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]