- •16. Набор данных и их атрибутов
- •17. Измерения и шкалы
- •18. Типы наборов данных
- •19. Форматы хранения данных
- •20. Базы данных. Основные положения
- •21. Системы управления базами данных(субд)
- •22. Классификация видов данных
- •23. Метаданные
- •24. Принципы обработки и анализа данных
- •25. Структурированные данные
- •26. Подготовка данных к анализу и обработке
- •27. Технологии kdd и Data Mining (dm)
- •28. Аналитические платформы
- •29. Алгоритмы Data Mining
- •30. Консолидация данных
28. Аналитические платформы
Аналитические платформы - это средства построения прикладных решений в области анализа.
Аналитическвя платформа - основа для создания законченных прикладных решений в области анализа данных. Реализованные в ней технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.
Аналитическая платформа реализует практически все современные подходы к анализу структурированной табличной информации: хранилища данных (Data Warehouse), многомерный анализ (OLAP), добыча данных (DATA MINING), обнаружение знаний в базах данных (KDD).
29. Алгоритмы Data Mining
искусственные нейронные сети
деревья решений, символьные правила
методы ближайшего соседа и k-ближайшего соседа
метод опорных векторов
байесовские сети
линейная регрессия
корреляционно-регрессионный анализ
иерархические методы кластерного анализа
неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
методы поиска ассоциативных правил, в том числе алгоритм Apriori
метод ограниченного перебора
эволюционное программирование и генетические алгоритмы
разнообразные методы визуализации данных и множество других методов.
30. Консолидация данных
Консолидация данных - это способ получения итоговой информации, который выполняется в соответствии с выбранной функцией обработки.
Результат консолидации находится в области-назначения. Таблица консолидации создается путем применения функции обработки к исходным значениям. Области-источники могут находиться на различных листах или рабочих книгах. В консолидации может участвовать до 255 областей-источников.
Варианты
консолидации данных:
с помощью формул, где используются ссылки;
по расположению данных дляодинаково организованных областей-источников (фиксированное расположение);
по категориям для различающихся по своей структуре области данных;
с помощью сводной таблицы;
консолидация внешних данных.
41. Метод наименьших квадратов в построении функциональных зависимостей
хз
Метод наименьших квадратов (МНК, англ. Ordinary Least Squares, OLS) — математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функцией. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным.
42. Метод группового учета аргументов
Метод группового учёта аргументов (МГУА) — семейство индуктивных алгоритмов для математического моделирования мультипараметрических данных. Метод основан на рекурсивном селективном отборе моделей, на основе которых строятся более сложные модели. Точность моделирования на каждом следующем шаге рекурсии увеличивается за счет усложнения модели.
Даны
данные наблюдений:
.
Необходимо построить наилучшую в
определенном смысле модель
.
Выбирается
общий вид перебираемых моделей, так
называемые опорные функции. Часто
используется полином
Колмогорова-Габора:
Выбор
полиномов обусловлен тем свойством,
что согласно теореме
Вейерштрасса,
любую непрерывную на конечном интервале
функцию можно со сколь угодно высокой
точностью представить в виде полинома
определенной степени. Сложность модели
в таком случае определяется количеством
коэффициентов
Используя
опорные функции строятся различные
варианты моделей для некоторых или всех
аргументов. Например строятся полиномы
с одной переменной, полиномы со
всевозможными парами переменных,
полиномы со всевозможными тройками
переменных, и т.д, полином со всеми
переменными. Для каждой модели определяются
её коэффициенты
методом регрессионного
анализа.
Среди всех моделей выбираются несколько (от 2 до 10) наилучших. Качество моделей определяется коэффициентом детерминации, или среднеквадратическим отклонением ошибки, или корреляцией Y и исходных данных.
найдена достаточно "хорошая" модель или достигнута максимально допустимая сложность моделей, то алгоритм заканчивается.
Иначе,
найденные на 3-ем шаге модели используются
как аргументы (
)
для опорных функций следующего этапа
итерации (переход на 2-й пункт). То есть
уже найденные модели участвуют в
формировании более сложных.
