
- •Методология анализа данных. Аналитический и информационный подходы к моделированию.
- •Принципы анализа данных
- •Формы представления данных
- •Процесс подготовки данных к анализу
- •Технологии kdd и Data Mining
- •Аналитические платформы
- •Консолидация данных: источники данных, основные задачи консолидации данных, обобщенная схема процесса консолидации данных
- •Хранилища данных: основные особенности концепции хд, основные требования к хд
- •Многомерные и реляционные хранилища данных Реляционные хранилища данных
- •Продукты etl Коммерческие
- •[Править]Свободно распространяемые
- •Трансформация данных: основные методы
- •Визуализация данных: цели и задачи на разных этапах аналитического процесса, группы методов визуализации данных
- •Оценка качества данных: уровни качества данных, оценка пригодности данных к анализу, оценка качества данных по их происхождению
- •Технологии и методы оценки качества данных
- •Ассоциативные правила
- •Алгоритм a priori
- •Кластеризация: алгоритм кластеризации k-means, меры расстояний, выбор числа кластеров
- •Классификация и регрессия: применение классификации и регрессии, линейная и логистическая регрессии
- •Временной ряд и его компоненты
- •Модели прогнозирования
- •Ансамбли моделей: комбинирование решений, виды ансамблей
- •Бэггинг, бустинг, стэкинг: основная идея
- •Оценка эффективности и сравнение моделей: Lift и Profit-кривые, roc-анализ
Классификация и регрессия: применение классификации и регрессии, линейная и логистическая регрессии
Временной ряд и его компоненты
Прогнозирование (греч. Prognosis – знание наперед) – это род предвидения (предсказания), поскольку имеет дело с получением информации о будущем. Прогноз – это результат процесса прогнозирования, выраженный в словесной, математической, графической или другой форме суждения о возможном состоянии объекта и его среды в будущий период времени.
Будем различать количественные и качественные модели прогнозирования:
Модели временных рядов
Модели, построенные по данным характеризующим совокупность различных объектов в определенный момент времени, называются пространственными моделями. Модели, построенные на основе характеризующим один объект за ряд последовательных моментов времени, называются моделями временных рядов.
Временной ряд (ряд динамики) – это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Каждый уровень временного ряда формируется под воздействием большого числа факторов, которые условно можно подразделить на три группы:
1. факторы, формирующие тенденцию ряда;
2. факторы, формирующие циклические колебания ряда;
3. случайные факторы.
В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. Модель, в которой временной ряд представлен как сумма перечисленных компонент, называется аддитивной модельювременного ряда. Модель, в которой временной ряд представлен как произведение перечисленных компонент, называется мультипликативной моделью временного ряда. Основная задача исследования отдельного временного ряда – выявление и придание количественного выражения каждой из перечисленных выше компонент с тем, чтобы использовать полученную информацию для прогнозирования будущих значений ряда или при построении моделей взаимосвязи двух или более временных рядов
Моделирование тенденции временного ряда
Распространенным способом моделирования тенденции временного ряда является построение аналитической функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называют аналитическим выравниванием временного ряда. Поскольку зависимость от времени может принимать разные формы, для ее формализации можно использовать различные виды функций. Для построения трендов чаще всего применяются следующие функции:
Модели прогнозирования
В настоящее время существует около 220 методов прогнозирования, но чаще всего на практике используются не более 10, среди них: фактографические (экстраполяция, интерполяция, тренд-анализ), экспертные (в т.ч. опрос, анкетирование), публикационные (в т.ч. патентные), цитатно-индексные, сценарные, матричные, моделирование, аналогий, построение графиков и т.д.
ИНТЕРПОЛЯЦИЯ - Оценка значения неизвестной величины, находящейся между двумя точками ряда известных величин. Например, зная показатели населения страны, полученные при проведения переписи населения, проводившейся с интервалом в 10 лет, можно путем интерполяции определить численность населения в любой промежуточный год. Обычно это делается с помощью графика, где форма кривой между двумя известными точками дает возможность сделать надежную оценку интерполируемой величины.
Экстраполяция – распространение результатов, полученных из наблюдений над одной частью некоторого явления, на другую его часть. Экстраполяция функции – продолжение функции за пределы её области определения, при котором продолженная функция (как правило, аналитическая) принадлежит заданному классу функций.
ТРЕНД-АНАЛИЗ — совокупность математических приемов, основанных на аппроксимации наблюденных значений геол. характеристик с целью выявить основную тенденцию в изменении этих характеристик на площади или в разрезе в зависимости от параметров.
Аппроксима́ция — научный метод, состоящий в замене одних объектов другими, в том или ином смысле близкими к исходным, но более простыми.