
- •1(1). Информация. Данные и знания.
- •2(1). Адекватность информации. Синтаксическая. Семантическая. Прагматическая.
- •4(1). Эволюция технологий анализа данных.
- •5(1). Терминология анализа данных. Понятие модели и моделирования.
- •7(1). Алгоритмы сжатия. Словарное кодирование.
- •Объем требуемой памяти
- •8(1). Статистика. Machine Learning.
- •10(1). Предпосылки возникновения хранилищ данных. Архитектуры.
- •11(1). Oltp и olap системы.
- •12(1). Детализированные и агрегированные данные.
- •13(1). Сравнение схем хд. Звезда и снежинка.
- •14(1). Назначение etl системы.
- •15(1). Очистка данных. Назначение. Классификация проблем в «грязных» данных.
- •16(1). Обогащение данных. Назначение.
- •17(1). Трансформация данных. Назначение.
- •18(1). Цели квантования, выбор числа интервалов квантования, методы квантования.
- •19(1). Основные методы нормализации.
- •20(1). Нормализация с помощью поэлементных преобразований.
- •21(1). Кодирование категориальных данных.
- •22(2). Преобразование даты и времени, группировка и разгруппировка данных.
- •1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
- •2.(2)Генетический алгоритм. Кодирование хромосом
- •3.(2)Генетический алгоритм. Алгоритмы скрещивания и мутации
- •4.(2) Генетический алгоритм. Стратегии. Элитизм. Островная модель
- •5.(2)Нечеткая логика. Фазификация и дефазификация.
- •Принцип построения алгоритма нечеткого вывода.
- •6.(2)Нечеткая логика. Нечеткий логический вывод.
- •8.(2)Регрессия. Назначение и применение
- •11.(2)Ассоциативные правила. Назначение и применение
- •13.(2)Модель нейрона. Сумматор. Функция активации
- •1 . Единичный скачок или жесткая пороговая функция
- •2 . Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •14.(2)Нейронные сети. Многослойный персептрон (mlp).
- •Персептрон
- •15.(2)Нейронные сети. Карты Кохонена.
- •16.(2)Визуализация данных. Графики
- •График рассеивания
- •17.(2)Визуализация данных. Диаграммы.
- •18.(2)Визуализация данных. Гистограммы и статистика
- •20.(2)Визуализация данных. Диаграммы рассеяния
- •22.(2)Специализированые методы визуализации (в примерах).
21(1). Кодирование категориальных данных.
Категориальные данные - данные, качественно характеризующие исследуемый процесс или объект, не имеющие количественного выражения. Обычно представляют собой строковые значения из ограниченного набора категорий (например, названия городов, наименования товаров, ФИО сотрудников и клиентов и т.д.). При обработке таких данных применяются только операции сравнения: «равно» и «не равно», производится их упорядочивание, например, по алфавиту. Применение арифметических операций некорректно, даже если они представлены числами.
Кодирование категориальных переменных
Оптимальное кодирование не должно искажать структуры соотношений между классами. Если классы не упорядочены, такова же должна быть и схема кодирования. Наиболее естественной выглядит и чаще всего используется на практике двоичное кодирование типа n->n, когда имена n категорий кодируются значениями n бинарных нейронов, причем первая категория кодируется как (1,0,0,...,0), вторая, соответственно - (0,1,2,..,0) и т.д. вплоть до n -ной: (1,0,0,....,0). (Можно использовать биполярную кодировку, в которой нули заменяются на (-1). Легко убедиться, что в такой симметричной кодировке расстояния между всеми векторами-категориями равны.
22(2). Преобразование даты и времени, группировка и разгруппировка данных.
1.(2)Генетический алгоритм. Назначение. Плюсы и минусы
Генетический алгоритм - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию. Является разновидностью эволюционных вычислений, с помощью которых решаются оптимизационные задачи с использованием методов естественной эволюции, таких как наследование, мутации, отбор и кроссинговер. Отличительной особенностью генетического алгоритма является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе.
Назначение: Генетические алгоритмы служат, главным образом, для поиска решений в многомерных пространствах поиска. Генетические алгоритмы применяются при разработке программного обеспечения, в системах искусственного интеллекта, оптимизации, искусственных нейронных сетях и в других отраслях знаний.
Плюсы:
этот метод очень гибок, и, будучи построенным в предположении, что об окружающей среде нам известен лишь минимум информации, алгоритм успешно справляется с широким кругом проблем, особенно в тех задачах, где не существует общеизвестных алгоритмов решения или высока степень априорной неопределенности.
когда способ для точного решения существует, но он очень сложен в реализации, требует больших затрат времени и денег.
Минусы:
генетические алгоритмы не находят оптимального решения очень трудных задач;
Решение является более пригодным лишь по сравнению с другими решениями. В результате условие остановки алгоритма неясно для каждой проблемы.
Эволюционные вычисления: генетические алгоритмы и эволюционные программы.
Алгоритм генетического алгоритма:
Отбор
Скрещивание
Мутация
Редукция (необязательный)