Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
итс ответы.docx
Скачиваний:
2
Добавлен:
31.07.2019
Размер:
70.97 Кб
Скачать

1.Что такое операционная обработка информации?

* Обработка информации – это решение информационной задачи, или процесс перехода от исходных данных к результаты.

Обработка информации бывает двух типов:

обработка, связанная с получением нового содержания, новой информации;

обработка, связанная с изменением формы информации, но не изменяющая ее содержания.

2.Приведите примеры систем операционной обработки информации.

* OLAP (On-Line Analytical Processing)

* OLTP (On-Line Transaction Processing)

3.Что такое системы поддержки принятия решений?

* Системы поддержки принятия решений (DSS — Decision Support Systems) — это интерактивная автоматизированная система, которая помогает лицу, принимающему решения, использовать данные и модели для выявления и решения задач и принятия решений. Такие корпоративные системы работают с интерактивными запросами и позволяют моделировать ситуации и формировать отчеты в режиме он-лайн.

4.Почему нельзя эффективно проводить анализ в системах операционной обработки информации?

*

5.Перечислите технологии, ориентированные на аналитическую обработку информации.

* системы, ориентированные на операционную (транзакционную) обработку данных; в англоязычной литературе они часто называются термином OLTP (On-Line Transaction Processing, оперативная транзакционная обработка), в противовес OLAP - оперативной аналитической обработке определяет их термином "системы обработки данных" (СОД);

системы, ориентированные на аналитическую обработку данных - системы поддержки принятия решений (СППР), или Decision Support Systems (DSS).

6.В чем состоит концепция хранилища данных?

* Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, концепция Хранилищ Данных подразумевает: интегрированность, не изменчивость, поддержку хронологии и согласованность данных

7.Как определяется хранилище данных?

* Хранилище данныхData Warehouse) — предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации.

- это некая совокупность данных объединенных из различных источников, структурированная и оптимизированная для доступа к ним при помощи средств создания запросов OLAP

8.Что такое предметная ориентированность хранилища данных?

* Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

9. Что такое интегрированность хранилища данных?

* данные, полученные из различных источников, хранятся согласованно и централизованно. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции

10. Что такое привязка ко времени данных в хранилище?

* Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные их оперативных БД, накапливаются в хранилище в виде "исторических слоев", каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.

11. В чем отличие характеристик типичных систем операционной обработки и хранилищ данных.

*первые- не могут хранить данные более чем за несколько месяцев. После того как данные устаревают, они выгружаются и вычищаются из операционной БД.

Вторые- накапливают данные, совмещают их и интегрируют, решение все новых задач и практически никогда не кончается, поэтому его нельзя уместить в более или менее четкие временные рамки

12. Из каких источников поступают данные в хранилище?

* Внешние источники данных - основа ХД - хранилища данных

различного рода ИС,

электронные архивы,

общедоступные и коммерческие электронные каталоги,

справочники,

статистические сборники.

13.Что такое Менеджер загрузки данных в хранилище и какие у него функции?

* Менеджер загрузки ( load manager ) выполняет операции, связанные с извлечением и загрузкой данных в ХД.

14.Что такое Менеджер хранилища и какие у него его функции?

* Менеджер хранилища ( warehouse manager ) выполняет операции, связанные с управлением информацией, помещенной в ХД:

анализ непротиворечивости данных;

создание индексов и представлений для базовых таблиц;

денормализация данных (при необходимости);

обобщение данных (при необходимости);

резервное хранение и архивирование

15. Для чего нужна очистка данных?

* Очистка данных (data cleaning, data cleansing или scrubbing) занимается выявлением и удалением ошибок и несоответствий в данных с целью улучшения качества данных

16.Какие этапы очистки данных?

* очистка данных включает несколько этапов:

Анализ данных

Определение порядка и правил преобразования данных

Подтверждение

Преобразования

Противоток очищенных данных

17. В чем отличие детальных данных от частично и глубоко обобщенных данных?

*

18.Какие существуют средства доступа к данным хранилища для конечного пользователя?

*средства для конечного пользователя. К ним относятся компоненты нового поколения Microsoft Office - Office 2000, прежде всего Microsoft Excel. Его популярное средство анализа данных PivotTable® теперь сможет задействовать всю мощь OLAP-сервера, подключаясь к нему через упоминавшийся выше клиентский компонент PivotTable Services.

Еще одно средство от Microsoft - English Query - позволяет строить запросы к SQL Server на естественном языке (по-английски).

Данные для пользователя удобно представлять в многоразмерных БД

19.Как классифицируются средства доступа к данным хранилища с точки зрения возможностей анализа?

*Инструменты создания отчетов и запросов. Инструменты создания отчетов подразделяются на инструменты создания итоговых отчетов  и редакторы отчетов.

20. Перечислите проблемы создания хранилищ данных.

*Проблемы качества данных

Проблемы выбора источников данных

Проблемы производительности и масштабируемости

  1. В чем состоят скрытые проблемы источников данных? Скрытые проблемы, связанные с источниками данных, поставляющими информа­цию в хранилище, могут быть обнаружены только после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.

  1. Что такое гомогенизация данных? Приведите примеры из близкой для Вас прикладной области.

Создание крупномасштабного хранилища данных может быть связано с решением серьезной задачи гомогенизации данных, что в итоге способно уменьшить ценность соб­ранной информации. Например, таможенная и продажная стоимость товара могут существенно отличаться. Внесение одного поля стоимости товара в хранилище данных не даст далее возможности анализировать те или иные аспекты деятельности.

  1. В чем состоит проблема владения данных? потребуется сделать доступными и другим сотрудникам организации.

  2. Что такое витрина данных? подмножество хранилища данных, которое поддерживает требования отдельного подразделения или деловой сферы организации.

Контрольные вопросы:

  1. Перечислите требования к СУБД для хранилища данных. Высокая производительность загрузки данных, Возможность обработки данных во время загрузки, Наличие средств управления качеством данных, Высокая производительность запросов, Широкая масштабируемость по размеру (до терабайт), Масштабируемость по количеству пользователей, Возможность организации сети хранилищ данных, Наличие развитых средств администрирования хранилища, Расширенный набор средств запросов, Широкий набор функциональных средств доступа и анализа данных

  1. Что такое набор данных, объекты, атрибуты, переменная, значение? Набор данных - По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты. Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д. Атрибут - свойство, характеризующее объект. Переменная - свойство или характеристика, общая для всех изучаемых объектов, проявление которой может изменяться от объекта к объекту. Значение переменной является проявлением признака.

  2. Что такое генеральная совокупность, параметры, выборка, статистики? Генеральная совокупность - вся совокупность изучаемых объектов, интересующая исследователя. Выборка - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности. Параметры - числовые характеристики генеральной совокупности. Статистики - числовые характеристики выборки.

  3. Что такое гипотеза, зависимая переменная, независимые переменные? Приведите примеры. Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов. Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае - продолжительности жизни. Допустим, существует гипотеза, что зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.

  1. Что такое непрерывные данные и дискретные данные? Приведите примеры. Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин. Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. Пример непрерывных данных: температура, высота, вес, длина и т.д.

  2. Какие бывают шкалы измерений? номинальная, порядковая, интервальная, относительная и дихотомическая.

  3. Что такое Номинальная шкала? Какие возможны операции? Приведите примеры. Номинальная шкала - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия. Пример такой шкалы: профессии, город проживания, семейное положение. Для этой шкалы применимы только такие операции: равно (=), не равно ( ).

  4. Что такое Порядковая шкала? Какие возможны операции? Приведите примеры.

Порядковая шкала - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<).

  1. Что такое Относительная шкала? Какие возможны операции? Приведите примеры. Относительная шкала - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-), умножения (*) и деления (/).

  2. Что такое Интервальная шкала? Какие возможны операции? Приведите примеры. Интервальная шкала - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-).

  3. Что такое Дихотомическая шкала? Какие возможны операции? Приведите примеры. Дихотомическая шкала - шкала, содержащая только две категории. Пример такой шкалы: пол (мужской и женский). Операции: присваивать типа да, нет - 1,0.

  4. Что такое транзакционные данные? представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

  5. В чем отличие моделирования времени в хранилищах данных и системах операционной обработки данных? В системах операционной обработки используются снимок данных.

  6. Что такое снимок данных? это представление данных в определенный момент времени

  7. Что такое событийная модель? используется для моделирования данных о наступлении событий в определенные моменты времени ( для транзакций).

  8. Что такое статусная модель? используется для моделирования состояния объектов во времени. Она хорошо подходит для представления данных, имеющий нетранзакционный характер

  9. В чем состоят скрытые проблемы источников данных? Скрытые проблемы, связанные с источниками данных, поставляющими информа­цию в хранилище, могут быть обнаружены только после начала их эксплуатации. При этом разработчику придется принять решение об устранении возникших проблем в хранилище данных и/или в источниках данных.

  1. Что такое гомогенизация данных? Приведите примеры из близкой для Вас прикладной области.

Создание крупномасштабного хранилища данных может быть связано с решением серьезной задачи гомогенизации данных, что в итоге способно уменьшить ценность соб­ранной информации. Например, таможенная и продажная стоимость товара могут существенно отличаться. Внесение одного поля стоимости товара в хранилище данных не даст далее возможности анализировать те или иные аспекты деятельности.

  1. В чем состоит проблема владения данных? потребуется сделать доступными и другим сотрудникам организации.

  2. Что такое витрина данных? подмножество хранилища данных, которое поддерживает требования отдельного подразделения или деловой сферы организации.

Контрольные вопросы:

  1. Перечислите требования к СУБД для хранилища данных. Высокая производительность загрузки данных, Возможность обработки данных во время загрузки, Наличие средств управления качеством данных, Высокая производительность запросов, Широкая масштабируемость по размеру (до терабайт), Масштабируемость по количеству пользователей, Возможность организации сети хранилищ данных, Наличие развитых средств администрирования хранилища, Расширенный набор средств запросов, Широкий набор функциональных средств доступа и анализа данных

  1. Что такое набор данных, объекты, атрибуты, переменная, значение? Набор данных - По горизонтали таблицы располагаются атрибуты объекта или его признаки. По вертикали таблицы - объекты. Объект описывается как набор атрибутов. Объект также известен как запись, случай, пример, строка таблицы и т.д. Атрибут - свойство, характеризующее объект. Переменная - свойство или характеристика, общая для всех изучаемых объектов, проявление которой может изменяться от объекта к объекту. Значение переменной является проявлением признака.

  2. Что такое генеральная совокупность, параметры, выборка, статистики? Генеральная совокупность - вся совокупность изучаемых объектов, интересующая исследователя. Выборка - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности. Параметры - числовые характеристики генеральной совокупности. Статистики - числовые характеристики выборки.

  3. Что такое гипотеза, зависимая переменная, независимые переменные? Приведите примеры. Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов. Пример гипотезы: между показателями продолжительности жизни и качеством питания есть связь. В этом случае целью исследования может быть объяснение изменений конкретной переменной, в данном случае - продолжительности жизни. Допустим, существует гипотеза, что зависимая переменная (продолжительность жизни) изменяется в зависимости от некоторых причин (качество питания, образ жизни, место проживания и т.д.), которые и являются независимыми переменными.

  1. Что такое непрерывные данные и дискретные данные? Приведите примеры. Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Пример дискретных данных. Продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин. Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. Пример непрерывных данных: температура, высота, вес, длина и т.д.

  2. Какие бывают шкалы измерений? номинальная, порядковая, интервальная, относительная и дихотомическая.

  3. Что такое Номинальная шкала? Какие возможны операции? Приведите примеры. Номинальная шкала - шкала, содержащая только категории; данные в ней не могут упорядочиваться, с ними не могут быть произведены никакие арифметические действия. Пример такой шкалы: профессии, город проживания, семейное положение. Для этой шкалы применимы только такие операции: равно (=), не равно ( ).

  4. Что такое Порядковая шкала? Какие возможны операции? Приведите примеры.

Порядковая шкала - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. Пример такой шкалы: место (1, 2, 3-е), которое команда получила на соревнованиях, номер студента в рейтинге успеваемости (1-й, 23-й, и т.д.), при этом неизвестно, насколько один студент успешней другого, известен лишь его номер в рейтинге. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<).

  1. Что такое Относительная шкала? Какие возможны операции? Приведите примеры. Относительная шкала - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. Пример такой шкалы: вес новорожденного ребенка (4 кг и 3 кг). Первый в 1,33 раза тяжелее. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-), умножения (*) и деления (/).

  2. Что такое Интервальная шкала? Какие возможны операции? Приведите примеры. Интервальная шкала - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. Пример такой шкалы: температура воды в море утром - 19 градусов, вечером - 24, т.е. вечерняя на 5 градусов выше, но нельзя сказать, что она в 1,26 раз выше. Для этой шкалы применимы только такие операции: равно (=), не равно ( ), больше (>), меньше (<), операции сложения (+) и вычитания (-).

  3. Что такое Дихотомическая шкала? Какие возможны операции? Приведите примеры. Дихотомическая шкала - шкала, содержащая только две категории. Пример такой шкалы: пол (мужской и женский). Операции: присваивать типа да, нет - 1,0.

  4. Что такое транзакционные данные? представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

  5. В чем отличие моделирования времени в хранилищах данных и системах операционной обработки данных? В системах операционной обработки используются снимок данных.

  6. Что такое снимок данных? это представление данных в определенный момент времени

  7. Что такое событийная модель? используется для моделирования данных о наступлении событий в определенные моменты времени ( для транзакций).

  8. Что такое статусная модель? используется для моделирования состояния объектов во времени. Она хорошо подходит для представления данных, имеющий нетранзакционный характер

  9. Какие существуют способы моделирования изменяющихся во времени статусов? непрерывная модель, начало и конец, начало и длительность

  10. Как статусная и событийная модели могут дополнять друг друга? Путем преобразований из одной можно получить другую

  11. Что такое специальные атрибуты времени? Недели, Времена года, Сезоны, Выходные и праздники, Рабочие смены

  12. Что такое размерности или измерения? Приведите примеры типичных размерностей. аспект, в разрезе которого можно получать, фильтровать, группировать и отображать информацию о фактах. Типичные размерности: Клиент, Продукт, Время, География, Сотрудник

  13. Что такое иерархическая структура размерностей? Например, размерность ВРЕМЯ может иметь следующую структуру: ГОД, КВАРТАЛ, МЕСЯЦ, ДЕНЬ.

  1. Что такое факты? величины, обычно числовые, хранящиеся в таблице фактов и являющиеся предметом анализа.

  2. Как связаны понятия размерности и факты? Приведите примеры. факты индексируются или определяются размерностями. Например, количество проданных единиц товара зависит от продукта, клиента, времени и места (География).

  1. Что такое аддитивные, полуаддитивные и неаддитивные факты? Аддитивность определяет возможность суммирования факта вдоль определенной размерности (или говорят по иерархии). Неаддитивные факты вообще нельзя суммировать

  2. Какие специальные модели данных чаще всего используются в хранилищах? "звезда", "снежинка", метаданные

  3. Что такое схема данных "звезда"? характеризуется наличием таблицы фактов, окруженной связанными с ней таблицами размерностей

  4. Что такое схема данных "снежинка"? Если же хотя бы одно измерение (таблица размерностей) содержится в нескольких связанных таблицах

  5. Что такое метаданные? данные о данных. В состав метаданных могут входить: каталоги, справочники, реестры.

Data Mining

Контрольные вопросы:

  1. Что такое Data Mining? В чем отличие Data Mining от традиционных средств обработки информации? процесс обнаружения в сырых данных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в раз­личных сферах человеческой деятельности. Отличие - найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

  2. Приведите примеры приложений Data Mining. SQL Server Microsoft, Oracle, Excel

  3. Какие проблемы возникают при использовании Data Mining?

Она не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы. Программное обеспечение должно соответствовать уровню подготовки пользователя. При использовании многих алгоритмов необходимо определенное (желательное) соотношение входных переменных и количества наблюдений. Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены.

Контрольные вопросы:

  1. Какие задачи или закономерности относятся к Data Mining? классификация, кластеризация, прогнозирование, ассоциация, визуализация, анализ и обнаружение отклонений, оценивание, анализ связей.

  2. Что такое классификация? Приведите примеры. обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто - нет, кто воспользуется услугой фирмы, а кто - нет, и т.д.

  3. Что такое кластеризация? Приведите примеры. является логическим продолжением идеи классификации и заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

  1. Что такое ассоциация? Приведите примеры. поиск закономерности между связанными событиями в наборе данных.

  2. Что такое последовательность? Приведите примеры. позволяет найти временные закономерности между транзакциями.

  3. Что такое анализ связей? нахождение зависимостей в наборе данных

  4. Что такое определение отклонений или выбросов? обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.

  1. Какие основные этапы выделяются при решении задач Data Mining? создание модели данных и использование модели для поступающих новых данных.

  2. Поясните термины набор исходных данных, обучающее множество данных, тестовое множество? Набор исходных данных - данные в хранилище, Обучающее множество данных - множество, которое включает данные в хранилище, использующиеся для обучения (конструирования) модели, Тестовое множество содержит входные и выходные значения примеров.

  3. Что такое обучение с учителем? обучение и набор исходных данных, обучающее множество данных и тестовое множество.

Контрольные вопросы:

  1. Что такое бинарная классификация? в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).

  2. Что такое многомерная классификация? по двум и более признакам

  3. Что такое классификация на основе линейной регрессии? объекты принадлежат одному классу (показаны выше прямой линии на рисунке), в противном случае – другому классу.

  1. Как строится классификация на основе деревьев решений? Правилом является логическая конструкция, представленная в виде "если : то :".

  2. Назовите основные элементы дерева решений. Корень дерева, Внутренний узел дерева или узел проверки, Лист, конечный узел дерева, узел решения или вершина, Ветвь дерева (случаи ответа): "Да", "Нет".

  3. Что такое бинарное дерево? являются самым простым, частным случаем деревьев решений.

  4. Как формулируются условия в узле проверки дерева решений? Каждый узел проверки должен быть помечен определенным атрибутом. Существует правило выбора атрибута: он должен разбивать исходное множество данных таким образом, чтобы объекты подмножеств, получаемых в результате этого разбиения, являлись представителями одного класса или же были максимально приближены к такому разбиению

  1. Какие достоинства имеет классификация на основе деревьев решений? Интуитивность деревьев решений. Классификационная модель, представленная в виде дерева решений, является интуитивной и упрощает понимание решаемой задачи; Деревья решений дают возможность извлекать правила из базы данных на естественном языке; Деревья решений позволяют создавать классификационные модели в тех областях, где аналитику достаточно сложно формализовать знания; Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов (независимых переменных); Точность моделей, созданных при помощи деревьев решений, сопоставима с другими методами построения классификационных моделей (статистические методы, нейронные сети); Разработан ряд масштабируемых алгоритмов; Быстрый процесс обучения; Большинство алгоритмов конструирования деревьев решений имеют возможность специальной обработки пропущенных значений; деревья решений работают и с числовыми, и с категориальными типами данных; , деревья решений способны решать такие задачи Data Mining, в которыхотсутствует априорная информация о виде зависимости между исследуемыми данными

Какие стратегии используются при конструировании деревьев решений? Тут существует две возможные стратегии. Первая состоит в наращивании дерева до определенного размера в соответствии с параметрами, заданными пользователем. Определение этих параметров может основываться на опыте и интуиции аналитика, а также на некоторых "диагностических сообщениях" системы, конструирующей дерево решений. Вторая стратегия состоит в использовании набора процедур, определяющих "подходящий размер" дерева, они разработаны Бриманом, Куилендом и др. в 1984 году. Однако, как отмечают авторы, нельзя сказать, что эти процедуры доступны начинающему пользователю.

  1. Как различаются алгоритмы построения деревьев решений? На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule и другие.

Контрольные вопросы:

  1. Что такое кластеризация? Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.

  2. В чем смысл применения кластерного анализа для временных рядов? Кластерный анализ может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.

  3. Какие группы задач выделяются в кластерном анализе?

  • Разработка типологии или классификации.

  • Исследование полезных концептуальных схем группирования объектов.

  • Порождение гипотез на основе исследования данных.

  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных (примечание 1).

  1. Что является критерием для определения схожести и различия кластеров?

  1. Как вычисляется евклидово расстояния между объектами? , где xil, хjl  значения l-го признака у i-го (j-го) объекта (l = 1, 2, ..., k, i,j = 1, 2, .... п).

  2. Какие математические характеристики имеет кластер? центр кластера, дисперсия кластера, среднее квадратическое отклонение объектов, радиус кластера, спорный объект

  3. Что такое центр кластера? это среднее геометрическое место точек в пространстве переменных.

  4. Что такое радиус кластера? максимальное расстояние точек от центра кластера:

  5. Что такое размер кластера? Размер кластера может быть определен либо по радиусу кластералибо посреднеквадратичному отклонению объектов для этого кластера.

  6. Что такое спорный объект?  это объект, который по мере сходства может быть отнесен к нескольким кластерам.

  7. Для чего необходимо нормирование исходных данных в кластерном анализе?

  8. Какие существуют способы нормирования исходных данных?

  9. Какие существуют группы методов кластерного анализа? иерархические; неиерархические

  10. Что такое иерархическая кластеризация? Когда целесообразнее применять иерархическую кластеризацию? кластеров в большие или разделении больших кластеров на меньшие. кластеров в большие или разделении больших кластеров на меньшие.

  11. Что такое агломеративная иерархическая кластеризация? Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.

  12. Что такое дивизимная иерархическая кластеризация? Эти методы являются логической противоположностью агломеративным методам.

  13. Что такое итеративная кластеризация? Когда целесообразнее применять итеративную кластеризацию? При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки. Такая неиерархическая кластеризация состоит в разделении набора данных на определенное количество отдельных кластеров.

  14. Какие преимущества и недостатки методов итеративной кластеризации?

  15. Какие имеются общие проблемы кластерного анализа? При проведении кластерного анализа следует учитывать, что результаты кластеризации зависят от критериев разбиения совокупности исходных данных. При понижении размерности данных могут возникнуть определенные искажения, за счет обобщений могут потеряться некоторые индивидуальные характеристики объектов.