Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Екзамен_Билет.doc
Скачиваний:
33
Добавлен:
25.05.2020
Размер:
347.65 Кб
Скачать

ДВНЗ «Університет банківської справи»

Харківський навчально-науковий інститут

Факультет управління та фінансових технологій

Кафедра інформаційних технологій

Освітня програма – освітньо-професійна

Спеціальність –125 «Комп’ютерні науки» Семестр 2

Освітній ступінь – магістр

Навчальна дисципліна: «OLAP-технології та Data mining»

Екзаменаційний білет №1

І. Теоретична частина

1. Поясніть сутність алгоритму кластеризації k-means..

2. Для чого вирішується задача прогнозування?

ІІ. Тестова частина

1. Більшість даних в світі в 2011 році були:

    1. У цифровому вигляді

    2. В аналоговому вигляді

2. Яка з переліченних дисциплін найбільш орієнтована на перевірку гіпотез?

(Отметьте один правильный вариант ответа.

а. Візуалізація

b. Data Mining

c. статистика

3. Інтервальна шкала – це шкала,

(Отметьте один правильный вариант ответа.)

a. содержащая категории, которые могут упорядочиваться, однако разности не имеют смысла

b. содержащая только категории, которые не могут упорядочиваться

c. разности между значениями которой могут быть вычислены, однако их отношения не имеет смысла

4. Яка з перерахованих нижче стадій може вважатися додатковою або частиною однієї з основних стадій Data mining:

(Відзначте один правильний варіант відповіді.)

a. виявлення закономірностей (вільний пошук)

b. використання виявлених закономірностей для передбачення невідомих значень (прогностичне моделювання)

c. валідація

5. Обсяг накопичених людством цифрових даних на 2017 рік міряється:

a. петабайт

b. зеттабайт

c. екзабайтами

d. йоттабайт

6. Інформація, дані і знання є:

a. частиною одного потоку

b. частинами різних потоків

c. обидві відповіді невірні

ІІІ. Практична частина. За даними наведеними в таблиці виконати кластеризацію даних. Для цього необхідно:

A. Нормалізувати дані.

B. Обчислити відстань між об'єктами, що кластерізуємо і побудувати матрицю відстаней (використовувати формулу для обчислення евклідової відстані).

С. Провести розбиття даних на 3 кластера

Прізвище

Зріст (см)

Вага (кг)

Вік (років)

Рівень інтелекту

Освіта

Ільин

185

95

23

87

Среднее

Погорелов

177

78

78

115

Уч. степень

Сидоров

183

67

15

90

Высшее

Степанов

167

102

20

135

Высшее

Фѐдоров

165

52

43

82

Среднее

Екзаменаційний білет № 2

І. Теоретична частина

1. Які задачі вирішуються методами Data Mining?

2. Якої мети служить завдання визначення відхилень та вибросів (Deviation Detection)?

ІІ. Тестова частина

1. Нечітка логіка і дерева рішень ...

(Відзначте один правильний варіант відповіді.)

a. відносяться до кібернетичним методам Data mining

b. відносяться до статистичних методів Data mining

c. не є методами Data mining

2. Data Mining - це процес виявлення в сирих даних знань, необхідних для:

(Відзначте один правильний варіант відповіді.)

a. прийняття рішень в різних сферах людської діяльності

b. заміни аналітика в процесі прийняття рішень

c. збільшення вартості аналізу даних

3. Відзначте ті з варіантів, в яких дані структуровані:

a. Дані про продажі компанії, представлені у вигляді щомісячних звітів в форматі MS Word.

b. Таблиця з щоденними показаннями температури приміщення за рік в файлі формату csv.

c. Текст педагогічної поеми А.С. Макаренко, представлений в форматі PDF.

d. Бібліотека фільмів, представлених у форматі mpeg4 на одному жорсткому диску.

4. Согласно классификации по стратегиям, задачи Data Mining подразделяются на:

a. обучение с учителем

b. обучение без учителя

c. дескриптивные

d. прогнозирующие

5. Data Mining - це процес виявлення в сирих даних

a. раніше сформульованих гіпотез

b. неочевидних закономірностей

c. практичних закономірностей

d. об'єктивних закономірностей

e. великої кількості закономірностей

6. Відзначте неправильне розуміння Variety в контексті характеристик Big Data:

a. Висока швидкість генерування даних.

b. Різні типи даних в колонках таблиць реляційних СУБД.

c. Різноманітність галузей, які є джерелами даних.

d. Різноманітність типів даних, що включають в себе структуровані, напівструктуровані і неструктуровані.

ІІІ. Практична частина. За даними наведеними в таблиці виконати кластеризацію даних. Для цього необхідно:

A. Нормалізувати дані.

B. Обчислити відстань між об'єктами, що кластерізуємо і побудувати матрицю відстаней (використовувати формулу для обчислення евклідової відстані).

С. Провести розбиття даних на 3 кластера

Прізвище

Зріст (см)

Вага (кг)

Вік (років)

Рівень інтелекту

Освіта

Самойлов

189

115

39

111

Вища

Линев

180

100

56

131

Середня

Еременко

192

89

25

97

Вища

Степанов

145

51

27

112

Вища

Бакулін

177

98

37

76

Середня

Соседние файлы в предмете Технологии OLAP и Data Mining