Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Вопросы к экзамену 2023

.pdf
Скачиваний:
7
Добавлен:
30.07.2024
Размер:
1.52 Mб
Скачать

15.Apache Spark. Core API. Понятие RDD, его структура.

Преобразования и действия. Ленивое выполнение.

16.Apache Spark. Core API. Методы reduce, foreach, foreachPartition, getNumPartitions.

17.Apache Spark. Core API. Методы map, filter, distinct, flatMap.

18.Apache Spark. Core API. Понятие парного RDD (PairRDD). Методы reduceByKey, aggregateByKey, groupByKey, sortByKey, join.

19.Apache Spark. DataFrame API. Понятие DataFrame, его структура.

Чтение и запись данных DataFrame.

20.Apache Spark. DataFrame API. Язык запросов. Взаимодействие с Hive. Функции createTempView, createGlobalTempView.

21.Apache Spark. Streaming API и Structured Streaming API.

Назначение, основные понятия и общий принцип работы.

22.Apache Spark. Streaming API и Structured Streaming API. Оконные операции над потоками. Методы reduceByKeyAndWindow, countByValueAndWindow, window, countByWindow, reduceByWindow.

23.Apache Spark. Принцип выполнения программ на кластере. Понятия конвейера, работ (job), стадий (stage) и заданий (task).

24.Машинное обучение. Обучение с учителем и без учителя. Постановка задачи классификации. Алгоритмы классификации: логистическая регрессия, наивный байесовский классификатор.

25.Машинное обучение. Обучение с учителем и без учителя. Постановка задачи классификации. Алгоритмы классификации: KNN, решающие деревья.

26.Машинное обучение. Обучение с учителем и без учителя. Постановка задачи регрессии. Линейная регрессия.

27.Машинное обучение. Обучение с учителем и без учителя. Постановка задачи кластеризации. Алгоритм K-средних.

28.Машинное обучение. Обучение с учителем и без учителя. Сокращение размерности. Метод главных компонент (PCA).

29.Машинное обучение. Проблема переобучения и недообучения. Цели деления выборки на обучающую, валидационную и тестовую.

30.Машинное обучение. Проблема переобучения и недообучения. Подбор гиперпараметров. Валидация. Перекрестная валидация.

31.Машинное обучение на кластере. Spark MLlib. Основные типы данных: Local Vector, Labeled Point, Dense Local Matrix, Sparse Local Matrix.

32.Машинное обучение на кластере. Spark MLlib. Типы распределенных матриц: Row Matrix, Indexed Row Matrix, Coordinate Matrix, Block Matrix.

33.Машинное обучение на кластере. Spark MLlib. Конвейер машинного обучения. Понятия преобразователей (трансформеров), оценщиков и конвейера.

34.Визуализация. Цели визуализации данных. Три ингредиента для хорошей визуализации.

35.Визуализация. Основные типы графиков: линейный график, столбчатая диаграмма, круговая диаграмма, график рассеивания (scatter), цветовые карты, географические карты.

36.Визуализация. Графические интерфейсы. Преимущества и недостатки графических интерфейсов перед консольным.

37.Визуализация. Графические интерфейсы. Hue. Jupiter. 38.Визуализация. Инструменты для визуализации данных и анализа. BI-

инструменты. Понятие дашбордов.

39.Безопасность и администрирование кластера. Понятие аутентификации

иавторизации. Kerberos: основные понятия и общий принцип работы. 40.Безопасность и администрирование кластера. Понятие аутентификации

иавторизации. Apache Ranger: основные понятия и общий принцип работы.

41.Безопасность и администрирование кластера. Apache Atlas: основные понятия и общий принцип работы.