МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
КАФЕДРА 41
|
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
кандидат технических наук |
|
|
|
Е. Л. Турнецкая |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №4
|
Установка программного обеспечения Tableau Public
|
по дисциплине: Информационные системы и технологии |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
Z9411 |
|
|
|
Р. С. Кафка |
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Студенческий билет № |
2019/3603 |
|
|
|
Санкт-Петербург 2021
Цель работы: инсталляция клиентской части BI-системы визуализации данных Tableau Public.
Задание по лабораторной работе:
Установите программный продукт Tableau Public на персональный компьютер.
Последовательность установки:
Зашёл на сайт Tableau Public https://public.tableau.com
Создал аккаунт на сайте Tableau Public через окошко в правом верхнем углу: Sign In. В появившемся окне в самом низу выбрал Create one now for free, чтобы зарегистрироваться (рис. 1).
Рисунок 1 – Создание аккаунта
В окне своего профиля или на вкладке ACTIVITY выбрал кнопку Download the App для загрузки файла-инсталлятора (рис. 2).
Рисунок 2 - Создание запроса на скачивание загрузочного файла программы
Дождался окончания загрузки файла-инсталлятора – «TableauPublicDesktop-64bit-2021-1-2.exe» (рис. 3).
Рисунок 3 – Загрузка файла-инсталлятора
Инсталлировал клиентскую часть программного продукта Tableau Public на персональном компьютере (рис. 4).
Рисунок 4 - Установка программного обеспечения Tableau Public
Запустил программу Tableau Public (рис. 5).
Рисунок 5 - Начало работы с Tableau Public
Открыл рабочее окно приложения для проверки его работоспособности нажатием на символ (рис. 6).
Рабочее окно программы состоит из следующих областей:
1. Области данных, в которой отображаются источники данных
2. Области выбора координат для построения графиков и диаграмм.
3. Области фильтрации данных по запросам аналитика.
4. Области примеров визуализации Show Me.
5. Области визуализации отфильтрованных данных средствами Show Me.
Рисунок 6 - Рабочее окно программы Tableau Public
Вывод:
Основное назначение BI — это именно принятие решений для бизнеса. BI-система наиболее эффективна, когда она объединяет данные, полученные с рынка, на котором работает предприятие (внешние данные), с данными из источников внутри предприятия, такими как финансовые и производственные (внутренние данные).
Одним из ключевых трендов рынка BI за последние пару лет стала демократизация данных. Если еще пять лет назад BI-системы внедряли для группы аналитиков и топ-менеджмента, то сейчас все больше компаний приходит к осознанию ценности данных и грамотных решений, принятых на их основе.
В ближайшие годы инструментарий и функционал систем анализа данных будет развиваться с учетом растущих потребностей предприятий в потоковой аналитике, «демократизации» бизнес-анализа, максимального упрощения инструментария аналитических систем для «обычных» пользователей, популяризации инструментов голосового управления.
Во время лабораторной работы была установлена программа Tableau Public без каких-либо сложностей.
Список использованных источников:
1. Free Data Visualization Software | Tableau Public. URL: http://excel2.ru (дата посещения 19.06.2021).
2. Аграновский А.В. Обработка, анализ и визуализация структурированных данных: учебное пособие / А.В. Аграновский, М.С. Иванова, В.С. Павлов и др. СПб: ГУАП, 2020.
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
федеральное государственное автономное образовательное учреждение высшего образования
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ»
ИНСТИТУТ НЕПРЕРЫВНОГО И ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
КАФЕДРА 41
|
ОЦЕНКА
ПРЕПОДАВАТЕЛЬ
кандидат технических наук |
|
|
|
Е. Л. Турнецкая |
должность, уч. степень, звание |
|
подпись, дата |
|
инициалы, фамилия |
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ №5
|
Создание визуализаций данных средствами Show Me
|
по дисциплине: Информационные системы и технологии |
РАБОТУ ВЫПОЛНИЛ
СТУДЕНТ ГР. № |
Z9411 |
|
|
|
Р. С. Кафка |
|
номер группы |
|
подпись, дата |
|
инициалы, фамилия |
Студенческий билет № |
2019/3603 |
|
|
|
Санкт-Петербург 2021
Цель работы: изучение технологий фильтрации и обработки данных в однотабличной БД, реализованной на основе электронных таблиц Excel
Последовательность выполнения работы:
Выполните все учебные задания.
Выберите источник данных для создания визуализаций:
– самостоятельно разработанные данные для выполнения лабораторных работ по дисциплинам «Информационные системы и технологии»;
– набор данных (датасет) из открытых банков данных (https://tproger.ru/translations/the-best-datasets-for-machine-learning-and-data-science/)
Самостоятельно разработайте 5 запросов и визуализируйте их средствами Show Me, используя при этом не менее 4 диаграмм разного типа.
Отформатируйте элементы диаграмм для создания уникальности визуализации.
Зафиксируйте процесс визуализации запросов и форматирования на скриншотах с аналогичной степенью детализации, какая представлена в методических указаниях.
Напишите отчет.
Ход работы:
Разработка источника данных
Знакомство с интерфейсом и возможностями приложения Tableau Public начал с создания источника данных для визуализации – плоской таблицы в среде MS Excel журнала лучших фильмов согласно kinopoisk.ru со следующими типами данных (табл.1).
Таблица 1
Типы данных в журнале лучших фильмов
-
Название
Тип данных
Описание
rating
числовой
Рейтинг фильма
movie
текстовый
Название фильма
date
даты
Дата премьеры в мире
country
текстовый
Страна фильма
rating_ball
числовой
Рейтинг по 10-бальной шкале
director
текстовый
Режиссёр фильма
screenwriter
текстовый
Сценарист фильма
budget
числовой
Бюджет фильма
worldwide_gross
числовой
Сборы в мире
Сохранил данные в двух файлах с разными форматами kinopoisk.xlsx (рис.1) и kinopoisk.csv (рис.2).
Рисунок 1 – Разработка источника данных средствами MS Excel
Рисунок 2 – Представление источника данных в формате csv
Начало работы с приложением
Запустил приложение Tableau Public (рис. 3) и подключил источник данных для визуализации kinopoisk.csv (рис. 4).
Рисунок 3 – Меню подключения источников данных
Рисунок 4 – Подключение источника данных
На вкладке DataSource проверил корректность открытия файла, проверив совпадение заголовков столбцов автоматически созданной таблицы с исходными данными (рис. 5). При работе с данными приложение автоматически создает рабочую книгу Book1, которая содержит вкладки: Рабочие листы (Worksheet), Дашборды (Dashboard) или Истории (Story).
Рисунок 5 – Интерпретация данных Tableau Public
Рабочая область программы Tableau Public
Перешёл на вкладку Sheet1 и ознакомился со всеми полями на панели данных Tableau (рис. 6).
Рисунок 6 – Структура рабочего окна Tableau Public
Посмотрел формат хранения данных и метаданные о поле date. Для этого активировал контекстное меню поля щелчком правой кнопки мыши> Describe (рис. 7). В появившемся окне Describe field находится раздел с описанием самого поля: Role, Type, Remote column – тип данных, название исходного, системного поля в базе данных и домен поля с уникальными значениями.
Рисунок 7 - Описание поля источника данных
В моей базе данных существуют следующие типы данных (табл. 2).
Таблица 2
Типы данных источника данных kinopoisk.csv
-
Обозначение
Название
Тип данных
Описание
rating
Number (whole)
Рейтинг фильма
movie
String
Название фильма
date
Date
Дата премьеры в мире
country
String
Страна фильма
rating_ball
Number (decimal)
Рейтинг по 10-бальной шкале
director
String
Режиссёр фильма
screenwriter
String
Сценарист фильма
budget
Number (whole)
Бюджет фильма
worldwide_gross
Number (whole)
Сборы в мире
Построение визуализаций на основе файла kinopoisk.csv
Определение количества записей в файле
Перетащил (Drop) поле kinopoisk.csv (Count) в область Rows.
Активировал в поле Marks элемент Label для выведения общего количества записей над гистограммой (рис. 8).
Рисунок 8 – Активация маркера Label
Результат выполнения запроса представлен на рис. 9.
Рисунок 9 – Визуализация запроса «Количество записей в файле»
Определение количества фильмов с высоким рейтингом по странам
1. Выбрал country в области Dimensions и перенес в Rows.
2. Выбрал kinopoisk.csv (Count) в области Measures и перенесите в Colomns.
3. Открыл Show Me (Ctrl+1).
4. Выбрал подсвеченный тип графика (горизонтальная столбиковая диаграмма или bar chart).
5. Нажал в меню иконку сортировки по убыванию или над bar значок сортировки.
Результат выполнения запроса представлен на рис. 10.
Рисунок 10 - Визуализация запроса 4.2
Определение количества фильмов по странам с конкретными режиссёрами.
1. Выбрал country и director в области Dimensions и перенес в Rows.
2. Выбрал kinopoisk.csv (Count) в области Measures и перенес в Colomns.
3. Открыл Show Me (Ctrl+1).
4. Выбрал подсвеченный тип графика (горизонтальный barchart).
5. Отформатировал цвет и размер шрифта у заголовков и подписей по координатным осям (рис. 11).
6. Изменил цвет у столбцов диаграммы с помощью маркера Color.
Рисунок 11 – Форматирование цвета и размера шрифта подписей у координатных осей
Результат выполнения запроса представлен на рис. 12.
Рисунок 12 - Визуализация запроса 4.3
Детализировал запрос по щелчку ПКМ на выбранном столбце > View Data > Full Date. В частности, результат действий по предоставлению подробной информации по режиссёру Фрэнк Дарабонт показан на рис. 13.
Рисунок 13 – Детализация данных режиссёра Фрэнк Дарабонт
Определение бюджета и кассовых сборов фильмов на одной визуализации
1. Перенес movie в Columns и budget с worldwide_gross в Rows.
2. Построил вертикальную столбиковую диаграмму (side-by-side bars).
4. Вывел через Label информацию о сумме бюджета и кассовых сборов.
Результат визуализации представлен на рис. 14.
Рисунок 14 – Визуализация запроса 4.4
Определение какой фильм заработал больше всего кассовых сборов
1. Перетащил movie в Columns и worldwide_gross в Rows.
2. Выбрал в Show Me пузырьковую диаграмму.
3. Заменил в текстовом поле movie маркер, связанный с названиями фильмов на графике, чтобы увидеть вместо названий количество кассовых сборов.
4. Открыл контекстное меню Label и поставьте галочку в чекбоксе Show mark label для показа количества кассовых сборов на соответствующие фильмы и отформатировал текст (рис.15).
Рисунок 15 – Контекстное меню маркера Label
Результат визуализации представлен на рис. 16.
Рисунок 16 – Результат выполнения запроса 4.5
Создание дашбода
1. Активировал лист нового дашбода в рабочей книге (рис. 6).
2. Перетащил требуемые для создания визуализации запросы в рабочую область листа.
3. Удалил ненужные артефакты: легенды, подписи и т.д.
4. Сформировал понятную визуализацию из двух запросов, например 4.4 и 4.5 (рис. 17).
4. Переименовал лист Dashbord1 в Кассовые сборы фильмов кинопоиска.
5. Опубликовал результат работы в Tableau Public (рис. 18).
Рисунок 17 - Разработка dashboard «Кассовые сборы фильмов кинопоиска»
Рисунок 18 – Публикация dashboard на Tableau Public
Вывод:
В ходе работы я столкнулся с некоторыми трудностями:
Для столбцов Бюджет и Кассовые сборы изначально выбирал формат в Excel «финансовый» – для корректного отображения денег со знаком доллара. Из-за чего после сохранения этих данных в формате .csv -> в приложении Tableau Public эти данные отображались в формате String, а не числовом, как это планировалось для корректной работы. В следствие чего была переделана и пересохранена таблица, чтобы столбцы Бюджет и Кассовые сборы имели числовой формат.
Также в пункте 4.5, следуя методичке, нужно было удалить определённые данные, чтобы в графике вместо названия отображалось именно количество. У меня это не получалось, и я нашёл способ без удаления – дважды кликнув по текстовому атрибуту в поле Marks появилась возможность написать вместо значения «movie» -> «worldwide_gross» (рис. 19). После этого внутри пузырей начало отображаться количество кассовых сборов, а не названия фильмов, как и планировалось.
Рисунок 19 – Изменение отображаемого значения
Возможно, базу данных, которую я решил выбрать, не совсем конкретно подходит для качественной визуализации данных для этой лабораторной работы, но это, скорее всего, из-за малого количества данных.
Self-Service системы, безусловно, необходимая вещь в современном мире. Огромное количество информации невозможно держать в голове, а каждый раз обращаться в техническую поддержку – будет только нагружать их работу. Уже сейчас некоторые компании используют внутри себя так называемые «базы знаний», где их же работники могут писать актуальные статьи с необходимой информацией и решениями проблем. Алгоритмы позволяют находить по ключевым словам нужную статью. Всё это активно развивается, но я считаю, что есть люди, которым просто не интересно искать эту необходимую информацию, причину проблемы или даже не хотят напрягаться самостоятельно. Уже сейчас при обращении в службу поддержки отвечает голос робота и пытается решить поставленную клиентами задачу. И пока все процессы не автоматизированы, будет существовать техническая поддержка, где будут необходимы живые специалисты.
А потом, с развитием искусственного интеллекта, скорее всего пропадёт необходимость в работе по обслуживанию клиентов, и будут необходимы специалисты по обслуживанию этих самых роботов.