Аналитический инструментарий

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Общий конспект по Технологии анализа и обработ...docx

Скачиваний:

Добавлен:

01.03.2025

Размер:

2.66 Mб

Скачать

☆

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 4415 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

Аналитический инструментарий

Некоторые подходы или определенная их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать;

1010data;
Apache Chukwa;
Apache Hadoop;
Apache Hive;
Apache Pig!;
Jaspersoft;
LexisNexis Risk Solutions HPCC Systems;
MapReduce;
Revolution Analytics (на базе языка R для мат. статистики).

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. В настоящее время практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Как справиться с большими данными?

Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.

ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями:

Разделяй и властвуй.

Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.

Компрессия и дедупликация. (Дедупликация данных — это технология, при помощи которой обнаруживаются и исключаются избыточные данные в дисковом хранилище. Например, путем замены повторных копий данных ссылками на первую копию. Это позволяет сократить объёмы физических носителей для хранения тех же объёмов данных.)

Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем, всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.

Не все данные одинаковы.

В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.

Масштабирование и управляемость.

Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 4415 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025620.94 Кб0Общая характеристика курса.docx
#
04.05.20193.85 Mб14Общая характеристика предприятия.doc
#
24.09.201983.37 Кб4ОБЩЕСТВО КАК ОБЪЕКТ ПОЗНАНИЯ.docx
#
01.05.2025159.74 Кб0общие билеты.doc
#
01.03.2025159.74 Кб0общие билеты.doc
#
01.03.20252.66 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.68 Mб0Общий конспект по Технологии анализа и обработ...docx
#
01.03.20253.78 Mб1Общий конспект по Технологии анализа и обработ...docx
#
01.03.20252.63 Mб0Общий конспект по Технологии анализа и обработ...docx
#
29.02.2016641.56 Кб48Общий курс транспорта.pdf
#
01.04.2025121.86 Кб0Общий тест по курсу OS - 11.doc

Аналитический инструментарий

Как справиться с большими данными?