Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИБД реферат.docx
Скачиваний:
15
Добавлен:
28.06.2021
Размер:
414 Кб
Скачать
    1. Энтропия баз данных

Концепция энтропии может быть применена и к базам данных, если считать, что каждая запись – сообщение пользователю. Энтропия предоставляет обобщенную меру информации в базе данных или представлении базы данных через подсчет количества уникальных разбиений, в которые попадает запись на основании своих атрибутов. Такой подход может помочь в обеспечении защищенности базы данных от атак. Высокая энтропия внутри базы данных подразумевает, что существует много записей, которые можно отличить друг от друга в представления, и, соответственно, взломщику будет проще достать только те записи, которые ему нужны. Снижение энтропии приводит к снижению подобия записей и усложнению поиска необходимых данных для злоумышленника. В статье Entropy as a measure of database information Е. Унгера, Л. Харна и В. Кумара предложен способ определения энтропии БД и ее снижения для повышения защищенности.

П редположим, что существует следующее представление базы данных (рисунок 7)

Рисунок 7. Представление базы данных

Всего в представлении 12 записей. Злоумышленнику необходимо получить данные о зарплате и политическом взносе, но пользователю не доступны идентификаторы, помогающие однозначно определить запись. Так как с помощью сочетания первых трех атрибутов каждой записи можно однозначно определить запись, то энтропия такого представления равна:

Э то значит, что злоумышленник может легко определить необходимую запись. Однако, если из представления убрать поле «пол», то энтропия представления снизится, так как 2 оставшихся атрибута смогут описать несколько записей сразу (рисунок 8).

Рисунок 8. Измененное представление базы данных

Энтропия будет вычисляться следующим образом:

Энтропия при использовании различных атрибутов представлена на рисунке 9.

Р исунок 9. Энтропия каждого варианта представления базы данных

Анализ энтропии дает администратору базы данных возможность оценить степень ее уязвимости перед некоторыми угрозами.

    1. Машинное обучение и нейронные сети

Идеи теории информации используются и в сфере машинного обучения и нейронных сетей. Одним из ключевых принципов машинного обучения является «принцип минимальной длины описания», который гласит, что необходимо описывать данные максимально возможно кратко. Это напрямую связано с концепцией сложности модели и переобучения. Переобучение в машинном обучении – это явление, при котором модель сети показывает высокие результаты на обучающей выборке, но плохо работает при тестировании (модель «подстраивается» под выборку, а не под задачу). Если модель слишком сложна для предоставляемого количества информации, то в ней может возникать переобучение. Сложность конкретной модели можно описать в терминах теории информации, а данные метрики могут стать частью алгоритма, например, использоваться в функции потерь, чтобы обеспечить баланс между тем, как модель обучается на данных и е сложностью.

При обучении моделей широко используется функция перекрестной энтропии как функция потерь. Перекрестная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей q, вместо необходимого распределения p. Для дискретных p и q формула перекрестной энтропии имеет вид:

Функция перекрестной энтропии помогает для оптимизации как бинарных, так и мультиклассовых моделей классификации. Для каждого объекта в выборке есть метка, которая однозначно описывает объект. Это значит, что вероятность данной метки для данного объекта равна 1.0, а всех остальных 0.0. Модель может вычислить вероятность принадлежности объекта к одной из меток. Значит, если использовать перекрестную энтропию как функцию потери, то можно вычислить разницу между двумя распределениями вероятностей. Для задач бинарных классификаций, где есть класс a и класс b, данная функция раскрывается так:

Если объект принадлежит к классу a, то P(b) = 0, значит, остается только часть, связанная с a. Далее, если модель вычислила вероятность a = 1, то log*Q(a) = 0 – модель корректно классифицирует данный объект, а энтропия равна 0.

Соседние файлы в предмете Интеллектуальные базы данных