Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
сборник 2014 23.96.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
581.63 Кб
Скачать

Управление неструктурированными данными

Эффективная работа с неструктурированными данными в информационных системах - одна из основных проблем для информационных технологий, так как объем этих данных стремительно нарастает. Сегодня их доля в ряде организаций составляет 80-90% всех хранимых данных, а требования к хранению и обработке ужесточаются. Например, национальные и международные регуляторы обязывают представлять отчетность в соответствии с Актом Сарбонейса-Оксли (SOX), Актом Грэма-Лича-Блилей (GLBA), Директивой ЕС о защите данных, соглашением Basel II по банковскому надзору и т. д., и при этом обеспечивать хранение отчетности и связанной с ней информации, а это в основном данные в неструктурированном формате. Поэтому в организации, имеющей дело с неструктурированными данными, проблема хранения и доступа к ним выходит на первый план.

В современных компаниях привыкли использовать структурированные данные, которые имеют такие значенияэлементов, как поля, столбцы, таблицы, строки и индексы. На их основе определяются совокупности записей - файлы, таблицы реляционных баз данных и т. д. Основным типом структурированных данных являются алфавитно-цифровые. Данные, не попадающие под определение "структурированные", получили название "неструктурированные". Неудачный термин, поскольку чаще всего эти данные, например, всевозможные документы, имеют сложную структуру. Документ как единое целое (контракт, письмо электронной почты, медицинский отчет и т. д.), может содержать текст, чертежи, рисунки, а современные электронные документы - еще и видео-, аудиофрагменты... Текст в документе обычно представлен в свободной форме, для него нет ключей, индексов, столбцов или атрибутов, в отличие от текстовых полей в записях структурированных данных.

Управление неструктурированной информацией приобретает все большее значение по трем причинам. Во-первых, со временем такая информация становится все более структурированной. XML и прочие средства теговой разметки упрощают процесс поиска, классификации, сортировки и создания отчетов для информации, хранящейся в файлах, а не в структурированных базах данных. Во-вторых, проблемы накопления информационной информации сегодня становятся все менее острыми благодаря не прекращающейся уже более десяти лет работе по отладке операционных систем и открытых стандартов в области извлечения и хранения данных. В-третьих, системы работы с неструктурированной информацией оснащаются все новыми функциями, облегчающими использование этой информация для бизнес-целей. Параллельно с этим растет доля информации, которую организации создают и хранят в электронной форме.

Наиболее очевидную информацию организации хранят именно в неструктурированной форме. В ходе нашего исследования было определено, что согласно статистики лишь около 10-20% корпоративной информации хранится в структурированной форме, обеспечивающей возможность легкого доступа. Развитие систем, работающих с неструктурированной информацией, продвигалось медленно потому, что обычно они предоставляли доступ лишь к малой доле океана неструктурированных данных. Более того, основной задачей этих ИТ-систем была автоматизация канцелярской работы. Это может иметь стратегическое значение лишь для небольшого числа областей, таких, как страхование и правительство. Однако в связи с тем, что корпоративная информация становится все более доступной (поскольку она создается и поддерживается в электронном формате, а также благодаря теговым, файловым системам и т. д.), средства работы с неструктурированной информацией приобретают все большее значение для выполнения ключевых бизнес-операций. Компании используют такие средства для взаимодействия с клиентами, упрощения реализации транзакций, усовершенствования функций управления производительностью и т. п.

Управление неструктурированной информации состоит из нескольких шагов. Во-первых, нужно преобразовать неструктурированную информацию в структурированную. А во-вторых, новые полученные данные нужно хранить. Любые данные в электронном виде относятся к важнейшим активам современной компании, а правильное их хранение - одно из условий успешного развития предприятия.

Есть различные методы преобразования неструктурированной информации в структурированную. В ходе исследования, мы рассмотрели метод Байеса.

Теорема Байеса имеет дело с расчетом вероятности верности гипотезы в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Другими словами, по формуле Байеса мы сможем более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений. Используется такая формула:

Где, D — это данные, то, что мы знаем, а θ — это параметры модели, которые мы хотим обучить.

Каждая из вероятностей тоже имеет свой смысл. — это то, что мы хотим найти, распределение вероятностей параметров модели после того, как мы приняли во внимание данные; это называется апостериорной вероятностью (posteriorprobability). Эту вероятность, как правило, напрямую не найти, и здесь как раз и нужна теорема Байеса. – это так называемое правдоподобие (likelihood), вероятность данных при условии зафиксированных параметров модели; это как раз найти обычно легко, собственно, конструкция модели обычно в том и состоит, чтобы задать функцию правдоподобия. А — априорная вероятность (priorprobability), она является математической формализацией нашей интуиции о предмете, формализацией того, что мы знали раньше, ещё до всяких экспериментов.

Новые полученные данные в виде XML структурированной информации мы помещаем в нативное XML хранилище. Это позволяет упростить поиск и использования при принятии управленческих решений неструктурированных данных.

Бакаленко Дмитро Андрійович

Студент 4 курсу

ОНУ імені І. І. Мечникова

Спеціальність «Економічна кібернетика»