
- •Сучасні технології в економіці і кібернетиці: досвід, проблеми, тенденції ефективність
- •Модель интеграции информационных систем предприятия на базе технологии управления бизнес процесами
- •Соціально-економічні процеси країн як об’єкт прогнозування
- •Економічна сутність інвестицій
- •Оптимізація інформаційних потоків на підприємстві
- •Список літератури
- •Трудности и проблемы при внедрении crm
- •Построение, моделирование и анализ бизнес-процессов предприятия с применением нечетких моделей.
- •Комплексная оценка деятельности банка на базе бизнес - архитектуры предприятия как современной системы автоматизации.
- •Страховий ринок України: проблеми та перспективи розвитку
- •Эффективность процесса принятия решений на базе визуального представления в arismashzone
- •Информационные технологии украины и их место на мировом рынке
- •Особливості кредитування малого бізнесу в сша
- •Инновации для высокоскоростного хранения и обработки данных предприятия
- •Особливості функціонування банківської системи україни у поскризовий період
- •Список літератури
- •Определение основных признаков неэффективного управления на предприятиях гостиничного комплекса.
- •Стратегии обеспечения экономической безопасности промышленных регионов Украины на современном этапе
- •Статистический анализ случайного процесса: понятие стабильности
- •Оптимизация кредитного портфеля банка при условии риска платежеспособности занимателя
- •Роль рисков в банковской деятельности.
- •Тема тезиса: «Эконометрическое моделирование»
- •Використанняінформаційних систем та технологій для вдосконаленняфінансово-економічної та виробничоїдіяльностіпідприємств.
- •Управление неструктурированными данными
- •Вдосконалення роботи транспортно-експедиторської компанії на основі принципів логистики
- •Репозиторий артефактов как основной инструмент в управлении корпоративной архитектурой
- •Концепции стимулирования сбыта
- •Оптимизация управления запасами на предприятии
- •Список литературы:
- •Инновационные решения в области управления бизнес-процессами, платежная система Ripple.
- •Принятие управленческих решений
- •Многокритериальные оценки однородных показателей
Управление неструктурированными данными
Эффективная работа с неструктурированными данными в информационных системах - одна из основных проблем для информационных технологий, так как объем этих данных стремительно нарастает. Сегодня их доля в ряде организаций составляет 80-90% всех хранимых данных, а требования к хранению и обработке ужесточаются. Например, национальные и международные регуляторы обязывают представлять отчетность в соответствии с Актом Сарбонейса-Оксли (SOX), Актом Грэма-Лича-Блилей (GLBA), Директивой ЕС о защите данных, соглашением Basel II по банковскому надзору и т. д., и при этом обеспечивать хранение отчетности и связанной с ней информации, а это в основном данные в неструктурированном формате. Поэтому в организации, имеющей дело с неструктурированными данными, проблема хранения и доступа к ним выходит на первый план.
В современных компаниях привыкли использовать структурированные данные, которые имеют такие значенияэлементов, как поля, столбцы, таблицы, строки и индексы. На их основе определяются совокупности записей - файлы, таблицы реляционных баз данных и т. д. Основным типом структурированных данных являются алфавитно-цифровые. Данные, не попадающие под определение "структурированные", получили название "неструктурированные". Неудачный термин, поскольку чаще всего эти данные, например, всевозможные документы, имеют сложную структуру. Документ как единое целое (контракт, письмо электронной почты, медицинский отчет и т. д.), может содержать текст, чертежи, рисунки, а современные электронные документы - еще и видео-, аудиофрагменты... Текст в документе обычно представлен в свободной форме, для него нет ключей, индексов, столбцов или атрибутов, в отличие от текстовых полей в записях структурированных данных.
Управление неструктурированной информацией приобретает все большее значение по трем причинам. Во-первых, со временем такая информация становится все более структурированной. XML и прочие средства теговой разметки упрощают процесс поиска, классификации, сортировки и создания отчетов для информации, хранящейся в файлах, а не в структурированных базах данных. Во-вторых, проблемы накопления информационной информации сегодня становятся все менее острыми благодаря не прекращающейся уже более десяти лет работе по отладке операционных систем и открытых стандартов в области извлечения и хранения данных. В-третьих, системы работы с неструктурированной информацией оснащаются все новыми функциями, облегчающими использование этой информация для бизнес-целей. Параллельно с этим растет доля информации, которую организации создают и хранят в электронной форме.
Наиболее очевидную информацию организации хранят именно в неструктурированной форме. В ходе нашего исследования было определено, что согласно статистики лишь около 10-20% корпоративной информации хранится в структурированной форме, обеспечивающей возможность легкого доступа. Развитие систем, работающих с неструктурированной информацией, продвигалось медленно потому, что обычно они предоставляли доступ лишь к малой доле океана неструктурированных данных. Более того, основной задачей этих ИТ-систем была автоматизация канцелярской работы. Это может иметь стратегическое значение лишь для небольшого числа областей, таких, как страхование и правительство. Однако в связи с тем, что корпоративная информация становится все более доступной (поскольку она создается и поддерживается в электронном формате, а также благодаря теговым, файловым системам и т. д.), средства работы с неструктурированной информацией приобретают все большее значение для выполнения ключевых бизнес-операций. Компании используют такие средства для взаимодействия с клиентами, упрощения реализации транзакций, усовершенствования функций управления производительностью и т. п.
Управление неструктурированной информации состоит из нескольких шагов. Во-первых, нужно преобразовать неструктурированную информацию в структурированную. А во-вторых, новые полученные данные нужно хранить. Любые данные в электронном виде относятся к важнейшим активам современной компании, а правильное их хранение - одно из условий успешного развития предприятия.
Есть различные методы преобразования неструктурированной информации в структурированную. В ходе исследования, мы рассмотрели метод Байеса.
Теорема Байеса имеет дело с расчетом вероятности верности гипотезы в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Другими словами, по формуле Байеса мы сможем более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений. Используется такая формула:
Где, D — это данные, то, что мы знаем, а θ — это параметры модели, которые мы хотим обучить.
Каждая
из вероятностей тоже имеет свой смысл.
— это то, что мы хотим найти, распределение
вероятностей параметров модели после
того, как мы приняли во внимание данные;
это называется апостериорной вероятностью
(posteriorprobability). Эту вероятность, как
правило, напрямую не найти, и здесь как
раз и нужна теорема Байеса.
– это так называемое правдоподобие
(likelihood), вероятность данных при условии
зафиксированных параметров модели; это
как раз найти обычно легко, собственно,
конструкция модели обычно в том и
состоит, чтобы задать функцию правдоподобия.
А
— априорная вероятность (priorprobability), она
является математической формализацией
нашей интуиции о предмете, формализацией
того, что мы знали раньше, ещё до всяких
экспериментов.
Новые полученные данные в виде XML структурированной информации мы помещаем в нативное XML хранилище. Это позволяет упростить поиск и использования при принятии управленческих решений неструктурированных данных.
Бакаленко Дмитро Андрійович
Студент 4 курсу
ОНУ імені І. І. Мечникова
Спеціальність «Економічна кібернетика»