Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
grigorash_svitlana_metodichka_30_06_11.doc
Скачиваний:
31
Добавлен:
14.11.2019
Размер:
760.32 Кб
Скачать

Лекція 8 про структурування інформації в інформаційно-аналітичних системах

8.1 Загальні теоретичні передумови інформаційно-аналітичної роботи

8.2 Структурування інформації в інформаційно-аналітичних системах

8.3 Аналітичні системи

8.1 Загальні теоретичні передумови інформаційно-аналітичної роботи

Сучасний рівень використання інформаційно-аналітичних систем (ІАС) в умовах глобального впливу інформаційних технологій на всі ас­пекти людської діяльності вимагає принципово нових підходів щодо обробки інформації для розв'язання задач и аналізу. Зростання обсягів інформаційного ресурсу, який накопичується в ІАС, фактично обігнало розвиток сучасного ма­тематичного апарата та інструментальних засобів для його обробки.

Серед проблем, які виникли у зв'язку із зростанням обсягів інформаційних ресурсів ІАС, мож­на виділити такі:

  • слабка структурованість інформації;

  • зниження інформаційної живучості ІАС ;

  • зростання інформаційного шуму;

  • засилля паразитної інформації, спаму;

  • багаторазове дублювання інформації.

Розглянемо більш докладно першу проблему. В інформаційну систему надходять різні інформа­ційні потоки, частина з них структуровані, інші або слабо структуровані, або не структуровані. Причому обсяг неструктурованої та слабоструктурованої інформації значно перевищує обсяг структурованої. На даний момент структурування вхідних даних в ІАС здійснюється практично за допомогою ручного введення та коректування інформації оператором (диспетчером). Так, в Уря­довій інформаційно-аналітичній системі з питань надзвичайних ситуацій заповнення регламентова­них карток щодо надзвичайних ситуацій викону­ється виключно в ручному режимі оператором.

У разі постійного збільшення обсягів вхідни даних в ІАС усе менш ефективним стає и структурування за участю людини. Особливо вирішення; проблеми структурованості інформації автоматизованими методами є актуальним у разі постановки задач оперативного аналізу в ІАС. Оперативний аналіз припускає високий ступінь попередньо обробки та структурованості інформації, достатню для переміщення в таблиці баз даних для ресурсомістськоі обробки. Причому обмеження на автоматизацію накладають не обчислювальні потужності ІАС, а низький рівень дослідженню проблеми структурування вхідної інформації та відсутність розроблених 1 впроваджених методи 1 засобів 11 реалізації в ІАС.

На сьогоднішній день найбільшого успіху у ви рішенні задачі структурування інформації досягнуто при створенні пошукових систем глобальної комп'ютерної мережі при структуруванні текстового корпуса. Потрібно перенести та адаптувати технології структурування для ІАС.

До вхідних даних в ІАС, які, як правило, не структуровані. Висуваються вимоги відповідності основним критеріям (ступінь структурованості. час життя, цінність, вірогідність), у протилежному випадку дані відкидаються як некоректні.

8.2 Структурування інформації в інформаційно-аналітичних системах

Структурування вхідної інформації в ІАС потрібне на різних рівнях подання даних за аналогією з інформаційною моделлю даних - на фізичному, логічному й семантичному. Тому для зручності виділимо в структуруванні інформації такі складові: фізичне, логічне й семантичне структурування.

Під фізичним структуруванням будемо ро­зуміти перетворення інформації на рівні форматів даних (зведення різних форматів вхідних даних до виду, зручного для обробки в ІАС); під логічним - розміщення даних в інформаційному сховищі ІАС 1 знаходження їхнього місця в загальній ієрархи даних (структуризація інформаційного ресурсу ІАС); під семантичним - кластеризацію даних із урахуванням значеннєвого змісту інформації.

Таким чином, для ІАС структурованою будемо називати інформацію, яка без додаткової корекції переміщується до баз даних (БД) ІАС і перебуває в зручному та доступному для аналізу вигляді.

Для визначення задачі структурування виділи­мо ряд ознак, які характеризують структуровану інформацію:

  • однаковий або легкозамінний формат даних (таблиця, вибірка, текст);

  • наявність додаткових даних для створення структури даних (індекси, заголовки полів БД);

  • упорядкованість за якими-небудь критеріями (нумерація, упорядкованість за часом);

  • наявність загальної ознаки в структурі всіх елементів.

Узагальнивши всі ознаки, будемо вважати осо­бливістю структурованої інформації можливість обробки й переміщення в БД даних, що надходять в ІАС у різних форматах.

Число форматів даних постійно зростає, і ІАС повинна вміти працювати з найрізноманітнішими типами даних. Але всередині самої ІАС підтримка безлічі форматів накладає додаткові обмеження на обчислювальні потужності й програмні інтерфей­си. Тому система повинна перетворювати вхідні дані у форматії, які підтримуються БД ІАС.

Створення додаткових даних, або метаданих - один 13 відомих напрямків структурування інформації. Сам поділ на дані та метадані можна застосовувати лише в конкретному випадку. На­приклад, картки в каталозі бібліотеки є метаданими для даних, що зберігаються в книгах, а для карток метаданими можуть бути коди на ящичках каталогу; для написів на ящичках - написи на шафах і т.д. Фізично й структурно метадані можуть як входити до складу самих БД, так і розташову­ватися окремо, так до утворення власних БД.

Упорядкованість даних припускає наявність метаданих, відповідальних за нумерацію або якісь часові показники, наприклад, час створення або зміни документа. Більшість сучасних файлових систем у разі створення нового файлу автоматично привласнюють йому параметри - час створення та останнього змінювання. Крім того, кожний файл характеризується місцем розміщення.

З останньою ознакою тісно пов'язані дві задачі структурування: класифікація та кластеризація, які вимагають більш детального розгляду.

Можна запропонувати більш актуальне визна­чення структурування. Для ІАС структурування - це процес обробки, що зводить вхідну інформацію до вигляду, що адаптований для розміщення в БД і подальшого використання. Обробка інформації - досить широке поняття, що вимагає конкретизації. Отже, процес структурування інформації в ІАС - це:

  • перетворення даних до стандартних форма­тів даних або таких, що використовуються сис­темою;

  • вибір категорії, класу в ієрархії даних системи;

  • створення метаданих.

Перетворення форматів даних є досить вивче­ною, хоч і актуальною задачею. Вибір місця в іє­рархії даних системи - це віднесення даних до тієї або іншої групи. Будь-які вхідні дані можна кла­сифікувати - зобразити у вигляді деяких класів ієрархії, які утворюють дерево або частину дерева. Дерева можуть бути побудовані, спираючись на вхідні дані.

Тип вхідних даних:

1. Дані Іnternet:

  • картки,заповнені операторами;

  • готові архіви й бази даних, перенесені із зо­внішніх джерел;

  • документи.

2. Тематичний розділ.

3. Алфавітний покажчик.

Поєднання тематичного й алфавітного подання зазвичай застосовується в бібліотечних каталогах. Аналогом типів даних для бібліотек виступають такі види видання друкованої продукції: журнал, газета, книга, підшивка, зібрання творів і т.д.

Дані відносять до того або іншого тематичного розділу на підставі таких факторів:

Ключові слова – приналежність за ключовими словами є найбільш адекватною з усіх, що запро­поновані, і справляє найбільший вплив на прина­лежність до рубрики. Украй бажано накласти обмеження на кількість ключових слів, які входять у розрахунок, вибираючи з усіх варіантів ті, що мають найбільшу вагу;

Автор – із усіх авторів, що брали участь у створенні матеріалів, вибирається автор з максималь­ною вагою;

Джерело – сайт, база даних, електронне сховище тощо, джерело, звідки взята інформація. Кожному зареєстрованому джерелу відповідає свій ваговий коефіцієнт, який задається експертом та може змінюватися. Незареєстрованне джерело одержує якусь середню вагу, яка характерна для джерел певного типу;

Посилання на інші джерела інформації – досить часто, крім джерела інформації, дані містять посилання на різні інформаційні ресурси: список літератури, перехресні посилання на сайтах; із усіх посилань вибирається посилання з максимальною вагою.

Належність до якогось тематичного розділу в ІАС може визначатися людиною-експертом і ав­томатично. Для ІАС із процесом автоматичного структурування даних рубрика вибирається за допомогою вагових критеріїв. Ваговий критерій рубрики - це показник, за яким визначається, до якої рубрики віднести дані. Значення вагового кри­терію даних може бути визначене в такий спосіб:

де Р - вага даних, що визначає приналежність до конкретної рубрики;

S - вага джерела інформації;

Кi - вага ключового слова, яке знайдене в до­кументі;

mах (Ak)- вага "визнаного" автора;

Wz - вага посилання на інше джерело інфор­мації;

р = 2, З,...

Коефіцієнти а, р, ф залежать від тематики та типу інформаційного ресурсу. Всі чисельні значен­ня ваг визначаються експертом під час побудови ІАС, потім допрацьовуються при налаштуванні за рахунок аналізу результатів автоматичної рубри­кації. Діапазон значень кожної ваги визначається для конкретного типу ІАС. Наприклад, для рубри­кації змішаного веб-контенту найбільш значущим буде внесок ключових слів, а для аналізу докумен­тів Кабінету Міністрів порівняльний внесок ваги автора документа значно зростає.

В ідеалі, варіюючи коефіцієнти а, р, ф можна настроїти структурування інформації під конкрет­не прикладне завдання, міняючи значення параме­тра р, можна виявити неточності побудови моделі у випадку виникнення різких розбіжностей під час порівняння результатів структурування для різних р.

У разі структурування інформації в ІАС неминучим є створення надлишкових метаданих. Це обумовлюється зручністю обробки не самої ін­формації, а її метаданих. Узагальнюючи, можна сказати, що достатньо вирішити складне завдання - створити набір метаданих - і згодом ці метадані можуть бути багаторазово використані для різних задач. Особливо даний підхід виправданий при вирішенні завдання з ведення аналітичної діяль­ності. Необхідно підкреслити, що без здійснення аналізу семантичного значення даних неможливо повноцінно створити метадані.

Виділимо такі види основних метаданих: назва;анотація; рубрика; формат даних; дата створення;дати змін; час життя; час життя в архіві; ключові слова. '

Крім цього, виділимо для ІАС допоміжні метадані, використання яких підвищує ступінь структурованості інформації: список авторів; ак­туальність; ступінь таємності; значимість; досто­вірність; посилання на інші документи; посилання на "ресурси поза ІАС; посилання на дублюючу ін­формацію; місце в загальній ієрархії даних.

Обґрунтуємо використання деяких із запропо­нованих метаданих за винятком найбільш очевид­них:

Список авторів - документ, що може змінюва­тися деяке число разів різними людьми; напри­клад, послідовність записів на Інтернет-форумі спочатку передбачалася як колективна праця, тому необхідно було вказувати список авторів, щоб здійснювати можливість пошуку та переходу до всіх робіт зазначеного автора або навпаки зна­ходити авторів якихось документів. Надалі буде показане використання метаданих "автори" для вибору місця в загальній ієрархії даних.

Актуальність є складним поняттям для мета­даних. Особливо, якщо якісний показник акту­альності обчислює автоматизована система, а не людина. Актуальність змінюється згодом і визна­чається цілим рядом факторів.

Оскільки актуальність для кожної конкретної групи даних змінюється за особливим законом, необхідно під час створення метаданих вносити не тільки чисельні показники актуальності, але й вказувати залежність зміни актуальності в май­бутньому. У найпростішому випадку актуальність є просто спадаючою функцією від часу, з графі­ком, що є близьким до гілки гіперболи. Наприклад, для систем новин в Інтернеті актуальність інформації характеризується числом переглядів. При цьому спостерігається досить високий показ­ник числа переглядів відразу після надходження нової інформації й потім його рівномірне спадання з прагненням до постійного (рівень залишкової ак­туальності). Будь-які зміни або відновлення спри­чинюють, як правило, зміну числа переглядів.

Для наочності розглянемо Інтернет-систему, сайт знайомств. Назвемо актуальністю інформації в такій системі число переглядів анкети корис­тувача за фіксований інтервал часу, наприклад годину. Актуальність залежить від: типу даних; джерела інформації; його достовірності; старіння інформації з часом; впливу інших даних.

Ступінь таємності – накладає обмеження на використання інформації.

Значимість – якісний показник, наприклад від 1 до 100 одиниць, що визначає ступінь важ­ливості документа. Так, Конституція України може мати значимість 100, а опис особливостей атмосферних коливань Сатурна - 10. У той же час, для систем якоїсь особливої тематики, мож­ливо, припустима й зворотна оцінка.

Достовірність – показує достовірність джерела інформації. Наприклад, закон, що прийнято Верховною Радою України та знаходиться на відповідному офіційному сайті, має більшу достовірність, ніж посилання на цей самий доку­мент, яке представлене на персональному блозі-щоденнику.

Посилання на інші документи, на ресурси поза ІАС, дублюючу інформацію. Цей тип метаданих є необхідним для створення повноцінної структури даних. Через поняття зв'язаності да­них між собою визначається ступінь структурованості інформації.

З огляду на наведене вище, можна зробити такі висновки й пропозиції, а також окреслити певні перспективи:

  1. зростання обсягів вхідних даних в ІАС підвищує актуальність завдання їхнього структурування.

  2. з метою зручності дослідження завдання структурування інформації в ІАС запропоноване виділення таких складових структурування: фі­зичне, логічне, семантичне.

  3. з огляду на проведений аналіз складових структурування інформації в ІАС, завдання структурування інформації в ІАС зображується як комплекс підзадач:

  • перетворення даних до стандартних або та­ких, що використовуються системою форматів даних;

  • вибір категорії, класу в ієрархії даних;

  • створенняметаданих.

Запропоновано критерій віднесення даних до тематичного розділу на підставі вагових критеріїв.

Виділено основні й допоміжні типи метада­них для ІАС.

У разі створення виду метаданих "актуальність" запропоновано задавати не тільки поточ­не значення актуальності даних, але й функцію зміни їхньої актуальності надалі.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]