- •Лекція 1 Інформаційно – аналітична діяльність в структурі інформаційної діяльності
- •1.1 Інформаційна діяльність
- •1.2 Аналітична діяльність
- •Інформаційно-аналітична діяльность, її завдання у підготовці інформаційних аналітиків
- •Лекція 2 Наукова обробка документів. Аналітичні документи
- •2.1 Наукова обробка документів як складова інформаційної діяльності
- •2.2 Інформаційний продукт (продукція) як результат інформаційної діяльності
- •2.3 Основні види інформаційних документів: загальна характеристика
- •2.4 Загальна методика створення інформаційного документа
- •2.5 Види і різновиди вторинних документів. Часткова методика їх створення
- •Лекція 3 Науково – технічна сфера
- •3.1 Економічні і політичні аспекти розвитку
- •3.2 Науково-технічна діяльність у сша та інших країнах
- •3.3 Науково-технічна діяльність в інших країнах
- •3.4 Науково-технічна сфера в Україні
- •3.5 Загальні аспекти розвитку нті
- •Лекція 4 Наукова природа інформаційно – аналітичної діяльності. Методика інформаційно-аналітичних досліджень
- •4.1 Специфіка інформаційно - аналітичних досліджень
- •4.2 Вимоги і послідовність інформаційно-аналітичного дослідження
- •4.3 Загальнонаукові методи в процесах іад
- •Лекція 5 Інформаційно- аналітична діяльність у сфері управління
- •5.1 Управління. Етапи роботи з документами при управлінському рішенні
- •5.2 Інформаційна аналітика, як складова управління
- •5.3 Основні функції управління
- •5.4 Кроки для здійснення подачі інформації керівнику
- •Лекція 6 Інформаційно-аналітичне забезпечення регіонального управління
- •6.1 Регіональна інформатизація як проблема
- •6.2 Функції та технології діяльності інформаційно-аналітичних служб регіонального рівня
- •6.3 Основні принципи проектування та розвитку інформаційно-аналітичних служб регіонального рівня.
- •6.4 Бази і банки даних аналітичних служб.
- •Лекція 7 Актуальні проблеми інформаційно-аналітичного забезпечення органів державного управління. Аналітична та експертна діяльність консультативних фірм
- •7.1 Загальні теоретичні передумови прийняття рішення в управлінській діяльності
- •7.3 Світобачення та морально-аналітичні аспекти аналітичної роботи
- •Інформаційно-аналітичні служби
- •Лекція 8 про структурування інформації в інформаційно-аналітичних системах
- •8.1 Загальні теоретичні передумови інформаційно-аналітичної роботи
- •8.2 Структурування інформації в інформаційно-аналітичних системах
- •8.3 Аналітичні системи
- •Питання для самоперевірки
- •Список використаних джерел
Лекція 8 про структурування інформації в інформаційно-аналітичних системах
8.1 Загальні теоретичні передумови інформаційно-аналітичної роботи
8.2 Структурування інформації в інформаційно-аналітичних системах
8.3 Аналітичні системи
8.1 Загальні теоретичні передумови інформаційно-аналітичної роботи
Сучасний рівень використання інформаційно-аналітичних систем (ІАС) в умовах глобального впливу інформаційних технологій на всі аспекти людської діяльності вимагає принципово нових підходів щодо обробки інформації для розв'язання задач и аналізу. Зростання обсягів інформаційного ресурсу, який накопичується в ІАС, фактично обігнало розвиток сучасного математичного апарата та інструментальних засобів для його обробки.
Серед проблем, які виникли у зв'язку із зростанням обсягів інформаційних ресурсів ІАС, можна виділити такі:
слабка структурованість інформації;
зниження інформаційної живучості ІАС ;
зростання інформаційного шуму;
засилля паразитної інформації, спаму;
багаторазове дублювання інформації.
Розглянемо більш докладно першу проблему. В інформаційну систему надходять різні інформаційні потоки, частина з них структуровані, інші або слабо структуровані, або не структуровані. Причому обсяг неструктурованої та слабоструктурованої інформації значно перевищує обсяг структурованої. На даний момент структурування вхідних даних в ІАС здійснюється практично за допомогою ручного введення та коректування інформації оператором (диспетчером). Так, в Урядовій інформаційно-аналітичній системі з питань надзвичайних ситуацій заповнення регламентованих карток щодо надзвичайних ситуацій виконується виключно в ручному режимі оператором.
У разі постійного збільшення обсягів вхідни даних в ІАС усе менш ефективним стає и структурування за участю людини. Особливо вирішення; проблеми структурованості інформації автоматизованими методами є актуальним у разі постановки задач оперативного аналізу в ІАС. Оперативний аналіз припускає високий ступінь попередньо обробки та структурованості інформації, достатню для переміщення в таблиці баз даних для ресурсомістськоі обробки. Причому обмеження на автоматизацію накладають не обчислювальні потужності ІАС, а низький рівень дослідженню проблеми структурування вхідної інформації та відсутність розроблених 1 впроваджених методи 1 засобів 11 реалізації в ІАС.
На сьогоднішній день найбільшого успіху у ви рішенні задачі структурування інформації досягнуто при створенні пошукових систем глобальної комп'ютерної мережі при структуруванні текстового корпуса. Потрібно перенести та адаптувати технології структурування для ІАС.
До вхідних даних в ІАС, які, як правило, не структуровані. Висуваються вимоги відповідності основним критеріям (ступінь структурованості. час життя, цінність, вірогідність), у протилежному випадку дані відкидаються як некоректні.
8.2 Структурування інформації в інформаційно-аналітичних системах
Структурування вхідної інформації в ІАС потрібне на різних рівнях подання даних за аналогією з інформаційною моделлю даних - на фізичному, логічному й семантичному. Тому для зручності виділимо в структуруванні інформації такі складові: фізичне, логічне й семантичне структурування.
Під фізичним структуруванням будемо розуміти перетворення інформації на рівні форматів даних (зведення різних форматів вхідних даних до виду, зручного для обробки в ІАС); під логічним - розміщення даних в інформаційному сховищі ІАС 1 знаходження їхнього місця в загальній ієрархи даних (структуризація інформаційного ресурсу ІАС); під семантичним - кластеризацію даних із урахуванням значеннєвого змісту інформації.
Таким чином, для ІАС структурованою будемо називати інформацію, яка без додаткової корекції переміщується до баз даних (БД) ІАС і перебуває в зручному та доступному для аналізу вигляді.
Для визначення задачі структурування виділимо ряд ознак, які характеризують структуровану інформацію:
однаковий або легкозамінний формат даних (таблиця, вибірка, текст);
наявність додаткових даних для створення структури даних (індекси, заголовки полів БД);
упорядкованість за якими-небудь критеріями (нумерація, упорядкованість за часом);
наявність загальної ознаки в структурі всіх елементів.
Узагальнивши всі ознаки, будемо вважати особливістю структурованої інформації можливість обробки й переміщення в БД даних, що надходять в ІАС у різних форматах.
Число форматів даних постійно зростає, і ІАС повинна вміти працювати з найрізноманітнішими типами даних. Але всередині самої ІАС підтримка безлічі форматів накладає додаткові обмеження на обчислювальні потужності й програмні інтерфейси. Тому система повинна перетворювати вхідні дані у форматії, які підтримуються БД ІАС.
Створення додаткових даних, або метаданих - один 13 відомих напрямків структурування інформації. Сам поділ на дані та метадані можна застосовувати лише в конкретному випадку. Наприклад, картки в каталозі бібліотеки є метаданими для даних, що зберігаються в книгах, а для карток метаданими можуть бути коди на ящичках каталогу; для написів на ящичках - написи на шафах і т.д. Фізично й структурно метадані можуть як входити до складу самих БД, так і розташовуватися окремо, так до утворення власних БД.
Упорядкованість даних припускає наявність метаданих, відповідальних за нумерацію або якісь часові показники, наприклад, час створення або зміни документа. Більшість сучасних файлових систем у разі створення нового файлу автоматично привласнюють йому параметри - час створення та останнього змінювання. Крім того, кожний файл характеризується місцем розміщення.
З останньою ознакою тісно пов'язані дві задачі структурування: класифікація та кластеризація, які вимагають більш детального розгляду.
Можна запропонувати більш актуальне визначення структурування. Для ІАС структурування - це процес обробки, що зводить вхідну інформацію до вигляду, що адаптований для розміщення в БД і подальшого використання. Обробка інформації - досить широке поняття, що вимагає конкретизації. Отже, процес структурування інформації в ІАС - це:
перетворення даних до стандартних форматів даних або таких, що використовуються системою;
вибір категорії, класу в ієрархії даних системи;
створення метаданих.
Перетворення форматів даних є досить вивченою, хоч і актуальною задачею. Вибір місця в ієрархії даних системи - це віднесення даних до тієї або іншої групи. Будь-які вхідні дані можна класифікувати - зобразити у вигляді деяких класів ієрархії, які утворюють дерево або частину дерева. Дерева можуть бути побудовані, спираючись на вхідні дані.
Тип вхідних даних:
1. Дані Іnternet:
картки,заповнені операторами;
готові архіви й бази даних, перенесені із зовнішніх джерел;
документи.
2. Тематичний розділ.
3. Алфавітний покажчик.
Поєднання тематичного й алфавітного подання зазвичай застосовується в бібліотечних каталогах. Аналогом типів даних для бібліотек виступають такі види видання друкованої продукції: журнал, газета, книга, підшивка, зібрання творів і т.д.
Дані відносять до того або іншого тематичного розділу на підставі таких факторів:
Ключові слова – приналежність за ключовими словами є найбільш адекватною з усіх, що запропоновані, і справляє найбільший вплив на приналежність до рубрики. Украй бажано накласти обмеження на кількість ключових слів, які входять у розрахунок, вибираючи з усіх варіантів ті, що мають найбільшу вагу;
Автор – із усіх авторів, що брали участь у створенні матеріалів, вибирається автор з максимальною вагою;
Джерело – сайт, база даних, електронне сховище тощо, джерело, звідки взята інформація. Кожному зареєстрованому джерелу відповідає свій ваговий коефіцієнт, який задається експертом та може змінюватися. Незареєстрованне джерело одержує якусь середню вагу, яка характерна для джерел певного типу;
Посилання на інші джерела інформації – досить часто, крім джерела інформації, дані містять посилання на різні інформаційні ресурси: список літератури, перехресні посилання на сайтах; із усіх посилань вибирається посилання з максимальною вагою.
Належність до якогось тематичного розділу в ІАС може визначатися людиною-експертом і автоматично. Для ІАС із процесом автоматичного структурування даних рубрика вибирається за допомогою вагових критеріїв. Ваговий критерій рубрики - це показник, за яким визначається, до якої рубрики віднести дані. Значення вагового критерію даних може бути визначене в такий спосіб:
де Р - вага даних, що визначає приналежність до конкретної рубрики;
S - вага джерела інформації;
Кi - вага ключового слова, яке знайдене в документі;
mах (Ak)- вага "визнаного" автора;
Wz - вага посилання на інше джерело інформації;
р = 2, З,...
Коефіцієнти а, р, ф залежать від тематики та типу інформаційного ресурсу. Всі чисельні значення ваг визначаються експертом під час побудови ІАС, потім допрацьовуються при налаштуванні за рахунок аналізу результатів автоматичної рубрикації. Діапазон значень кожної ваги визначається для конкретного типу ІАС. Наприклад, для рубрикації змішаного веб-контенту найбільш значущим буде внесок ключових слів, а для аналізу документів Кабінету Міністрів порівняльний внесок ваги автора документа значно зростає.
В ідеалі, варіюючи коефіцієнти а, р, ф можна настроїти структурування інформації під конкретне прикладне завдання, міняючи значення параметра р, можна виявити неточності побудови моделі у випадку виникнення різких розбіжностей під час порівняння результатів структурування для різних р.
У разі структурування інформації в ІАС неминучим є створення надлишкових метаданих. Це обумовлюється зручністю обробки не самої інформації, а її метаданих. Узагальнюючи, можна сказати, що достатньо вирішити складне завдання - створити набір метаданих - і згодом ці метадані можуть бути багаторазово використані для різних задач. Особливо даний підхід виправданий при вирішенні завдання з ведення аналітичної діяльності. Необхідно підкреслити, що без здійснення аналізу семантичного значення даних неможливо повноцінно створити метадані.
Виділимо такі види основних метаданих: назва;анотація; рубрика; формат даних; дата створення;дати змін; час життя; час життя в архіві; ключові слова. '
Крім цього, виділимо для ІАС допоміжні метадані, використання яких підвищує ступінь структурованості інформації: список авторів; актуальність; ступінь таємності; значимість; достовірність; посилання на інші документи; посилання на "ресурси поза ІАС; посилання на дублюючу інформацію; місце в загальній ієрархії даних.
Обґрунтуємо використання деяких із запропонованих метаданих за винятком найбільш очевидних:
Список авторів - документ, що може змінюватися деяке число разів різними людьми; наприклад, послідовність записів на Інтернет-форумі спочатку передбачалася як колективна праця, тому необхідно було вказувати список авторів, щоб здійснювати можливість пошуку та переходу до всіх робіт зазначеного автора або навпаки знаходити авторів якихось документів. Надалі буде показане використання метаданих "автори" для вибору місця в загальній ієрархії даних.
Актуальність є складним поняттям для метаданих. Особливо, якщо якісний показник актуальності обчислює автоматизована система, а не людина. Актуальність змінюється згодом і визначається цілим рядом факторів.
Оскільки актуальність для кожної конкретної групи даних змінюється за особливим законом, необхідно під час створення метаданих вносити не тільки чисельні показники актуальності, але й вказувати залежність зміни актуальності в майбутньому. У найпростішому випадку актуальність є просто спадаючою функцією від часу, з графіком, що є близьким до гілки гіперболи. Наприклад, для систем новин в Інтернеті актуальність інформації характеризується числом переглядів. При цьому спостерігається досить високий показник числа переглядів відразу після надходження нової інформації й потім його рівномірне спадання з прагненням до постійного (рівень залишкової актуальності). Будь-які зміни або відновлення спричинюють, як правило, зміну числа переглядів.
Для наочності розглянемо Інтернет-систему, сайт знайомств. Назвемо актуальністю інформації в такій системі число переглядів анкети користувача за фіксований інтервал часу, наприклад годину. Актуальність залежить від: типу даних; джерела інформації; його достовірності; старіння інформації з часом; впливу інших даних.
Ступінь таємності – накладає обмеження на використання інформації.
Значимість – якісний показник, наприклад від 1 до 100 одиниць, що визначає ступінь важливості документа. Так, Конституція України може мати значимість 100, а опис особливостей атмосферних коливань Сатурна - 10. У той же час, для систем якоїсь особливої тематики, можливо, припустима й зворотна оцінка.
Достовірність – показує достовірність джерела інформації. Наприклад, закон, що прийнято Верховною Радою України та знаходиться на відповідному офіційному сайті, має більшу достовірність, ніж посилання на цей самий документ, яке представлене на персональному блозі-щоденнику.
Посилання на інші документи, на ресурси поза ІАС, дублюючу інформацію. Цей тип метаданих є необхідним для створення повноцінної структури даних. Через поняття зв'язаності даних між собою визначається ступінь структурованості інформації.
З огляду на наведене вище, можна зробити такі висновки й пропозиції, а також окреслити певні перспективи:
зростання обсягів вхідних даних в ІАС підвищує актуальність завдання їхнього структурування.
з метою зручності дослідження завдання структурування інформації в ІАС запропоноване виділення таких складових структурування: фізичне, логічне, семантичне.
з огляду на проведений аналіз складових структурування інформації в ІАС, завдання структурування інформації в ІАС зображується як комплекс підзадач:
перетворення даних до стандартних або таких, що використовуються системою форматів даних;
вибір категорії, класу в ієрархії даних;
створенняметаданих.
Запропоновано критерій віднесення даних до тематичного розділу на підставі вагових критеріїв.
Виділено основні й допоміжні типи метаданих для ІАС.
У разі створення виду метаданих "актуальність" запропоновано задавати не тільки поточне значення актуальності даних, але й функцію зміни їхньої актуальності надалі.
