Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс 2.doc
Скачиваний:
1
Добавлен:
07.12.2018
Размер:
768.51 Кб
Скачать

Розділ 2 Моделювання інформаційних потоків Моделювання динаміки інформаційних потоків

Вивчення динаміки, побудова моделей інформаційних потоків є, безперечно, важливим і цікавим, особливо враховуючи те, що це пи-тання зали-шається майже не дослідженим .

Протягом останніх десятиліть були досягнуті певні успіхи у вирішенні проблеми старіння інформації в рамках моделі Бартона- Кеблера, яка вини-кла у свій час з необхідності оцінки реальних термінів використання наукових робіт. Згодом виявилося, що отримані результати (а також підходи, які лежали в їх ос-нові) можуть бути корисними в більш широкому контексті проблем інфор-маційних технологій. Однак розуміння процесів динаміки інформаційних потто-ків вимагає більш глибокого аналізу і більше досконалої техніки.

У даній роботі, зокрема, пропонується розгляд динаміки тематичних по-токів новинної інформації в рамках логістичної моделі .Поряд з цим, виявлена обмеженість розглянутої моделі, що відкриває шлях для поодаль-ших досліджень.

Весь Інтернет-простір можна з достатньою часткою умовності розділити на дві складові - стабільну і динамічну, які мають дуже різні характеристики з точки зору інтеграції інформаційних потоків. Стабільна складова Інтернет міс-тить інформацію довгострокового характеру, в той час як динамічна - постійно оновлювані ресурси. Деяка частина цієї складової з часом вливається в стабіль-ну.

Однак більша частина зникає з Інтернет або потрапляє в сегмент "прихо-ваного" Web-простору, не доступного користувачам за допомогою публічних ін-формаційно- пошукових систем.

Найбільш вираженим у плані динаміки є, безперечно, сегмент новинної інформації. З одного боку, він має найвищий рівень обновлення, а з іншого - в ньому генеруються і поширюються на насправді великі обсяги даних. Тому саме він виглядає найбільш підходящим для досліджень. Зокрема, процеси старіння інформації, втрати її актуальності у відомій моделі Бартона-Кеблера описуються рівнянням, яке складається з двох компонент:

де m (t) - частка корисної інформації в загальному потоці через час T, перше віднімається відповідає стабільним ресурсів, а друге - динамічним - новинним.

Облік старіння інформації (втрати частини актуальності) має велике значення при аналітичних дослідженнях, створення інформаційних продуктів типу інфор-маційних портретів, основних сюжетів подій, ранжуванні результатів роботи ін-формаційно- пошукових систем. Навіть приблизна оцінка швидкості старіння інформації та окремих документів має величезну практичну -цінність, так як до-помагає тримати в полі зору тільки найбільш актуальну інформацію.

З філософської точки зору поняття старіння документів можна розгляда-ти як закономірний постійний процес зменшення з часом їх використання для от-римання необхідної користувачам інформації, яка міститься в них. Процес ста-ріння інформації можна розглядати як втрату інформацією практичної корисно-сті для споживача. Старіння інформації виявляється в тому, що постійно вини-кають нові документи, нові джерела, які містять більше повну, точну, достовірну інформацію. Тому з метою економії часу і ресурсів виправдано першочергове звернення саме до цих документів і джерел. При цьому складність використання закономі-рностей старіння інформаційних повідомлень складається з різниці характерис-тик зменшення їх використання в часі в різних предметних областях і для різних часових періодів. Ступінь старіння інформації неоднакова для доку-ментів різних видів і тематик.

На швидкість старіння впливають різною мірою дуже багато факторів. Особливості старіння інформації органічно пов'язані з тенденціями розвитку ко-жного тематичного спрямування. Для того щоб кількісно оцінити швидкість ста-ріння інформації, Р. Бартон і Р. Кеблер за аналогією з періодом напіврозпаду ра-діоактивних речовин також ввели поняття «напівперіод життя» наукових статей.

Напівперіод життя в їхньому розумінні - це час, протягом якого булла опублікована половина всіх використовуваних в даний час документів щодо обраної події або явища. Бартон і Кеблер визначили періоди напіврозпаду пуб-лікацій з фізики (4,6 року), математики (10,5), геології (11,8) .

Інформаційна динаміка в мережі обумовлена багатьма чинниками, більшість яких взагалі не піддаються точному аналізу. Проте в рамках задачі моделювання як розумне допущення можна припустити, що загальний характер тимчасової залежності числа тематичних публікацій у Мережі визначається досить простими закономірностями, які цілком допускають побудову матема-тичних моделей.

У відомих роботах, присвячених вивченню старіння інформації, викорис-товується модель Мальтуса (можливо, з деякими модифікаціями, наприклад, у виг-ляді суперпозиції двох кривих з різними параметрами в рамках наведеної вище моделі Бартона-Кеблера). Перевага цієї моделі в тому, що рівняння Маль-туса має точне рішення у вигляді дуже простої і зручної функції - експоненти, але з точки зору інтерпретації в ре-зультаті вона виглядає досить сумнівною.

Головною проблемою є те, що експонентою є монотонно зростаюча функція, а, отже, принципово не може описувати процеси, які за своєю природою мають мати локальні екстремуми. Те, що новини з часом втрачають актуальність, і відповідно кількість публікацій зменшується, не потребує доказів.

Тому для отримання більш адекватної залежності слід звернутися до більш складних модель.

Однією з найперспективніших виглядає логістична модель, яка була зап-ропонована П. Ферхлюстом [83] для опису динаміки населення і Р. Перлин [77] для біологічних співтовариств, а з часом добре зарекомендувала себе в ряді нап-рямків наукових досліджень. Перевагою цієї моделі є, в першу чергу, те, що вона об'єднує відносну простоту формулювання задачі з можливістю варіювати роз’я-зок за допомогою набору параметрів, які можуть мати більш-менш прозорий фі-зичний зміст.

Аналіз інформаційних потоків, їх моделювання сьогодні стає одним з най-більш інформативних методів кількісного вивчення динаміки окремих тематич-них напрямів. По зміні величин інформаційних потоків судять про швидкість ро-звитку, як окремих тематичних напрямів, так і всього інформаційногощпростору. Стійкі статистичні зв'язки між окремими повідомленнями дозволяють говорити про кореляції окремих тематик, про ефективність посилань на публікації попере-дників, більш ранні роботи, цитування, републікації і т.п.

Механізми, які базуються на узагальнених методах кластерного аналізу, дозволяють виявляти повідомлення в інформаційних потоках, які формують нав-колоосебеоновіетематичніенапрямки.

Кластерний аналіз, теорія фракталів та автомодельних процесів при їх коректному застосуванні дозволяють кількісно оцінювати ступінь зв'язку в тема-тичних інформаційних потоках. З класичної просторово-векторної моделі інформаційного простору прийнято використовувати модель TF * IDF, де TF - це локальна частота терма (Term Frequency), а IDF - величина, обернена частоті появи повідомлень у всьому інформаційному потоці, які містять цей терм (Inverse Do-cument Frequency). У той час, як локальна частота терма в документі говорить про значущість терма в межах документа, то зворотня частота появи свідчить про унікальність терма у всьому потоці документів. Тому твір цих величин – до-сить вдалий критерій визначення значущості терма -ваги.Передбачається ,що новинні повідомлення старіють, втрачаючи свою актуальність з інтенсивністю, яка визначається деяким емпіричним законом.

Для ілюстрації припустимо, що це експонентний закон (надалі буде показана коректність такого припущення для великої кількості прикладів). Один із запропонованих підходів до такої частини узагальнення, як ранжування пові-домлень, полягає у використанні параметричних множників, які залежать від ча-су. Можна визначити вагу повідомлення як добуток елементів типу

де a - деяка константа, t - інтервал часу, який минув з моменту появи повідом-лення в інформаційному потоці. Значення a може трактуватися як коефіцієнт на-піврозпаду актуальності повідомлення (експертно визначається інтервал часу, протягом якого повідомлення внаслідок старіння втрачає свою актуальність на-половину).

Наприклад, якщо припустити, що через добу документ втрачає полови-ну своєї актуальності, то маємо: і, відповідно, a = 0,025.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]