Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція 4.doc
Скачиваний:
8
Добавлен:
11.11.2019
Размер:
257.54 Кб
Скачать

Документальні інформаційні системи. Призначення і основні поняття

Класичні моделі і методи в теорії БД спочатку орієнтувалися на організацію зберігання і обробки детально структурованих даних. Найчастіше цими даними були числові значення, що описують ті або інші характеристики інформаційних об'єктів. Проте на практиці виявилось, що частіше інформація представлена не у вигляді структурованих масивів даних, а у вигляді простих текстових документів. Внаслідок цього документальні БД (іноді їх ще називають повнотекстовими) відразу виділялися в особливий тип баз даних.

Історично склалося так, що за системами, орієнтованими на роботу з текстовими документами, укорінявся термін інформаційно-пошукові системи (ІПС). Хоча, якщо бути точніше, їх слід називати документальними ІПС (ДІПС), оскільки традиційні СУБД також є ІПС, тільки фактографічними (ФІПС). На відміну від традиційних БД, орієнтованих на повне і точне представлення даних досить простої смислової структури, документальні БД орієнтовані на часткове, наближене представлення даних, що мають значно складнішу смислову структуру, представлених на вході у формі тексту.

Основною функцією будь-якої ДІПС є інформаційне забезпечення споживачів на основі видачі відповідей на їх запити. Здійснення видачі системою необхідних даних реалізується з допомога головної операції ДІПС-проведення інформаційного пошуку. Інформаційний пошук є процедурою відшукання документів, що містять відповідь на поставлені споживачем питання.

Відмітимо, що на відміну від ФІПС, які у відповідь на запит споживача здійснюють видачу конкретних відомостей (фактів), ДІПС в результаті проведення інформаційного пошуку надають споживачеві сукупність документів, смисловий зміст яких відповідає його запиту.

Інформаційний пошук в системі проводиться на основі запиту, що поступив від споживача, на відшукання необхідної йому інформації. Потреба людини в певній інформації в процесі його практичної діяльності носить назву інформаційної потреби. Під дією отримуваної інформації інформаційна потреба людей постійно змінюється і трансформується. Внаслідок цього її неможливо однозначно виразити і описати. Проте інформаційна потреба може бути представлена у вигляді деякої послідовності її приватних значень у фіксовані моменти часу. Таке приватне значення інформаційної потреби споживача в певні моменти часу, виражене на природній мові (ПМ), і є інформаційним запитом, з яким користувач звертається до системи.

Проте запит може бути неправильно сформульований споживачем і не відображати його дійсної інформаційної потреби у момент звернення до системи. Таким чином, при проведенні інформаційного пошуку в системі фактично розглядається не інформаційна потреба користувача, а тільки інформаційний запит, у відповідь на який і видаються ті або інші документи системи. Отже, реакцію системи необхідно розглядати не тільки по відношенню до інформаційної потреби, але по відношенню до інформаційного запиту.

Автоматизація процесу інформаційного пошуку зажадала формалізації представлення основного смислового змісту інформаційного запиту і документів у вигляді відповідного пошукового розпорядження (ПР) і пошукових образів документів (ПОД). Для запису ПР і ПОД застосовуються спеціальні мови, звані інформаційно-пошуковими (або просто інформаційними).

В процесі проведення інформаційного пошуку в ДІПС визначається ступінь відповідності змісту документів і запиту користувача шляхом зіставлення ПОД з ПР. А на основі такого зіставлення ухвалюється рішення про видачу документа (він визнається релевантним) або його невидачі (він вважається нерелевантним).

Рішення про видачу або невидачу документа у відповідь на запит ухвалюється на основі деякого набору правил, по якому даною ДІПС визначається ступінь смислової близькості між ПОД і ПР. Такий набір правил отримав назву критерію смислової відповідності (КСВ). Критерій може задаватися явно або неявно. Насправді КСВ базується не на раніше введеному понятті релевантности, а на понятті формальної релевантности - відповідності змісту ПОД і ПР.

Фактична релевантность, що розуміється як смислова відповідність змісту документа інформаційному запиту, може бути встановлена тільки людиною в процесі осмислення змісту документа і запиту.

Загальна функціональна структура документальних інформаційно-пошукових систем

До складу типової ДІПС входять, як правило, чотири основні підсистеми (рис. 1):

  1. Підсистема введення і реєстрації.

  2. Підсистема обробки.

  3. Підсистема зберігання.

  4. Підсистема пошуку.

Рис.1. Загальна функціональна структура ДІПС

Текстові документи, що поступають на вхід системи, можуть бути представлені як в паперовому, так і в електронному вигляді (у одному з численних форматів). Тому підсистема введення і реєстрації вирішує наступні основні завдання:

  1. створення електронних копій паперових документів (наприклад, сканування з подальшим розпізнаванням тексту або введення з клавіатури);

  2. забезпечення підключення до каналів доставки електронних документів;

  3. розпізнавання, а при необхідності і перетворення формату електронних документів;

  4. привласнення електронним документам унікальних ідентифікаторів (реєстрація), а також ведення таблиці синхронізації імен (при необхідності збереження колишніх імен).

Всі документи, що поступають, без внесення в них яких-небудь змін прямують в підсистему зберігання для збереження в базі документів. База документів може бути простою сукупністю файлів, розподіленою по каталогах жорсткого диска. Проте такий тип представлення бази документів характеризується двома недоліками:

  1. неефективним використанням дискового простору;

  2. низькою швидкістю доступу при великій кількості файлів.

Тому для зберігання документів застосовують засоби стиснення і швидкого пошуку інформації. В цьому випадку підсистема зберігання є сукупністю стандартних або спеціалізованих засобів архівації, СУБД і тому подібне, що забезпечують можливість доступу до даним по ідентифікатору, що пред'являється.

Далі документи поступають на вхід підсистеми обробки, завданням якої є формування для кожного документа ПОД, в який заноситься інформація, необхідна для подальшого пошуку документа. ПОД зберігаються в індексі. Логічно індекс є таблицею, рядки якої відповідають документам, а стовпці - інформаційним ознакам, на основі яких будується ПОД.

У комірках таблиці можуть зберігатися або 1, або 0 – в залежності від наявності або відсутності даної ознаки в даному документі. Очевидно, що така таблиця буде сильно розрідженою, і зберігати всі значення не має сенсу. Тому на практиці використовують згортку таблиці по рядках або стовпцях. Таку форму зберігання називають прямою або інверсною відповідно. Оскільки при згортку таблиці структура індексу ускладнюється, для його підтримки можуть використовуватися засоби СУБД.

Під час вступу на вхід системи запиту користувача він перетвориться в ПР і передається в підсистему пошуку, завданням якої є відшукання в індексі ПОД, задовольняючих ПР з погляду КСВ. Ідентифікатори релевантних документів подаються з виходу підсистеми пошуку на вхід підсистеми зберігання, яка здійснює видачу користувачеві самих релевантних документів.

Контрольні питання:

  1. Визначення інформаційної системи

  2. Функції завдань ІС

  3. Структура інформаційної системи

Література

  1. Ситник в.Ф. Основі інформацийних систем: Навчальній посібник. – Київ: КНЕУ, 2001 – 420 с.

  2. Береза а.М. Основі створювання інформаційних систем: Навчальній посібник. – Київ: КНЕУ, 2001 – 214 с.

  3. Ситник в.Ф. Основі інформацийних систем: Навчальній посібник. – 1997. – 252 с.

  4. Вендров А.М. Проектирование программного обеспечения экономических информационных систем М: «Финансы и статистика», 2000

  5. Проектирование информационных систем М: «КомпьютерПресс», №9, 2001

  6. Колтунова Е. Требования к информационной системе и модели жизненного цикла

  7. Автоматизированные Системы Стадии создания. ГОСТ 34.601-90. Комплекс стандартов на автоматизированные системы ИПК издательство стандартов. 1997

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]