Фрагмент фрейму стіл у табличному поданні
Ім’я слоту |
Зміст слоту |
кількість ніжок |
чотири, можливо більше, мінімум три |
матеріал |
дерево, пластмаса, скло |
поверхня |
прямокутник, овал, коло, квадрат |
наявність тумб |
факультативно |
функції |
обідній, журнальний, робочий тощо |
Залежно від конкретної задачі структуризація фрейму може бути суттєво складнішою; фрейм може містити вкладені підфрейми та покликання на інші фрейми.
Замість таблиці часто використовують предикатну форму представлення. У цьому випадку фрейм має форму предикату чи функції з аргументами. Окрім того, його можна подати як кортеж такого вигляду:
{(ім’я фрейму) (ім’я слоту1) (значення слоту1), … , (ім’я слотуN) (значення слотуN)}.
Корте́ж або n-ка — в математиці впорядкована та скінченна сукупність елементів (нескінченний кортеж має назву сімейства).
Кількість елементів в кортежі визначає його довжину. Так, кортеж з двох елементів (тобто довжини 2) називається двійкою, з трьох елементів - трійкою і т.д. Кортеж з n елементів називається n-кою.
Формальне означення
Головною властивістю кортежа, яка відрізняє його від множини є те, що, по-перше, кортеж може містити декілька екземплярів одного об'єкта (в множині однакові об'єкти не розрізняються, і ця властивість також відрізняє кортеж від впорядкованої множини), та, по-друге, об'єкти в кортежі впорядковані. Це твердження формалізується наступним чином:
(a1, a2, ...,an) = (b1, b2, ..., bn) ⇔ a1 = b1, a2 = b2 ... an = bn
Здебільшого такий вигляд мають фрейми в мовах представлення знань. Так, у базі даних із кадрів фрейми подають як послідовність властивостей працівника:
{(працівник) (прізвище) (Іваненко), (посада) (менеджер), (вік) (32)…}.
Як і інші категорії комп’ютерної лінгвістики, поняття фрейму омонімічне. Онтологічно – це частина когнітивної системи людини, у цьому сенсі фрейм можна порівняти з такими поняттями як гештальт, прототип, стереотип, схема. У когнітивній психології ці категорії розглядають власне з онтологічного погляду.
Так, Д. Норман виокремлює два основних способи існування й організації знань у когнітивній системі людини – семантичні мережі й схеми.
«Схеми – це організовані пакети знання, зібрані для репрезентації окремих самостійних одиниць знання» (Норман 1998, с. 359). Якщо ж розглянути інструментальну сторону фрейму, то це структура для декларативного представлення знань. У наявних системах штучного інтелекту фрейми можуть утворювати складні структури знань, системи фреймів допускають ієрархію – один фрейм може бути частиною іншого фрейму.
За змістом поняття фрейму дуже близьке до категорії тлумачення. Слот – аналог валентності, заповнення слоту – аналог актанту. Основна відмінність між ними полягає в тому, що тлумачення містить тільки лінгвістично релевантну інформацію про план змісту слова, а фрейм, по-перше, не обов’язково прив’язаний до слова, і, по-друге, містить усю релевантну для цієї проблемної ситуації інформацію, зокрема й екстралінгвальну (знання про світ).
Валентність – потенціал семантико-синтаксичної сполучуваності лексичних одиниць, що виявом системно-мовної синтагматики. Під час опису слова валентність є параметром, який відображає здатність слова до семантичного зв’язку з іншими словами.
Актант – семантичний (мисленнєвий) аналог особи чи предмета, який репрезентує обовязкову валентнісну ознаку предиката й корелює з ним у певній ситуації, представленій структурою висловлювання. До актантів належать відповідники «глибинних семантичних відмінків» підмета, додатків, а іноді й обставин різних типів. Актанти застосовуються в алгоритмах семантичних і синтаксичних аналізаторів при машинному перекладі, під час моделювання структур репрезентації знань у компюткрній і когнітивній лінгвістиці.
Сценарій – це концептуальна структура для процедурного представлення знань про стереотипну ситуацію чи стереотипну поведінку. Елементами сценарію є кроки алгоритму чи інструкції. Ресторан. Процедурні знання тісно пов’язані з певною культурою, ніж декларативні. Це пояснюють тим, що процедурне знання, як правило, описує поведінку, яка більшою мірою соціологізована, ніж уявлення про абстрактні категорії типу руху, часу, простору тощо. Зазначені категорії більш універсальні, ніж способи вживання їжі, освячені традицією ритуали вибору супутника/супутниці життя, уявлення про кар’єру чи успіх.
Сценарій також можна представити як мережу, вершинам якої відповідають деякі ситуації, а дугам – зв’язки між ситуаціями.
Окремі дослідники використовують категорію скрипту. За Р. Шенком, скрипт – це деяка загальноприйнята, загальновідома послідовність причинових зв’язків (Schank 1981).
У результаті застосування сценарію до конкретної проблемної ситуації формується план. План використовують для процедурного представлення знань про можливі дії, які приводять до досягнення певної мети. План зіставляє мету з послідовністю дій. У загальному випадку план містить послідовність процедур, які переводять початковий стан системи в кінцевий і які приводять до відповідної підмети і мети. У системах штучного інтелекту план виникає в результаті планування або планувальної діяльності відповідного модуля – модуля планування. В основі процесу планування лежать адаптація даних одного чи кількох сценаріїв, активізованих тестувальними процедурами, для розв’язання проблемної ситуації. Виконання плану відбувається екзекутивним модулем, який керує когнітивними процедурами і фізичними діями системи. В елементарному випадку план в інтелектуальній системі – це проста послідовність операцій; у складніших версіях план пов’язують із конкретним суб’єктом, його ресурсами, можливостями, з детальною інформацією про проблемну ситуацію тощо. Виникнення плану відбувається у процесі комунікації між моделлю світу, частину якої утворюють сценарії, планувальним модулем та екзекутивним модулем.
На відміну від сценарію, план пов'язаний із конкретною ситуацією, конкретним виконавцем і переслідує досягнення певної мети. Вибір плану регулюється ресурсами виконавця. Виконуваність плану – обов’язкова умова його породження в когнітивній системі, а до сценарію характеристика виконуваності незастосовна.
Під моделлю світу звичайно розуміють сукупність певним чином організованих знань про світ, властивих когнітивній системі чи її комп’ютерній моделі. Загально про модель світу говорять як про частину когнітивної системи, яка зберігає знання про влаштування світу, про його закономірності. В іншому розумінні модель світу пов’язують із результатами розуміння тексту – ширше – дискурсу. У процесі розуміння дискурсу будується його ментальна модель, яка є результатом взаємодії плану змісту тексту і властивостей про світ, властивих певному суб’єктові (Джонсон-Лэрд 1988, с.237).
У системах штучного інтелекту модель світу - це особливий блок, до якого залежно від вибраної архітектури можуть входити загальні знання про світ (у вигляді простих пропозицій типу «взимку холодно» чи у вигляді правил продукцій «якщо на вулиці йде дощ, то треба одягти плащ чи взяти парасолю»), деякі специфічні факти («Найвища вершина у світі – Еверест»), а також цінності та їх ієрархії, які інколи виокремлюють в особливий аксіологічний блок. Під час аналізування проблемної ситуації із даних, які надійшли, та інформації, яка є в моделі світу, будується модель актуальної ситуації, яка використовується в моделюванні різних когнітивних процесів: ухваленні рішень, аргументації, практичного розмірковування, розуміння природномовних текстів і діалогу природною мовою. У моделі діалогу відбувається багатоетапна рефлексія моделей світу учасників ситуації спілкування. У різноманітних формалізмах модель світу може мати різну структуру: предикатну, мережеву, фреймову тощо.
Тісно пов’язане з категорією фрейму поняття сцени. Категорію сцени здебільшого використовують як позначення концептуальної структури для декларативного представлення актуалізованих в мовленнєвому акті й виділених мовними засобами (лексемами, синтаксичними конструкціями, граматичними категоріями) ситуацій та їхніх частин. Будучи пов’язаною з мовними формами, сцена часто актуалізується певним словом чи висловом. Характерні приклади схем – сукупність кубиків, з якими працює система штучного інтелекту, місце дії в оповіданні та учасники дії. У штучному інтелекті сцени використовують в системах розпізнавання образів, а також в програмах, орієнтованих на дослідження (аналізування, описування) проблемних ситуацій.
3. Деякі напрямки комп’ютерної лінгвістики:
Розгляньмо ті сфери комп’ютерної лінгвістики, які орієнтовані на оптимізацію когнітивної функції мови: моделювання спілкування, моделювання структури сюжету й гіпертекстові технології представлення тексту.
Текст (лат. textum — зв’язок, з’єднання). Твір мовлення (висловлювання), відтворений письмово чи в друкованій формі.
У лінгвістиці існує чимала кількість дефініцій тексту, які описують його типи в різних аспектах. Відсутність єдиного тлумачення феномена тексту пояснюється низкою причин.
Наприклад, дефініція І. Гальперіна охоплює лише частину текстів: "Текст - це твір мовленнєвого процесу, що є завершеним, літературно обробленим відповідно до типу документа; твір, що складається з назви й ряду особливих одиниць (надфразних єдностей), об'єднаних різними типами лексичного, граматичного, логічного, стилістичного зв'язку, і має певну цілеспрямованість і прагматичну установку".
Проблема типології тексту є остаточно не розв'язаною й містить різні за параметрами диференціації тексту на
1) усні, писемні, друковані;
2) адресатні й безадресатні;
3) комунікативно спрямовані на процес і на результат;
3) жорсткі (клішовані), узуальні (частково регламентовані) і вільні (С. Гіндін);
4) дескриптивні (описові), наративні (оповідні), експланаторні (пояснювальні), аргументативні й інструктивні (Е. Верліх) і т. ін.
Розгалуженими є класифікації тексту за стилем, жанром і типом дискурсу (наприклад, художні, публіцистичні, наукові, ділові, релігійні; або текст протоколи, накази, дисертації, статті, репортажі тощо; або політичні, спортивні, юридичні, військові, рекламні тощо). Текст має систему певних категорій.
ГІПЕРТЕКСТ, -у, ч.
1. У літературознавстві – текстовий матеріал, організований в такий спосіб, що він перетворюється на «систему текстових одиниць», представлених не в лінійному порядку, а як множинність зв’язків та переходів; слідуючи ними, можна утворювати нові лінійні тексти, читати матеріал в будь-якій послідовності.
2. спец. Комп'ютерна текстова система, що пов'язує між собою різні електронні документи, та дозволяє користувачам переходити з одного на інший; читач має змогу перейти до пов'язаних документів безпосередньо з вихідного (первинного) тексту, активізувавши посилання; найпопулярнішим зразком гіпертексту є World Wide Web.
ГІПЕРТЕКСТ (від гр. hyper - понад і текст) - 1) особливий метод побудови інформаційних систем, що забезпечує прямий доступ до інформації на підставі логічного зв'язку між її блоками;
2) система представлення текстової та мультимедійної інформації у вигляді мережі пов'язаних між собою текстових й ін. файлів, яка застосовує нелінійний, асоціативно-фрагментарний і сітковий принципи репрезентації інформації. Вузли (nodes) гіпертексту поєднуються за допомогою гіперпосилань (hiperlinks), вибір яких дає змогу користувачеві "мандрувати" інформацією, обирати й упорядковувати її за власним бажанням.
3) Особливий універсальний інтерфейс, що характеризується високим ступенем інтерактивності.
Головний підхід до моделювання гіпертексту кваліфікують як вільну навігацію, тобто на базі такої організації мережі зв'язків, можна проглядати текстову інформацію у будь-якій послідовності, зіставляти різні фрагменти, формувати нові структури,тримати в полі зору різні інформаційні блоки.
Відкриття гіпертексту пов'язують із науковим радником президента США Ф. Рузвельта В. Бушем, який під час Другої світової війни контролював оборонні проекти й мав обробляти велику кількість відповідних документів. У праці "Як ми можемо думати" 1945 р. на підставі розгляду людської думки як мережі асоціацій відповідно до "сплетіння слідів у клітинах головного мозку" він спроектував нову концепцію "навігації" у величезних масивах інформації, яка була згодом утілена у проекті "МЕМЕХ".
В. Буш теоретично обґрунтував проект технічної системи «Мемекс», яка давала змогу користувачеві пов’язувати тексти та їхні фрагменти за різними типами зв’язків, здебільшого за асоціативними відношеннями. Відсутність комп’ютерної техніки не дала змоги втілити проект. Ідея Буша у 60-ті отримала друге народження в системі «Ксанаду» Т. Нельсона, яка вже передбачала використання комп’ютерної техніки. «Ксанаду» давав змогу користувачеві прочитувати сукупність введених в систему текстів різними способами, у різній послідовності, програмне забезпечення давало змогу як запам’ятовувати послідовність проглянутих текстів, так і вибирати із них практично будь-який у довільний момент часу. Множина текстів з відношеннями, які їх пов’язують (системою переходів), Т. Нельсон назвав гіпертекстом.
Перші технологічні системи Гіпертексту з'явилися у 70-ті р. р. XX ст, а першою фундаментальною реалізацією гіпертексту стала система американського вченого Дугласа Карла Енгельбарта (1987 p.). (Douglas Carl Engelbart; народ. 30 січня 1925, Орегон) — один із перших дослідників людино-машинного інтерфейсу і винахідник компютерного маніпулятора — миші. Кріме того, Енгельбарт створив:
першу систему обміну текстовими повідомленнями;
протоколи для віртуальних терміналів;
множинні вікна (відкриття нового сегмента данних для прикладної програми під час запуску);
протокол віддаленого доступу.
Перша компютерна миша
Також винайшов посилання, працював в галузі гіпермедіа. Прагнув до вдосконалення інтелектуальних властивостей людини, створив для цього суспільний інститут (Bootstrap Institute).
Має 20 патентів на винаходи (зокрема на компютерну мишу) і велику кількість нагород (1987 — пожиттєва премія PC Magazine; 1990 — премія ACM Software System тощо).
Кажуть-пишуть, що сьогодні Енгельбарт разом з Фроде Геґландом (англ. Frode Hegland) працює над проектом вдосконалення гіпертекстової природи Інтернету.
Гіпертекстові технології представлення тексту.
Феномен гіпертексту можна обговорювати з кількох поглядів. З одного погляду, це особливий спосіб представлення, організації тексту, з іншого – новий вид тексту, протиставлений за багатьма своїми властивостями звичайному текстові, сформованому в гетенбергівській традиції книгодрукування. І, нарешті, це новий спосіб, інструмент і нова технологія розуміння тексту.
Теоретичне підґрунтя гіпертексту.
Багато дослідників розглядають створення гіпертексту як початок нової інформаційної епохи, протиставленій ері книгодрукування. Лінійність письма, яка зовнішньо відображає лінійність мовлення, виявляється фундаментальною категорією, яка обмежує мислення людини й розуміння тексту. Світ смислу нелінійний, тому стиснення смислової інформації в лінійному мовленнєвому відтинку вимагає використання спеціальних «комунікативних упаковок» - членування на тему та рему, розділення плану змісту висловлювання на експліцитні (ствердження, пропозиція, фокус) та імпліцитні (пресупозиція, наслідок, імплікатура дискурсу) шари. Відмова від лінійності тексту й у процесі його представлення читачеві (читання і розуміння), й у процесі синтезу, на думку теоретиків, сприяла би звільненню мислення і навіть виникненню його нових форм.
Ствердження -
Фокус -
Пресупозиція – (від лат. попереду і припущення) – імпліцитний складник змісту висловлювання або тексту, який є істинним і несуперечливим, передує їхньому вербальному плану та сприяє їх успішному сприйняттю й розумінню.
Наслідок -
Імплікатура дискурсу – тісно пов’язана з вербальним змістом змістом невербальна прихована інформація, що опосередковує змістовну залежність між висловлюванням в тексті чи повідомленні й організовує його інтерактивну спрямованість. Хлопчик пішов грати в футбол. Вікно розлетілося на друзки. Прихована пропозиція – Хлопчик розбив вікно.
Прототиповий текст – це монолог.
Однак багато лінгвістів (зокрема М. Бахтін та Л. Якубинський) стверджували, що монолог є вторинним порівняно з діалогом. Гіпертекст із цього погляду дає змогу усунути штучну монологічність тексту.
Звичайний текст, як правило, має автора. Гіпертекст у традиційному розумінні автора не має – у нього багато авторів, причому для гіпертексту, який постійно змінюється, авторський колектив також постійно змінюється. Зміна статусу автора змінює й статус читача: у гіпертекстовій системі розуміння часто супроводжується зміною компонентів гіпертексту чи, як мінімум, вибором шляху перегляду. що теж є актом творчим, авторським.
Множинність авторства має й ще один наслідок: у гіпертексті представлено багато поглядів на проблему, а у звичайному тексті – лише одна. Саме тому гіпертекст об’єктивніший і більш толерантний до читача, ніж класичний текст.
Гіпертекстові технології дають змогу легко поєднувати різні види інформації – звичайний текст, рисунок, графік, таблицю, схему, звук і рухоме зображення. Як традиційний текст, так і гіпертекст - феномени, породжені новими технологіями. У першому випадку технологія дала змогу легко тиражувати і розповсюджувати знання найрізноманітніших типів, а у другому – комп’ютерні технології дали змогу легко змінити сам зовнішній вигляд тексту та його структуру. Різнорідність гіпертексту – це перша технологічна властивість гіпертексту, технологічна в тому сенсі, що вона безпосередньо випливає з використовуваної комп’ютерної технології. Друга технологічна властивість гіпертексту – його нелініність. Гіпертекст не має стандартної, звичайної послідовності читання. Інші властивості гіпертексту тією чи іншою мірою є наслідками із цих двох технологічних властивостей.
Підсумувати відмінності тексту й гіпертексту можна так:
скінченність традиційного тексту – безкінечність, незавершеність, відкритість гіпертекту;
лінійність тексту – нелінійність гіпертексту;
точне авторство тексту – відсутність авторства (за традиційним розумінням) у гіпертексту;
суб’єктивність, односторонність звичайного тексту - об’єктивність, багатосторонність гіпертексту;
однорідність звичайного тексту - неоднорідність гіпертексту.
Компоненти гіпертексту. Структурно гіпертекст може бути представлений як граф, у вузлах якого перебувають традиційні тексти чи їх фрагменти, зображення, таблиці, відеоролики тощо. Вузли поєднані різноманітними відношеннями, типи яких задають розробники програмного забезпечення гіпертексту чи сам читач. Відношення задають потенційні можливості переміщення чи навігації по гіпертексту. Відношення можуть бути однонаправленими чи двонаправленими. Відповідно, двонаправлені стрілки дають змогу користувачеві рухатися у дві сторони, а однонапрлені - лише в одну. Ланцюжок вузлів, через які проходить читач під час перегляду компонентів тексту, утворює шлях чи маршрут.
A R L
{текст} {фотографія} {текст}
B T K
{фотографія} {текст} {текст}
C U J
{текст} {відеоролик} {фонограма}
D H
{відеоролик} {текст}
E O
{фонограма} {картина}
F P I
{текст} {текст} {текст}
Маршрути через вузли B, U, L та E, O, I відповідають різним прочитанням гіпертексту. Тип читання гіпертексту визначається не лише маршрутом, але й якісними характеристиками, пов’язаними з розумінням інформації, що міститься у вузлах. Повільне читання передбачає уважне знайомство з інформацією кожного вузла. Часто повільне читання супроводжується нотатками, які читач може прив’язувати до вузлів гіпертексту. Швидке читання – браузинг – найчастіше використовується в інформаційних системах, заснованих на гіпертекстовій технології. Під час пошуку конкретної інформації користувач швидко пересувається вузлами мережі, маркуючи необхідні фрагменти. Для браузингу створюють відповідну програмну підтримку.
Сукупність суміжних вузлів утворюють «довкілля» певного вузла. Зрозуміло, що «довкілля» вузла утворюють ті вузли, у яких містить інформація, близька за семантикою до змісту цього вузла. Вузли мережі, до яких входить і виходить багато стрілок-відношень, утворюють центральну частину гіпертексту, а ті, які майже ізольовані від інших вузлів – периферією.
Елементи типології гіпертексту. Перше протиставлення стосується структури гіпертексту. Гіпертекст може бути ієрархічним чи мережевим. Ієрархічна – деревоподібна – будова гіпертексту суттєво обмежує можливості переходу між його компонентами. У такому гіпертексті відношення між компонентами нагадують структуру тезаурусу, основаного на родо-видових зв’язках. Ієрархічний гіпертекст не реалізує всіх можливостей технології гіпертексту. У середовищі розробників гіпертекстових систем він не має широкої популярності. Натомість мережевий гіпертекст дає змогу використовувати різні типи відношень між компонентами, не обмежуючись відношеннями «рід-вид».
Друге протиставлення характеризує не саму структуру гіпертексту, а можливості програмного забезпечення. Тут розрізняють прості і складні гіпертексти.
Прикладом простого програмного забезпечення гіпертексту може слугувати електронний зміст документа, який дає змогу перейти до будь-якої частини змісту, оминаючи етап перегляду всього тексту. До простого гіпертексту належить і система, яка дає змогу проглядати покликання на літературу, що міститься в тексті, не звертаючись безпосередньо до переліку літератури. Складні гіпертексти мають багату систему переходів між компонентами гіпертексту, в них нема уявлення про базовий текст, з яким пов’язані за значущістю тексти.
За способом існування гіпертексту виокремлюють статичні та динамічні гіпертексти. Статичний гіпертекст не змінюється у процесі експлуатації; у ньому користувач може фіксувати свої коментарі, проте вони не змінюють сутності справи. Для динамічного гіпертексту зміни є нормальною формою існування. Звичайно динамічні гіпертексти функціюють там, де необхідно постійно аналізувати потік інформації, тобто в різноманітних інформаційних службах. Гіпертекстовою є, наприклад, Арізонська інформаційна система (AAIS), яка щомісячно поповнюється на 300-500 рефератів.
Відношення між елементами гіпертексту можуть фіксувати створювачі, а можуть породжуватися кожного разу, коли відбувається звернення користувача до гіпертексту. У першому випадку йдеться про гіпертексти жорсткої структури, а в другому - про гіпертексти м’якої структури. Жорстка структура технологічно повністю зрозуміла. Технологія організації м’якої структури має засновуватися на семантичному аналізі близькості документів (чи інших джерел інформації) один до одного. Це нетривіальна задача комп’ютерної лінгвістики. Сьогодні часто використовують технології м’якої структури на стрижневих словах. Перехід від одного вузла до іншого в мережі гіпертексту здійснюється в результаті пошуку стрижневих слів. Оскільки перелік стрижневих слів кожного разу може відрізнятися, кожного разу змінюється й структура гіпертексту. Жорсткість чи м’якість архітектури гіпертексту залежить й від кількості інформації. яку він містить. Якщо вузлів в мережі гіпертексту близько 1-3 тисяч, то найчастіше використовують жорстку архітектуру, якщо ж кількість вузлів досягає десятків тисяч чи навіть мільйонів одиниць, то краще застосовувати м’яку структуру, оскільки кодування жорстких зв’язків вимагає багато часу. Структура Інтернету часто функціює як гіпертекст м’якої архітектури.
Технологія побудови гіпертекстових систем не зважає на відмінності між текстовою та нетекстовою інформацією. Однак залучення візуальної та звукової інформації (відеороликів, картин, фотографій, звукозаписів тощо) вимагає суттєвої зміни інтерфейсу з користувачем та потужнішої програмної та комп’ютерної підтримки.
Такі системи називають гіпермедіа чи мультимедіа. Наочність мультимедійних систем визначила їхнє широке використання в навчанні, у створенні комп’ютерних варіантів енциклопедій.
Дослідники виокремлюють такі типи гіпертекстових систем:
бібліотечні (динамічні з можливим додаванням нових блоків і наявним коментарем);
аналітичні - гіпертексти, спрямовані на проектування багаторівневих стадій і шляхів розв'язання складних проблем;
довідкові, орієнтовані на перегляд великих масивів інформації й пошук необхідних даних;
експериментальні, спрямовані на креативні функції гіпертексту.
Головними властивостями гіпертексту називають:
когезійну закритість як відносну тематичну закінченість, відсутність зв'язків з іншими блоками гіпертексту,
неієрархічність як відсутність у ньому головних і допоміжних інформаційних блоків,
іманентність як здатність засвоювати нові види інформації, відкритість як можливість додавання нових інформаційних блоків,
мультилінійність як ступеневе розгортання (заголовок-заголовок з анотацією - частина тексту-повний текст),
неоднорідність як наявність інформації різних типів у вузлах графа (текстів, малюнків, схем, таблиць, відеороликів тощо).
За способом будови типами гіпертекст є ієрархічний, що обмежує можливості переходу між його компонентами й має родо-видову структуру; і мережний, який має сіткову побудову.
Статичний і динамічний гіпертексти різняться можливістю змін у процесі експлуатації. Структура гіпертексту залежить від кількості наявної в ньому інформації, може бути твердою, фіксованою і м'якою й породжується у кожному випадку користування.
Деякі гіпертекстові системи. Технологічні в основі гіпертексту лежать комп’ютерні програми, які підтримують такі базові функції:
забезпечення швидкого перегляду інформаційного масиву (браузинг);
оброблення покликальних відношень (звернення та виклик фрагменту тексту чи іншої інформації, на яку здійснюється покликання);
навігація по гіпертексту, запам’ятовування маршруту руху; представлення маршруту руху у формі, яка легко сприймається;
змога формувати звичайний лінійний текст як результат руху по гіпертексту;
доповнення гіпертексту новою інформацією;
введення нових відношень до структури гіпертексту (для систем з жорсткою структурою).
Перша комп'ютерна система, що реалізувала ідею гіпертексту, була створена в 1968 р. Вона мала чисто науково-дослідний характер і забезпечувала можливість користувачам, відповідно до своїх уявлень, формулювати, нарощувати систему зв'язків між елементами інформації і проглядати інформацію як систему зв'язків.
Термін гіпертекст ввів Т. Нельсон. Він визначив гіпертекст як поєднання тексту на природній мові зі створюваною комп'ютером можливістю інтерактивного створення всередині нього нових гілок або динамічної організації нелінійного тексту, який вже не може бути надрукований звичайним чином на звичайній сторінці.
Т. Нельсон був розробником гіпертекстової системи, яка використовувалася для ведення документації по проекту космічного корабля Апполон.
У 1987 р. фірма Apple випустила першу гіпертекстову систему для персональних машин - пакет HyperCard (створена Біллом Аткінсоном) для комп'ютерів Macintosh. З цього часу гіпертекстова технологія здобуває масовий комерційний характер.
Гіпертекст можна розглядати як своєрідну базу даних, яка організовується у вигляді відкритої, вільно нарощуваною і змінною мережі, вузли якої (лінійні тексти) з'єднуються самим користувачем. Від звичайної бази даних гіпертекст відрізняється насамперед тим, що в ньому відсутні апріорно задані обмеження на характер зв'язків (як, наприклад, в ієрархічних структурах).
Елементи гіпертексту (текстові фрагменти) називаються вузлами. Вузли, між якими можливий перехід, вважаються суміжними, а сама можливість переходу називається зв'язок. Сукупність суміжних вузлів утворює оточення даного вузла.
Послідовно з'єднані зв'язками вузли утворює ланцюг. Відстань між вузлами, що відповідає близькості або неблізості їх змісту, так само мінімальної кількості проміжних вузлів.
Загалом як вузли можуть виступати: слово; словосполучення; речення; абзац; параграф; документ; зібрання документів, що стосуються однієї теми; окремі повідомлення і т. ін.
Характер зв'язків між вузлами може бути різним. Перехід може здійснюватися між: текстом і коментарем до нього, між різними редакціями тексту, між текстом і його можливими продовженнями, між текстами, що відповідають або заперечують один одному, між текстами. які перетинаються за змістом тощо.
Створення гіпертексту полягає, насамперед, у формуванні системи переходів від вузла до вузла (системи посилань). Залежно від типу гіпертекстової системи така система може задаватися як розробниками, так і користувачем в процесі роботи з гіпертекстом.
Рух у гіпертекстовій мережі, що здійснюється в процесі читання гіпертексту, називається навігацією.
Якщо гіпермережа має складну, розгалужену структуру, виникає проблема орієнтації користувача, тобто визначення в якому місці мережі в даний момент він перебуває. Проблема орієнтації присутня і при роботі з традиційним лінійним текстом великого об'єму, але в цьому випадку користувач має тільки два напрямки пошуку - вище або нижче. Гіпертекст пропонує більше можливостей у виборі напрямків руху, тому в цьому сенсі працювати з гіпертекстом складніше. Багато гіпертекстові системи полегшують проблему орієнтації в гіпертексті, надаючи наочне зображення структури зв'язків.
У деяких сучасних гіпертекстових системах існує можливість запам'ятовування напрямків пошуку користувача в процесі навігації. Таку інформацію можна розглядати як альтернативу обробки інформації за правилами логічного висновку (експертні системи). Прикладом використання такого підходу можуть служити системи, що базуються на технології CBR (Case Based Reasoning - висновок, заснований на прецедентах).
Гіпертекстова технологія реалізується в конкретній гіпертекстовій системі, яка складається з двох частин: гіпертексту (бази даних) і гіпертекстової оболонки.
Гіпертекстова оболонка здійснює такі основні функції:
підтримка покликальних зв'язків;
створення, редагування і нарощування гіпертексту;
прямий доступ;
підтримка покликальних зв'язків;
перегляд (browsing - браузинг);
виділення віртуальних структур.
Підтримка покликальних зв'язків дозволяє підтримувати раніше зафіксовані зв'язку між вузлами мережі.
Функція створення, редагування і нарощування гіпертексту принципово відрізняє технологію гіпертексту від технології баз даних, в яких концептуальна схема даних заздалегідь задана. Вона дозволяє вводити нові вузли, редагувати зміст вузлів, встановлювати зв'язки між вузлами.
Прямий доступ дозволяє здійснювати прямий доступ до вузлів мережі за їх іменами.
Перегляд (браузінг) - операція, характерна тільки для гіпертексту. Означає пошук інформації за допомогою перегляду гіпертекстової мережі, при цьому можливе запам'ятовування шляху проходження, з тим, щоб при подальшому аналогічному запиті пошук відбувався за зафіксованому шляху проходження.
Реальні гіпертекстові системи залежно від спеціалізації можуть мати різний набір перерахованих вище функцій.
Гіпертекстові технології широко використовуються в різних прикладних системах:
в настільних видавничих системах - для створення документів великого обсягу з властивостями гіпертексту (тобто з системою посилань);
в системах управління документами (СУД) - наприклад, для зведення в один підсумковий документ інформації, що міститься в різнорідних документах;
в системах підготовки електронних документів, що дозволяють складати гіпертекстові документи з можливістю здійснення навігації.
Найбільш відомим інструментом створення гіпертексту залишається система HyperCard, що входить в набір базових програмних засобві для машини Макінтош.
Одним з перспективних напрямків розвитку гіпертекстових систем є технологія гіпермедіа - підключення технології гіпертексту і технології мультимедіа (інтеграція тексту, графіки, звуку, відео). Для розроблення гіпермедійного додатків фірма Apple розробила середовище програмування АМТ (Apple Media Tool), в якій основним об'єктом розроблення є не карта, як у HyperCard, а екран. За допомогою цих засобів створюються різні електронні видання - довідники, енциклопедії; розробляються навчальні програми.
Назва статистична лінгвістика є достатньо умовною, хоча достатньо широко використовується в сучасній науковій літературі. Ця назва характеризує міждисциплінарний напрямок у прикладних дослідженнях, у яких основним інструментом вивчення мови використовуються кількісні чи статистичні методи аналізу. Іноді статистичну (чи кількісну чи квантитативну лінгвістику) протиставляють комбінаторній лінгвістиці. В останній домінантну роль посідає «некількісний» математичний апарат – теорія множин, математична логіка, теорія алгоритмів тощо.
Розвиток та становлення статистичної лінгвістики як науки
Статистична лінгвістика виокремилася порівняно недавно, однак кількісні та статистичні методи до мови та мовлення застосовували тисячі років тому. Ще в античному світі (III ст. до н. є.) для творчості Гомера олександрійські граматики підраховували слова для визначення тих, які грапляться всього один раз протягом усього твору. Це робили, звичайно, вручну, а не автоматично, як тепер.
Середньовіччя (V-XV ст.) відоме особливою увагою до сакральних гекстів, зокрема, Біблії. Із метою узгодження різних текстів та перекладів (Святого Письма ерудити укладали повні списки його слів зі всіма випадками їхнього використання у конкретному тексті.
У XVII ст. з'явилася праця, що аналізує розподіл слів у грецькому перекладі Нового Заповіту методом, який майже не відрізняється від сучасного.
У XIX ст. укладають латинські та грецькі словопокажчики, а також за допомогою до статистичної лінгвістики звертається стенографія — швидкий дослівний запис усного мовлення за допомогою системи спеціальних умовних знаків, а також шляхом скорочення найчастотніших буквосполучень, слів, словосполучень, виразів. Одним з перших випадків стенографії вважають т.зв. Тіронські ноти, якими вільновідпущеник Тірон записував промови римського оратора Ціцерона.
Для вдосконалення системи стенографії первісно був призначений і частотний словник німецької мови Кедінґа (його уклали на матеріалі 11 млн. слів 6000 співробітників), виданий у Берліні 1898 р. А 1916 р. опубліковані "стенографічні гами" Ж. Есту, в яких встановлено винятково важливу залежність між частотою слова та його рангом.
Новим поштовхом до розвитку статистичної лінгвістики стало зростання популярності вивчення іноземних мов у середині XIX-поч. XX ст. Педагоги-лінгводидакти зрозуміли, що повністю оволодіти мовою за декілька років при декількох годинах занять на тиждень неможливо, тому вирішили обмежити словник найбільш частотними словами. Вирішення цієї проблеми зумовило появу багатьох словників основної лексики спочатку для англійської, а згодом і для німецької, французької та інших мов. Р. Елрідж, керівник невеликої фабрики, за 2 роки опрацював 250 статей загальною довжиною 44 000 слововживань і 1911р. видав "Шість тисяч загальновживаних англійських слів" для своїх робітників-емігрантів, що вивчають англійську мову. У 1920 р. Кеністон уперше вказав на те, що важливість слова пов'язана не лише із його частотністю, а й з тим, наскільки вживання слова пов'язане із певним колом текстів, тобто в якому із функційних стилів воно трапляється.
У 1928 р. побачив світ "Німецький частотний словник" (German frequency Word Book) Морґана, роком пізніше — "Німецький словник ідіом" (A German Idiom List) Xayxa, у цьому руслі також працювали науковці Пфеффер та Веґлер. Також з'явився "Порівняльний частотний словник першої тисячі слів англійської, французької, німецької та іспанської мов" (Comparative Frequency list on the First Thousand words in English, French, German and Spanish) Ітона, де наведено 1000 найчастотніших слів названих чотирьох європейських мов.
Увійшов в історію англійський мовознавець та педагог Палмер, що відібрав три тисячі слів, які дають змогу розуміти 95% тексту.
Під час воєн зростає потреба передати інформацію так, щоб її не міг зрозуміти противник. Тому посилилася увага до криптографії — науки про зашифровування та розшифрування повідомлень, "ламання кодів".
Справжній "вибух" статистичних досліджень відбувся з появою комп'ютерів. Вони уможливили максимальне спрощення механічної роботи, такої, наприклад, як карткування. Якщо раніше для обчислення кількості слововживань у тексті їх треба було рахувати "вручну", то зараз, перевівши текст в електронний вигляд, наприклад, за допомогою програми MicroSoftWord ці дані можна отримати автоматично (опція файл/властивості/статистика/ слова). Також використовують комп'ютерні програми автоматичної лематизації (зведення словоформ до початкової форми), можливості автоматичного сортування та пошуку слів, їх частин тощо.
Сьогодні лінгвостатистичні дослідження здійснюють у кожній країні з добре розвинутим мовознавством: Німеччині, Австрії, США, Австралії, Чехії, Словаччині, Польщі, Росії тощо. Функціонують міжнародні товариства та журнали: IQLA (International Quantitative Linguistics Association), Journal of Quantitative Linguistics, серія "Quantitative Linguistics".
Суттєвий внесок у розвиток цієї галузі мовознавства зробили Gabriel Altmann, Reinhard Kohler (Німеччина), Peter Grzybek (Австрія), Geiza Wimmer (Словаччина), Adam Pawlowski, Jadwiga Sambor (Польща), Валентина Перебийніс, Наталія Дарчук (Україна), Юхан Тулдава (Естонія), Раймунд Пиотровский (Росія) та ін.
Лінгвостатистичні дослідження в Україні почалися з 50-х pp. XX ст. Спочатку вони стосувалися відбору лексичного мінімуму іноземних мов, згодом сфера їх застосування значно розширилася. Зокрема, 1963 р. в Інституті мовознавства ім. О. О. Потебні АН УРСР організовано групу структурно-математичної лінгвістики, яка започаткувала планомірне статистичне дослідження українських текстів художнього, науково-технічного та соціально-політичного функціональних стилів, зокрема, виявлено їхні статистичні параметри. Результатом цього стилеметричного дослідження стали зокрема монографії та збірники "Статистичні та структурні лінгвістичні моделі" (К., 1966), "Статистичні пераметри стилів" (К., 1967), Перебийніс В. С. "Кількісні та якісні характеристики фонем сучасної української літературної мови" (К., 1970), "Структура мови та статистика мовлення" (К., 1974).
Досягнення наступного проекту — опис сполучуваності англійських іменників, прикметників та дієслів, у реалізації якого брали участь викладачі 42 вищих навчальних закладів колишнього Радянського Союзу — опубліковано в "Довіднику найбільш уживаних англійських словосполучень" за редакцією В. Перебийніс (М., 1986). Системні функційні характеристики словозмінної парадигми англійського дієслова, описані мовознавцями, доступні як в паперовому ("Методичні рекомендації з вивчення системних і функціональних характеристик словозмінних форм англійського дієслова", К., 1993), так і в електронному вигляді ("English conjugation: System and Functioning". CD-ROM, 2004).
Ще один великий проект, розпочатий ще у 60-х pp. XX ст. — укладання серії частотних словників: художньої прози, драми, поезії, публіцистики, наукової прози — триває; зокрема, залучено лабораторію комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка.
Центрами лінгвостатистичних досліджень, окрім названих, також можна вважати Київський національний лінгвістичний університет, Чернівецький університет імені Юрія Федьковича, Львівський національний університет імені Івана Франка, Національний університет «Львівська політехніка» та ін.
Основні поняття та категорійний апарат статистичної лінгвістики: вибірка, частота, розподіл, похибка.
У сучасному мовознавстві домінує чітка тенденція: досліджувати мовний та мовленнєвий матеріал на репрезентативному масиві текстів.
Однорідний масив (корпус) певних одиниць, які потрібно обстежити, називають генеральною сукупністю (ГС).
Обсяг і характер генеральної сукупності залежать від завдань дослідження. Наприклад, якщо досліджують особливості стилю Івана Франка, генеральна сукупність — усі його твори. Якщо досліджують українську мову XX ст., генеральна сукупність - усі тексти (мовлені та писані) XX ст. Межі останньої важко виявити точно, а все усне мовлення просто неможливо дослідити. У подібних випадках, коли суцільне обстеження генеральної сукупності неможливе, роблять вибірку.
Вибірка — це певна кількість матеріалу, на підставі дослідження якого можна зробити правильні висновки про всю генеральну сукупність. Основні вимоги до вибірки: репрезентативність та однорідність.
Щоби бути репрезентативною, вибірка має
1) рівномірно розподілятися по генеральній сукупності та
2) мати достатньо великий обсяг, якого вистачає для правильних висновків про ГС.
Розрізняють два типи однорідності вибірки: лінгвістична та статистична.
У межах лінгвістичної однорідності вибірки виділяють:
1) хронологічну (тексти вибірки повинні мати хронологічні межі);
2) жанрову (тексти вибірки мають бути жанрово обмежені);
3) тематичну (тексти мають бути тематично обмежені).
Статистично однорідною вважають вибірку, в якій досліджувані одиниці мають статистичну поведінку, яка суттєво між собою не відрізняється. Якщо середня частота явища (літери, морфеми, слова, довжини слова, довжини речення і т.ін.) в одній вибірці суттєво не відрізняється від його частоти в інших вибірках, то ці вибірки статистично однорідні стосовно цього явища.
За способом організації виділяють такі різновиди вибірок:
1) механічна — організована з урахуванням рівномірності розподілу досліджуваної одиниці по генеральній сукупності. Всі тексти генеральної сукупності перенумеровують, а потім, наприклад, з кожного п'ятого, десятого, двадцятого тексту вибирають відрізок необхідної довжини.
2) випадкова — організована шляхом випадкового вибору текстів з генеральної сукупності. В основі такого методу організації вибірки лежить гіпотеза про те, що досить велика кількість навздогад відібраних одиниць з генеральної сукупності має адекватно її представляти. Тож кожна сторінка, розділ чи інша одиниця тексту генеральної сукупності повинні мати однаковий шанс потрапити до вибірки. Тому, як правило, випадкова вибірка ґрунтується на таблиці випадкових чисел.
3) зональна (типова) — організована на основі лінгвістично однорідної сукупності текстів, тобто зони. Зоною залежно від мети дослідження вважають прозу, поезію та драму в художній літературі; твори одного автора або конкретний твір; сукупність слів певної морфемної структури (наприклад, префіксальних або одноморфемних) тощо.
Вибірка може бути структурною, тобто складатися із менших частин, які називають підвибірками, та неструктурною, тобто суцільною.
Одним з найосновніших понять статистичної лінгвістики є частота досліджуваної одиниці.
Абсолютна частота — це кількість вживань певної одиниці (літери, слова, словоформи, словосполучення, речення тощо) в обстеженому матеріалі.
Відносна частота — відношення абсолютної частоти певної одиниці у вибірці до обсягу вибірки. Вимірюється у відсотках (%) або в частках 1 (наприклад, 25% або 0,25). Так, у реченні Говорили око в око абсолютна частота слова око — 2, а відносна — 2/4 = 0,25 або 25%.
Проте в різних підвибірках частота одиниці звичайно неоднакова. У таких випадках належить оперувати середньою частотою. Це відношення суми абсолютних частот певної одиниці у підвибірках до кількості підвибірок. Наприклад, якщо у трьох підвибірках, з яких складається вибірка, слово "яскраво" має абсолютні частоти 4, 6 і 8, то його середня частота у вибірці буде (4 + 6 + 8) / 3 = 6. Якщо середня частота більша за одиницю, то доцільно її рахувати з точністю до сотих (два знаки після коми), якщо менша за одиницю, то її треба рахувати до другого знака після коми або до третього знака, якщо після коми йде нуль.
Частотний словник публіцистики
|
