
- •Чинники, що зумовили формування комп’ютерної лінгвістики як науки
- •Поняття кл. Історія розвитку кл
- •Зв’язки кл з іншими нелінгвістичними науками
- •Поняття кл. Основні напрямки кл
- •Основні напрямки кл. Комп’ютерна лексикографія
- •Основні напрямки кл. Аналіз текстів на природній мові
- •Історія розвитку та сучасний стан систем машинного перекладу
- •Прикладні системи розробку яких, забезпечує кл
- •Характеристика об’єкту досліджень в кл
- •Характеристика предмету досліджень в кл
- •Два типи моделей опису мовленнєвої діяльності. Розширена класифікація моделей
- •Класифікація моделей опису мовленнєвої діяльності
- •Етапи створення лінгвістичної моделі
- •Вимоги до побудови лінгвістичних моделей
- •Класифікація лінгвістичних моделей за способом побудови
- •Класифікація лінгвістичних моделей за способом аналізу мовних об’єктів
- •22. Система рівнів абстракції опису лінгвістичних явищ в кл
- •23. Критерії вибору формалізму для представлення лінгвістичних явищ в кл
- •24. Граматики, що використовуються для опису в кл
- •25.Загальна схема опрацювання текстів на природній мові
- •26. Аналіз окремих слів. Характеристика етапу
- •27. Аналіз окремих речень. Характеристика етапу
- •28. Аналіз тексту в цілому. Характеристика етапу
- •29. Поняття автоматизована система опрацювання текстів. Характеристика основних підходів до її розробки
- •30. Які задачі вирішує модуль ама в системах автоматичного опрацювання текстів природною мовою
- •Загальна умовна структура системи ама
- •32. Основні принципи розробки систем ама
- •33.34.35 Основні групи методів ама
- •37. Етапи ма з використанням словників
- •38. Етапи створення швидкодіючого алгоритму ма
- •39. Які основні вимоги висуваються до систем ама
- •40.Основні поняття морфологічної моделі мови флективного типу
- •41.Основні складові лінгвістичного забезпечення систем ма.
- •43. Які складові необхідні для опису мови в її морфологічній моделі?
- •44. Поняття таблиці морфів. Навести приклад
- •45. Поняття списки масок. Навести приклад
- •46. Поняття списки морфів. Навести приклад
- •47. Поняття технічної частини мови
- •48 Яку інформацію повинен містити кожен запис у словнику основ
- •49. Порівняння методів ма «справа-наліво» і «зліва-направо»
- •50. Переваги методів ма «зліва-направо»
- •51. Характеристика задачі побудови словника основ і пошуку в ньому, як задачі керування базою даних
- •52. Загальна структура словника основ, яка забезпечує мінімум звертань до диска
- •53. Алгоритм пошуку у словнику основ. Навести приклад
- •54.Алгоритм роботи «стека вкладених ключів». Навести приклад
- •55.Алгоритм формування словника основ. Навести приклад
- •57.Типи граматичних правил для зняття омонімії
- •58.Використання прихованої моделі Маркова в алгоритмах зняття омонімії
- •60.Алгоритм зняття омонімії методом на основі нормалізуючи підстановок і позицій сусідніх слів
51. Характеристика задачі побудови словника основ і пошуку в ньому, як задачі керування базою даних
Оскільки побудову словника розглядаємо як побудову бази даних , тоді:
Ключі записів такої бази- основи словоформ, а записи , а записи тіла записів – граматична та інша інформація, що відповідає даній основі.Як правило, задача вибору інформації з бази даних по ключу К це є задачі знаходження в базі всіх записів, ключів, ключі яких рівні К.У нас К-ланцюжок букв певної довжини основи гіпотетичної словоформи.Але в певному вигляді ми шукаємо інформацію по ключу К—записи, ключі яких є початковими частинами К.Тут К-ланцюжок невизначеної довжини (весь текст).Результат пошуку –множина всіх можливих основ словоформи
52. Загальна структура словника основ, яка забезпечує мінімум звертань до диска
При звернені до диску ми можемо зчитати тільки певну частину –блок словника. І дуже важливо знайти таку структуру бази даних, при якій обробка одного запиту (аналіз однієї словоформи) не потребує більш ніж одного звертання до диску. Це складно. Тому що, якщо аналізувати слово (справи спра-справ-прав-пра), то його основа розміщена у словнику і при алфавітній формі розміщені в даних блоках словника.В даному випадку пропонується така структура даних.Потрібно впроваджувати словник лексико-графічно.Лексикографічний порядок дозволяє комп. застосовувати методи стиснення тексту.Замість повторення в ключі чергового запису тих його перших букв, які співпадають з попереднім записом вказується їх кількість. паро<4плав<8 шт.Задається певна величина словарного блоку.Додаючи у файл нулі де потрібно, добиваємось того, щоб ні одна словникова стаття не пересікалася з даними блоку.Якщо словникових статей розміром більших за блок не має ,то це можна зробити і об*єм словника збільшиться на 3%-5%.Стиснення інформації проводиться тільки всередині блока, і не стосується його початкового запису.В оперативній пам*яті розміщається індексний масив, який містить для кожного блоку ключ його першого запису.Цей масив також можна розбити на блоки і стиснути.Ключ зберігаєтся не повністю, всередині блоку орієнтований розмір такого індексногомасиву для словника 250 тис. основ буде складати 12,5 Кбайта.
53. Алгоритм пошуку у словнику основ. Навести приклад
При пошуку шукаємо місце ланцюжка букв в індексному масиві .Таким місцем запису називається позиція у впорядкованому масиві,що містить лексикографічно максимальний запис не більший даного.З диску зчитується відповідний блок основного масиву словника.В ньому лишається місце того самого ланцюжка.Ланцюжок обрізається по першій букві, по якій він не співпадає із знайденим у словнику ланцюжком, а область пошуку в словнику обмежується записами , що розміщені вище останньої , що розглядалась.Далі процес повторюється для вкороченого ланцюжка.Приклад.Маємо слово «парою» .Нехай її місце в словнику відповідає ключу «пароль».Обрізаємо ланцюги по буквах, що не співпадають, отримаємо паро- і знову повторюємо пошук.Знаходимо одну з основ пар-(а).Якщо обмежити область пошуку, виключивши всі записи починаючи зі знайденої основи.Повторення пошуку дасть ще одну основу пар-(0).Якщо наступний знайдений ключ не співпадає по перших буквах, то пошук завершується.