Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный технический университет Украины «Киевский политехнический институт»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Основи редагування / Ответы_на_вступ.doc

Скачиваний:

Добавлен:

12.05.2015

Размер:

192 Кб

Скачать

☆

1 / 131 2 3 4 5 6 7 8 9 10 11 12 13 > Следующая >>>

Основні методи автоматизованого реферування.

Статистичний (полягає у відбору речень, в яких найчастіше зустрічаються ключові слова). Позиційний (відбір значущих речень здійснюється на основі чотирьох взаємопов’язаних методів: натяку, ключових слів, заголовка і локалізації) та індикативного (синтаксичний аналіз тексту може виконуватися як на всьому документі загалом, так і на окремих його фрагментах, які містять мовні кліше (маркери).

Проблеми автоматизованого реферування.

навіть для автоматизованого процесу реферування потрібні кваліфіковані спеціалісти цієї галузі, щоб створювати словники; неповнота словників, технічне забезпечення; машина не може зробити повний синтаксичний аналіз речення.

Проблема автоматизованого аналізу тексту –це проблема можливості усунення з повідомлення абсолютно всіх помилок. Чи можна на 100% автоматизувати редакційний етап? Відповідь на поставлене питання така: коли навіть людина-редактор не може усунути з повідомлення ні практично, ні теоретично всіх помилок, то цього тим паче не зможуть здійснити машини.

В наш час ступінь редагованості, який забезпечують системи редагування, є значно нижчим, ніж у людей-редакторів. Проте це не повинно вести до припинення досліджень і конструювання таких програм. Враховуючи сказане, спробуємо визначити, що ж стримує розвиток систем редагування (СР).

Почнемо з операцій контролю. Конструктори СР могли б висловити працівникам ЗМІ таку пропозицію: дайте нам повний перелік норм редагування, формалізуйте їх – і ми сконструюємо на основі цих норм СР. Проте, як виявляється, формалізація норм редагування - вкрай складна задача. Так, можуть бути формалізовані лише ті норми, які можна подати у вигляді параметрів, списків, шаблонів і моделей. На жаль, поки що не можуть бути формалізовані норми, які мають форму положень, які, як правило, стосуються семантичного аспекту редагування повідомлень.

3. Автоматизоване виправлення орфографічних помилок. 1. частотний або кількісний - не було машинного словника, але слово вважалося правильним, якщо воно зустрічалося в тексті більше ніж 3 рази. Недолік – якщо текст не великий, то слово може зустрічатися менше ніж 3 рази. Але метод був дуже ефективний і був допомогою коректору.

2. Метод поліграмного контролю – слово розбивається на поліграми (буквенні сполучення). Машина мала поліграмний словник (початок – послідовний перегляд слів – є слово? Ні – кінець; так – розбити слово на поліграми (список №1) – Чи є всі поліграми в списку – так(до 2); ні – видати на помилку).

3. Метод словникового контролю (початок – послідовний перегляд слів – є слово? – ні (кінець), так – чи є слово с такою основою у машинному словнику - ні (вилати на друк як помилку - 2), так – чи відсічна частина входить до парадигми допустимих закінчень – так (до 2), ні …)

Автоматизоване коригування – процес автоматичного виправлення помилок та недоліків тексту на стадії комп’ютерного набору тексту. На перших етапах для автоматизації процесів редагування використовували різні методи пошуку орфографічних помилок. Ці методи можна класифікувати на такі чотири групи: поліграмні, словникові, авто-кореляційні та кроскореляційні.

Поліграмні методи передбачають, що в тексті в кожному слові контролюють сполучення кількох сусідніх літер. Використання словникових методів базується на тому, що контролюють не окремі частини слів, а відразу цілі слова. Особливість застосування авто кореляційних методів полягає в тому, що для контролю тексту як нормативну базу використовують сам текст, тобто його контроль на основі цього ж таки тексту. Використання крос кореляційних методів полягає у використання заздалегідь підготовлених масивів нормативних елементів.

Раніше використання поліграмних методів було зумовлене малим обсягом пам’яті тогочасних комп’ютерів. У наш час застосовують лише словникові методи. При цьому використовують не автокореляційні, а крос кореляційні методи.

4. Автоматизоване виявлення абревіатур.

Абревіатура — складноскорочені слова, утворені з перших літер або з інших частин слів, що входять до складу назви чи поняття. Вживаються в усній та писемній мовах. Бувають: ініціальні, буквенні, складові (колгосп), змішані (велику і малі букви поєднанні), галузеві, загальновживані, текстові (лише у межах певної статті). Абревіатури – найлегший вид помилок для машини, але не для людини. Є алгоритм їх визначення у тексті (початок – послідовний перегляд слів – є слово? Так – чи вміщує слово 2 і більше великі літери, так – чи це заголовок, ні – присвоїти слову значення абревіатури - є слово? Ітд.).

5.Автоматизований контроль за введенням абревіатур. Абревіатура — складноскорочені слова, утворені з перших літер або з інших частин слів, що входять до складу назви чи поняття. Вживаються в усній та писемній мовах. Бувають: ініціальні, буквенні, складові (колгосп), змішані (велику і малі букви поєднанні), галузеві, загальновживані, текстові (лише у межах певної статті). Абревіатури – найлегший вид помилок для машини, але не для людини. Є алгоритм контролю за введенням абревіатур (початок – послідовний перегляд абревіатур – є абревіатура?так – чи абревіатура загальновживана? Чи є вона у списку №1? Так – чи є біля не розшифровка? Так – Чм є в списку №2? Так – Чи стосується абревіатура галузі, у якій вживається? Так – викреслити розшифровку – Ітд.)

6. Автоматизоване виявлення помилок , пов’язаних із милозвучністю.

Вживання з-зі-із. «з» - після будь-якої літери і перед голосним; після голосної чи паузи і перед приголосним (крім с, ш). «із» - після шиплячих і свистячих (з, с, ч, ш, щ) і перед шиплячим або свистячим; після групи приголосних і перед групою приголосних. «зі (зо)» - після будь-якої літери і перед сполученням приголосних, коли початковий з, с, ш, щ. Алгоритм: початок – послідовний перегляд слів – є слово?(ні - кінець) – це слово «з»? – чи наступне слово починається на голосний (так - 2) – чи наступне слово починається на з, с, ш, щ, ч (ні – чи стоїть «з» після паузи чи на початку речення – ні , тоді до 10, так, то до 2), так - замінити на зі.

7. Автоматизоване визначення морфологічної інформації. Методи визначення морфологічної інформації:1.власне морфологічний метод - коли на основі суфіксів і афіксів машина визначає морфологічну інформацію; 2.словниковий. Також є метод квазіфлексій. Деякі науковці зазначають його як окремий метод, інші – підметод словникового. Він полягає у тому, що 3-4-буквенні сполучення дають 80 % правильної інформації.

Словниковий метод має два словники: перший – незмінні частин мови – це слова, які складаються з трьох букв (прийменники, займенники, частки); другий – це той, що вміщує квазіфлексії, починаючи від двох кінцевих букв, іноді навіть ціле слово. Спочатку слово перевіряють на наявність у першому словнику, приписується йому код інформації (яка частина мови). Якщо немає у першому словнику, то перевіряють у другому. У словнику два зліва подаються флексії.

Автоматичне редагування тексту на морфологічному рівні передбачає визначення машиною морфологічної інформації слів, зокрема з категоріально-морфологічними характеристиками. Вирізняють три способи такого визначення:

1. словниковий (найефективніший, але вимагає великі обсяги пам’яті – вмістити 11-томний словник + галузеві словники, параметри – частина мови, характеристики, словозміни, афікси, принцип роботи: початкова форма + парадигми флексій). – тупо звіряємо слова зі словником, в якому вказана приналежність до частин мови. Не підходить, якщо є багато помилок.

2. власне морфологічний (80% ефективності, словник слів відсутній, є лише словник закінчень української мови, відсікається від слова найдовше з можливих флексій, підраховується кількість основ у тексті, якщо > 3, слово вважається правильно визначеним).

3. квазіфлексійний (нетрадиційний: абревіатури, скорочення, цифри виносяться в окрему категорію, укладається словник квазіфлексій – останніх 2-3 літер слова, за ними визначається частина мови, 90-100% ефективності, метод розоблений у НАН України).

Алгоритм для квазіфлексій:

Для нього потрібно два словники

1) – 2-3-буквені слова, незмінні частини мови – щоб спростити роботу і не шукати зайвий раз незмінні слова

2) – сукупність кінцевих букв слова (2-4/5 букв)

1.Початок

2. послідовний перегляд слів

3. Є слово?

- ні

4. кінець

- так

5. Чи входить до словника № 1?

- так

6. Приписати категоріально-морфологічні характеристики

переходимо до 2 пункту (в кружечку двійка)

ні

7. Чи збігається фінальна частина даного слова з квазіфлексією словн. № 2?

- так

6 в кружечку, за ним 2 в кружечку

-ні

8. Видати на друк як помилку – за ним 2 в кружечку

8. Автоматизований синтаксичний аналіз речення.

Прийнято два способи опису синтаксичної структури: за безпосередніми складниками, за допомогою дерев синтаксичного підпорядкування. Опис за допомогою БС - не розпізнаються у словосполученнях головне і підрядне слово. Дерева залежностей допомагають розпізнати характер зв'язків між словами. Якщо в результаті АСА встановлюються зв’язки, то які більш-менш відповідають інтуїтивним уявленням носіїв мови, то синтаксична структура речення визначена правильно.

Наше знання про синтаксичну структуру речення, тобто про лексико-граматичні зв'язки слів у ньому передати ЕОМ неможливо, оскільки в алгоритми аналізу речення не можна ввести команди типу "знайди підмет", "знайди прикметник, який визначає іменник" тощо, якщо немає детальних, автоматично виконуваних правил про те, як це робити. Адже машина розуміє тільки мову команд, а не мову їхнього розв'язання. Для того, щоб ці правила створити, необхідно пізнати ті закони, які діють у процесі побудови речення.

Існує два підходи щодо дослідження цього процесу. Мову можна уявити у вигляді кібернетичної системи, на вході якої є сума речень, а на виході - класи мовних одиниць і правила їх сполучуваності. Ці два підходи пізнання структури мови лежать в основі побудови синтаксичних моделей (індуктивних та дедуктивних) та розробляються у методиці структурних лінгвістичних досліджень.

Метод моделювання змусив переглянути існуючі синтаксичні теорії, а також точніше визначити основні поняття синтаксису, розробляти нові методи його вивчення. Заново були поставлені основні проблеми синтаксису: проблема його об'єкта, співвідношення із семантикою й морфологією; проблема слова, групи, фрази як синтаксичних одиниць, а також проблема основних понять синтаксису: відношення (зв'язку), функції, структури, формальних показників.

Із суми спостережень над текстом лінгвіст здобуває первісну уяву про спосіб організації тексту й у вигляді чітких процедур - правил алгоритму - повідомляє автомату свої дії, а потім за його допомогою одержує на більшому матеріалі дані, що цікавлять дослідника.

У роботах з АСА прийнято два способи опису синтаксичної структури:

1) опис за безпосередніми складниками (БС);

2) опис за допомогою дерев залежностей, які називають деревами синтаксичного підпорядкування.

Ці два способи допомагають описати синтаксичну структуру на двох рівнях:

а) за допомогою БС описуються в явному вигляді словосполучення, але не розпізнається "хазяїн" і "слуга";

б) дерева залежностей дають можливість розрізнити характер зв'язків між словами. Якщо в результаті роботи алгоритму АСА встановлюються зв'язки, які більш-менш відповідають інтуїтивним уявленням носіїв мови, значить синтаксична структура речення "визначена" правильно.

Завдання АСА полягає у тому, щоб, використовуючи морфологічну інформацію про словоформи, одержану на попередньому морфологічному етапі, побудувати синтаксичну структуру вхідного речення. Об'єктом аналізу є речення, яке до моменту синтаксичного аналізу подається у вигляді інформаційних ланцюжків до словоформ. Виконувати синтаксичний аналіз повинен алгоритм СА, тобто інструкція, яка складається зі стандартних елементів, що здійснюють певну послідовність операцій над словоформами. Результатом аналізу є синтаксична структура речення, представлена як сукупність даних про синтаксичні зв'язки між його одиницями.

При автоматизованому синтаксичному аналазі слід звернути увагу на:

класифікації синтаксичних зв'язків;
визначення статусу мінімальної та максимальної синтаксичної одиниці;
вибір формальних ознак для здійснення АСА;
можливості аналізу сурядних зв'язків за допомогою ГЗ;
подолання протиріччя між лінійною морфологічною структурою речення та його багатомірною синтаксичною структурою;
формального відображення синтаксичної структури речення у вигляді ДЗ.

9. Законодавство з видавничої справи. Загальна характеристика. Основу чинного законодавства України про видавничу справу становлять Конституція України, закон України «Про видавничу справу», «Про інформацію», «Про авторське право і суміжні права», Господарський кодекс України та інші законодавчі акти.

Закон України «Про видавничу справу» - загальні зачади видавничої справи, регулює порядок видавничої діяльності, визначає права та обов’язки видавця, визначає складові видавничої справи, дає визначення поняттю видавнича діяльність.

«Про авторське право і суміжні права» - визначає обов’язки та права автора.

1 / 131 2 3 4 5 6 7 8 9 10 11 12 13 > Следующая >>>

Соседние файлы в папке Основи редагування

#
12.05.2015733.18 Кб51!!!!!!!!!!!!!!!!!!!!!!!!!!!.doc
#
12.05.201559.39 Кб24Бiлети_з_основ_редагування.doc
#
12.05.2015192 Кб66Ответы_на_вступ.doc
#
12.05.201575.39 Кб4письмо.jpg