
- •Примеры ит в обучении языка
- •2. По изменчивости:
- •3. По полноте:
- •4. По предметной области
- •Эмпирические (полученные опытным путем) - наблюдение, сравнение, измерение, эксперимент, опрос, интервью, тестирование
- •Теоретические (теории, гипотезы) - восхождения от абстрактного к конкретному (получение знаний о системе на основе знаний о его проявлениях в сознании/мышлении).
- •3. Эмпирико-теоретические
- •2. Процесс обработки инфы очень сложен. Человек постоянно участвует во всевозможных процессах. Информационные процессы протекают не только в человеческом обществе, но и в растительном и животном мире.
- •3. Моделирование как основной метод решения задач в области ис
- •3 Устройства хранения инфы
- •1982 Г. – сеть стала международной
- •Ip добавляет к каждой порции служебную инфу с адресами отправителя и получателя и обеспечивает доставку всех пакетов.
- •2)В настоящее время сеть Интернет используется как:
- •1. Www (world wide web) совокупность взаимосвязанных гипермедийных документов
- •3. Telnet – система для удаленного управления компом
- •Internet как средство обмена информации:
- •3. Машинный (автоматический) перевод
- •4. Понимание-объединение
- •5. Понимание-объяснение
- •3D графика позволила археологам воссоздать древние умершие города. Палеонтологам - увидеть вымерших животных.
- •2. Пк на базе молекул дик
- •3. Квантовые пк еще более компактное устройство, у которого в качестве битов выступают квантовые объекты (кубиты).
3. Машинный (автоматический) перевод
МТ (Machine Translation)
Машинный перевод – это выполняемое компом действие по преобразованию текста на одном естественном языке в текст на другом естественном языке при сохранении эквивалентности содержания, а также результат такого действия.
Специалисты утверждают, что такой перевод невозможен, поскольку большинство слов имеют несколько значений, то основная трудность при переводе заключается в выборе нужного значения.
Реально автоматический перевод возможен только в условиях искусственно ограниченного языка (как по словарному запасу, так и по грамматике)
Человек, как правило, участвует в процессе перевод (предредактор упрощает текст, постредактор – редактирует)
Виды машинного перевода
1. информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста
2. профессиональный – качество перевода сравнимо с качеством «человеческого» перевода и при небольшом редактировании является удовлетворительным
3. персональный (авторский) – где авторы подлежащих переводу текстов заранее избавляют их от неоднозначности и работают в режиме диалога с компом.
Наиболее популярные системы машинного перевода:
- Сократ
- SYSTRAN
- PROMT – семейство продуктов, включающих в себя возможность перевода с английского, французского, немецкого, испанского и итальянского языков на русский и наоборот.
В последних версиях встроен модуль ТМ, который позволяет использовать ранее переведенные фрагменты.
Положительные факторы:
1. удобны при обработке переводов (встроен модуль OCR, Fine Reader)
2. возможность форматировать текст перевода
3. имеют удобные возможности для поиска слов и выражений в электронных словарях
4. позволяет ускорить перевод, освободив от необходимости повторного перевода того, что уже было переведено ранее (при использовании ТМ)
5. можно доверить перевод конфедициальной инфы
6. значительно дешевле
7. системы машинного перевода облегчают просмотр web страниц в интернете
Структура системного машинного перевода и назначение ее основных блоков
Система МП (машинного перевода) является моделями, которые воспроизводят на ПК речевое поведение чела, переводящего текст с одного языка на другой язык.
Автоматический двуязычный словарь |
Синтаксические соответствия |
1. Процессы морфологического анализа слов/предложений исходного языка. Каждое слово получает набор лексико-грамматических признаков. ПК формирует эти наборы с опорой на автоматический словарь.
2. Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения, определяет структуру предложения.
3. Синтаксический синтез переводного языка:
- создание предложения переводного языка определенной синтаксической структуры, определяемой правилами исходного и переводного языка
- замена слов исходного языка на их переводные эквиваленты
4. Морфологический синтез переводного языка сводится к постановке слов переводного языка в нужной форме числа, рода, падежа, опираясь на автоматический словарь, в котором хранятся все лексико-грамматические формы слов.
При создании автоматического словаря решаются следующие задачи:
1. выбор типа лексической единицы для словаря:
а) в виде словоформ, т.е. в автоматический словарь заносятся всевозможные формы лексической единицы, которые подаются гнездами
б) в виде квазиосновы (блок #...)
- числа, стоящие после решетки (001, 002) условно обозначают те наборы суффиксов и окончаний, которые необходимо присоединить к основе, чтобы получить соответствующие формы слова
2. выбор типа лексической единицы зависит от:
- от типа языка (для русского, немецкого, белорусского – квазиоснова, для английского, французского – словоформа)
- от объема словаря
- от типа системы машинного перевода (для информативного перевода – квазиоснова, для профессионального – словоформа)
3. отбор лексики для входного и подходящие эквиваленты для выходного словаря
4. создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков
В словарной статье выделяют четыре зоны:
1. зона морфологических сведений
2. зона семантических сведений
а) принадлежность к определенному семантическому подклассу
б) переводные эквиваленты
3. зона синтаксических сведений (управление глагола или предлога)
4. зона лексических сведений
а) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому-то языку)
б) использование лексической единицы как части фразеологизма
Понимание и порождение письменной и устной речи с помощью ПК
Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компы, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченные конкретной предметной областью базы знаний.
Базы знаний – это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.
Компьютерные системы понимания текста
Существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимопонимание и поступки действующих лиц. Более простыми являются тексты, содержащие описание фрагментов статического мира, т.е. научные книги, статьи. Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК инфы. Полученная в результате понимания инфа может пополнять базу знаний компьютерной системы или может быть передана пользователю.
Под передачей понятого пользователю имеют в виду способность компа отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.
Согласно современным теориям автоматического понимания текста комп понял текст, если он может:
1. кратко изложить его содержание (аннотация, реферат)
2. ответить на вопросы к этому тексту
3. на основе текста нарисовать картинку или схему
4. приведенные в тексте сведения представить в другой форме (таблица, график)
5. на основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом
6. сравнить содержание двух разных текстов и выдать инфу, что в них общего и в чем различия
7. путем анализа одного или нескольких разных текстов извлечь такие знания, которые можно поместить в некоторую базу знаний
Соотнося уровни понимания текста компом с основными уровнями языка, можно выделить следующие уровни автоматического понимания:
1. морфологический
2. синтаксический
3. семантический
4. гиперсинтаксический или прагматический
Морфологическое понимание сводится к автоматическому приписыванию каждому слову текста его морфологических признаков. Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов предложения и установления между ними различных типов связи. В процессе семантического понимания текста автоматически устанавливаются значения, выделенные на синтаксическом уровне, составляющих предложение (подлежащее – одушевленное/неодушевленное, сказуемое – глагол движения/чувствования, обстоятельство – места/времени/действия)
Связано с выяснением семантических отношений между предложениями текста и с выявлением соответствующей тексту ситуации реальной действительности.
Типы автоматического понимания
Компьютерная система, понимающая письменный текст, должна иметь в своей базе данных следующую инфу:
1. знания о языке, на котором написан текст
2. правила использования знаний о языке
3. знания о реальном мире (предметной области)
4. правила использования знаний о фрагменте реальной действительности (предметной области)
5. знания о пользователе системы, желающем получить от ПК некоторое понимание, вложенного в его память текста
В зависимости от сложности использования знаний и их количества различают следующие типы автоматического понимания:
1. понимание-узнавание
Компьютерная система должна меть знания лишь о языке. Суть понимания сводится к тому, что ПК узнает морфологическую структуру каждого слова в предложении, проводит синтаксический анализ, узнает в исходном тексте ключевые слова, словосочетания и предложения
2. понимание-уподобление
Правила их использования. Считается, что эта система понимает текст, если она может ответить на вопросы по этому тексту. При этом понимании ПК просто находит готовые ответы в своей базе знаний, ранее занесенные человеком. Таким образом, ПК уподобляется человеку.
3. понимание-прогнозирование
Для очень узкой предметной области. ПК должен иметь:
- знания о языке
- правила их использования
- знания по предметной области
Считается, что система понимает текст, если она может определить какой объект или предмет, или событие предметной области соответствует отдельным фрагментам этого текста. Однако одним и тем же фрагментом текста могут соответствовать различные объекты или события. Поэтому соотносить их можно лишь с определенной степенью вероятности – отсюда термин «прогнозирование»