
- •2. Становлению новых компьютерных технологий способствовали достижения в области технического, программного и информационного обеспечения.
- •10. Порождение (построение) нового текста
- •2. По изменчивости:
- •3. По полноте:
- •4. По предметной области
- •3. Эмпирико-теоретические
- •2. Процесс обработки инфы очень сложен. Человек постоянно участвует во всевозможных процессах. Информационные процессы протекают не только в человеческом обществе, но и в растительном и животном мире.
- •1. Разомкнутые ис – системы, в которых получаемая потребителем инфа используется произвольно, а после получения инфы от потребителя в систему ничего не поступает.
- •3. Моделирование как основной метод решения задач в области ис
- •4. Общие принципы решения лингвистических задач методом моделирования
- •4. В 1 000 000 раз увеличилось быстродействие компьютера, вырос объем памяти
- •2. Устройства вывода – устройства для вывода инфы из памяти компьютера пользователю.
- •1. Матричные – это принтеры, у которых печатающая головка состоит из иголок – матрицы. Через красящую ленту отпечатываются символы. Низкое качество печати (банки, сберкассы)
- •3) Лазерные – позволяют достичь высокого качества печати. Технология - частички порошка (тонера) под воздействием луча лазера, высокой температуры вплавляются в лист бумаги.
- •4) Сублимационные – используются в полиграфии. Позволяют получить фотографическое качество печати.
- •1. Односторонние однослойные 4,7 Гб
- •2. Однослойные двусторонние 9,4 Гб
- •3. Односторонние двухслойные 8,5 Гб
- •4. Двусторонние двухслойные 17 Гб
- •1 Микропроцессор создан в 1971 г. Фирма Intel, 4-х разрядный, 75 кГц, 60 тысяч операций в сек, постоянно совершенствовался.
- •2007 Г. – более 2 млрд. Транзисторов
- •3) По совместимости
- •Ibm pc Intel используют в бизнесе для обработки текстов, для работы с большими базами данных, изначально предназначались для обмена инфой, телекоммуникаций
- •3. Назначение и основные функции прикладных программ
- •4. Прикладные инструментальные средства
- •5. Понятие о виртуальной реальности
- •2. Системное по – все по, которое используется для работы и обслуживания компа.
- •1. Автономные операционные системы - а отдельном компе могут работать
- •2. Сетевые, которые используются при создании сети. По архитектуре: - клиент – клиент, где все компы равноценны и выполняют одинаковые функции
- •3 Условия:
- •1. Компьютерная сеть – совокупность компов, которые могут осуществлять информационное взаимодействие друг с другом через линии связи.
- •1982 Г. – сеть стала международной
- •Ip добавляет к каждой порции служебную инфу с адресами отправителя и получателя и обеспечивает доставку всех пакетов.
- •1. Www (world wide web) совокупность взаимосвязанных гипермедийных документов
- •3. Telnet – система для удаленного управления компом
- •Internet как средство обмена информации:
- •1. Автоматическое чтение текста
- •1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
- •1. Подготовительный – референт читает текст, пытается понять и осмыслить документ в целом
- •1. Комп по каждому абзацу текста составляет алфавитно-частотный словарь
- •3. Машинный (автоматический) перевод
- •1. Информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста
- •1. Кратко изложить его содержание (аннотация, реферат)
- •1. Знания о языке, на котором написан текст
- •1. Стратегического (должно быть принято решение, что писать)
- •1. Ввод новой записи
- •1. Письменный лексикон
- •2. Письменные текстовые массивы
- •3. Фонетические лингвистические ресурсы
- •1. Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.
- •3D графика позволила археологам воссоздать древние умершие города. Палеонтологам - увидеть вымерших животных.
- •2. Пк на базе молекул дик
- •3. Квантовые пк еще более компактное устройство, у которого в качестве битов выступают квантовые объекты (кубиты).
1. Стратегического (должно быть принято решение, что писать)
2. тактического (как писать)
Результатом выполнения первого этапа должно стать смысловое представление будущего текста. А результатом выполнения второго – сам текст в языковой форме.
В общем классе в системе автоматического порождения текста должны быть представлены 3 взаимосвязанных компонента:
1. оболочка
2. планировщик
3. лингвистический редактор
Оболочка определяет назначение порождающей системы (компьютерная обучающая система или система моделирующая процесс создания сказки…) В оболочке также содержится вся база знаний, которая состоит из двух частей:
1. нелингвистической (предметной) в которую входят понятия, связи и отношения между понятиями конкретно-предметной области, к которой обносятся порождаемый текст, т.е. которая включает формализованные сведения о конкретном языке, на которых генерируется текст (списки морфем, словарь с лексикой, синтаксические структуры предложение, семантико-синтаксические структуры абзацев и всего текста).
Основные функции планировщика:
1. определяет ту инфу, которая должна быть представлена в тексте
2. определяет как инфа должна быть представлена
3. осуществляет построение синтаксической структуры предложений
4. определяет порядок следования абзацев в тексте
5. осуществляет выбор соответствующей лексики
Все эти задачи планировщик решает с порой на оболочку.
Лингвистический реализатор обеспечивает грамматическую правильность порождаемого текста и принимает окончательные синтаксические и морфологические решения.
Виды компьютерных систем порождения текста:
1. система, работающие на основе шаблонных технологий. Они строят будущий текст, манипулируя готовыми предложениями, словосочетаниями, как строительными блоками.
Эти системы достаточно просты и надежны, находят широкое промышленное применение. Содержание порождаемого текста представлено в виде фрагментов, созданных ранее людьми, следовательно выглядят естественно.
2. компьютерные системы, работающие на основе лингвистически-мотивированных технологий. В это случае для создания текста системе необходимы знания структуры содержания порождаемого текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами. Для создания таких систем необходимо изучить жанровые характеристики текстов, приемы организации содержания этих текстов. Промышленных систем не существует.
Системы распознавания речи
Несмотря на то, что проблемами распознавания устной речи ученые занимаются более 60 лет, до сих пор она в полном объеме не решены. Под распознавание речи компом в полном объеме понимается такое распознавание, которое подобно восприятию речи человеком в любых условиях. Механизм восприятия речи человеком обладает высокой степенью надежности. Решения проблемы распознавания речи в полном объеме мешают следующие факторы:
1. не существует четких теоретических представлений, которые бы описывали весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов
2. слитно произнесенная речь обладает следующими свойствами – границы слов размыты. Во многих языках, где существуют согласные, которые не произносятся, но пишутся, и если знаменательные слова произносятся отчетливо, то функциональные слова нечетко и даже могут исчезать.
3. в голосе говорящего человека всегда присутствует экстралингвистическая инфа, свидетельствующая о его особом эмоциональном состоянии, указывающая на возраст, пол, национальность
4. в процессе речевого общения большое значение имеют паралингвистические средства коммуникации: кинесика (мимика, жесты, позы), фанация (характеристики голоса человека), проксемика (расстояние между людьми). Исходя из вышеизложенного, сегодня автоматическое распознавание речи может осуществляться только при наложении определенных ограничений на процесс распознавания:
- распознавание изолированно произнесенных слов
- распознавание речи с предварительной настройкой на голос конкретного пользователя
- распознавание речи с опорой на небольшой, заранее определенный словарь
Промышленно-реализованные системы распознавания устной речи можно разделить на 4 группы:
1. средства речевого управления (ПК, мобилки, бытовая техника)
2. средство диктовки, позволяющее голосом вводить текстовую инфу
3. информационно-справочные системы, работающие в диалоговом режиме в качестве автоответчика
4. средство идентификации человека по образу речи
Системы автоматического синтеза речи
3 основных метода автоматического синтеза речи:
1. кодирование (запись в двоичной системе речевых сигналов с их последующим. Это один из самых элементарных подходов к созданию говорящего компа.
Комп в данном случае выступает как устройство для записи речи – магнитофон, слова и фразы, записанные ранее в комп в нужный момент воспроизводятся по командам, поступающим из соответствующей программы.
Возможность сказать слово или фразу, которые не были заранее занесены в память, здесь отсутствует. Еще недостаток – для хранения речевых сигналов в их непосредственной форме нужна память значительного объема. Полученная таким образом речь по качеству приближается к человеческой.
2. фонетический синтез речи (акустическое моделирование голосового тракта человека) Принципиально отличается от описанного выше метода и имеет неестественное звучание. Синтезатор говорит голосом робота. Этот метод осуществляется по орфографическому тексту, написанному человеком. Комп умеет преобразовать буквы в фонемы, определить словесное фразовое ударение, интонацию, с которой нужно прочитать каждое предложение, преобразовать фонемы в их варианты алфавита и синтезировать непрерывный речевой сигнал с использованием аллофонов конкретного диктора, выбираемых из базы данных.
По мере совершенствования, речь синтезатора становится все более разборчивой. Этот метод синтеза речи весьма перспективен, т.к. речь действительно генерируется самим компом.
3. математическое моделирование голосового тракта человека. Словарь в синтезаторе этого типа как и в первом методе обычно создается с участием человека, но в данном случае в память ПК записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз. Такой подход позволяет значительно уменьшить объем необходимой памяти. В этом заключается одно из главных достоинств метода. Синтезированная речь звучит естественно. Для ее генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.
Наиболее перспективным является второй метод. В настоящее время специалисты работают над тем, чтобы речь звучала живо, естественно и эмоционально.
Лингвистические информационные ресурсы ЛИР и базы данных БД
БД – это совокупность определенным образом упорядоченных сведений о некоторых объектах. Объекты могут быть материальными (студент) и нематериальными (процесс, явление). Каждый объект обладает свойствам (атрибутами), которым присваиваются определенные значения.
№ студенческого билета |
Ф.И.О. |
Дата рождение |
Факультет |
№ группы |
Стипендия (код) |
25989 |
Сидоров |
1991 |
перевод. |
102 |
100.000 (С-1) |
25590 |
Иванов |
1992 |
перевод. |
109 |
120.000 (С-2) |
Данные, которые составляют первую строку, называются записью. Чтобы пользователь мог обратиться к записи, ее необходимо идентифицировать, т.е. выбрать ключ (идентификатор), по которому будет выводиться инфа.
Код |
Стипендия |
С-1 |
100.000 |
С-2 |
120.000 |
Действия, которые можно производить над данными в БД: