- •Экзаменационные ответы по общему языкознанию (на 2012-13 учебный год):
- •Вопрос 1. Языкознание как гуманитарная дисциплина и его место в системе научного знания о человеке
- •Вопрос 2. Современная структура знаний о языке
- •Вопрос 3. Определение языка
- •Вопрос 4. Общелингвистическая методология в аспекте философских подходов
- •Вопрос 5. Физиолого-акустическая и социальная сущность языка
- •Вопрос 6. Социально-деятельностные основы вербальной коммуникации
- •Вопрос 7. Текст и коммуникация. Основные понятия теории текста
- •Вопрос 8. Коммуникативный анализ речевых единиц
- •Вопрос 9. Речемыслительная деятельность автора и порождение текста Механизм речемыслительной деятельности
- •Модель порождения речи
- •Вопрос 10. Речемыслительная деятельность реципиента Процесс порождения речи
- •Взаимодействие автора и адресата
- •Восприятие и понимание текста
- •Вопрос 11. Герменевтика и проблема понимания
- •Вопрос 12. Социальная обусловленность языка
- •Вопрос 13. Специфика обслуживания языком общества
- •Вопрос 14. Задачи и методы социолингвистики
- •Вопрос 15. Понятие языковой ситуации, языковой политики, языкового строительства
- •Вопрос 16. Актуальные проблемы языковой политики на современном этапе (в России)
- •Вопрос 17. Проблема соотношения языка и мышления
- •Вопрос 18. Современные представления о психофизиологической основе мышления
- •Вопрос 19. Понятие языковой способности человека и его речевой деятельности
- •Вопрос 20. Развитие детской речи
- •Вопрос 21. Психолингвистика. Идеи и методы исследования
- •1) Объект психолингвистики
- •2) Предмет психолингвистики
- •3) Методы психолингвистики
- •4) Сущность психолингвистики
- •Вопрос 22. Концептуальная картина мира
- •Вопрос 23. Языковая картина мира
- •Вопрос 24. Языковая личность
- •Вопрос 25. Понятие о вторичной языковой личности
- •Вопрос 26. Понятие системы и структуры в языкознании. Уровневая модель языковой структуры
- •Вопрос 27. Уровни языка и единицы
- •Вопрос 28. Фонология. Основные фонологические школы. Трактовка основных фонологических понятий
- •Вопрос 29. Грамматика. Основные грамматические традиции мира. Влияние греко-латинской традиции
- •Вопрос 30. Грамматика и логика. Грамматика формальная и функциональная
- •Вопрос 31. Грамматическая категория и грамматическое поле
- •Вопрос 32. Лексикология. Свойства слова
- •Вопрос 33. Семасиология, понятие значения. Принцип номинации
- •Вопрос 34. Лингвистическая типология. Специфика универсальной и специальной, общей и частной типологии
- •Вопрос 35. Проблема языковых универсалий
- •Вопрос 36. Прикладная лингвистика
- •Вопрос 37. Лингвистические аспекты искусственного интеллекта. Текстовые процессоры
- •Вопрос 38. Искусственные языки
- •Вопрос 39. Лингвостатистические методы
- •Вопрос 40. Новые информационные технологии в лингвистике
- •Вопрос 41. Основные методы в лингвистике. Технические приёмы и процедуры
- •Вопрос 42. Сравнительно-исторический метод
- •Вопрос 43. Дистрибутивный анализ
- •Вопрос 44. Анализ по непосредственно составляющим и трансформационный анализ
- •Вопрос 45 Общелингвистическая методология в аспекте психологических подходов
- •Вопрос 46. Коммутационный метод
- •Вопрос 47. Характерологическая, историческая и контенсивная лингвистическая типология
- •Вопрос 48. Моделирование языковых процессов
- •Литература:
Вопрос 39. Лингвостатистические методы
Лингвистическая статистика (лингвостатистика) – 1) в широком смысле: область применения статистических методов в языкознании; 2) в узком смысле: изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте. Наиболее распространённый метод анализа, основанный на так называемом законе Ципфа, сводящемся к уравнению виду: F × i = const (бесконечность), где F – частота слова в частном словаре, а i – ранг этого слова, т.е.номер в списке слов, упорядоченном по уменьшающейся частоте. С поправочными коэффициентами Б. Мандельброта закон подтверждается на многих и разнообразных текстах. Таким образом, закон Ципфа выступает как модель описания распределения слов по частоте, однако вводимые на каждый случай поправочные коэффициенты в значительной мере лишают его предсказательной силы. Существуют и другие подобные модели (работы Г. Хердана, Дж. Б. Кэролла). Проблема связи частоты слова и его ранга смыкается с проблемой оценки лексического богатства текста или совокупности текстов. Обычно лингвостатистика рассматривается как лингвистическая дисциплина, однако, будучи связанной по материалу с языкознанием, она ещё не наполнилась собственным лингвистическим содержанием. В частности, лингвистическая интерпретация закона Ципфа остаётся предметом дискуссий.
Суть лингвостатистических методов заключается в установлении количественных изменений, вызывающих качественные преобразования языковых явлений. Благодаря использованию математических методов исследования языка в рамках лингвостатистики было выявлено, что частота появления тех или иных языковых элементов в речи подчиняется определённым статистическим законам (закономерностям). Это позволяет на основе статистических данных сформулировать определённые закономерности функционирования единиц языка и построения текста.
Лингвостатистический метод широко применяется в современной лексикологии и стилистике. Он используется для изучения как явлений языка, так и явлений речи. Например, с помощью лингвостатистического метода лингвисты изучают количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи. В результате лингвостатистического изучения языка появились частотные словари.
Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем), а также в методике преподавания языков.
Вопрос 40. Новые информационные технологии в лингвистике
НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Человечество развивается благодаря генерированию информации. Нет необходимости доказывать, что для человека информация такой же энергетический продукт, как и пища. Чтобы быть хозяином положения в новой сфере, избранной области знаний или бизнеса, необходимо быть курсе научно-технических событий, экономических, политических и финансовых ситуаций в ближнем и дальнем окружении, информационное невежество неумолимо приводит к банкротству
В 50-е годы академик А. А. Харкевич сформулировал закон: «Информация растет пропорционально квадрату национального дохода страны». Сейчас мы убеждаемся, что преобладающую часть мирового информационного массива генерируют высокоразвитые страны.
Огромную ценность для информационного общества приобретают информационные ресурсы – это библиотеки, архивы, музеи, банки данных, знания каждого человека. В последние десятилетия мировой информационный ресурс достиг колоссальных размеров и продолжает стремительно возрастать.
Техническую основу оперирования и поиска информации составляют информационные технологии, являющиеся результатом сочетания компьютерной техники, техники передачи и воспроизведения информации. Они позволяют любому человеку, имеющему технические средства доступа, получать независимо от расстояния нужную информацию в нужное время в удобной для него форме. Жизненно важным остаётся тезис: «Кто располагает нужной информацией, тот оказывается лидером положения».
Новые информационные технологии – это комплекс научных и инженерных знаний, воплощенных в аппаратных средствах компьютера; алгоритмическом и программном обеспечении с использованием средств связи.
Информационные технологии существенным образом повышают эффективность человеческой деятельности за счёт автоматизации об работки информации и вычислений
Информационные технологии обладают интегрирующим свойством по отношению ко всем остальным технологиям. Так, в информационных системах, в которых моделируются процессы реальных отношений (промышленное предприятие, транспортная фирма, банк, спортивная ассоциация, страховая компания и пр.), на компьютерной базе происходит своеобразный синтез разнообразных знаний в определённой предметной области. За счёт предварительной формализации этими знаниями можно манипулировать и анализировать ситуации. Базы данных, а затем и базы знаний позволяют осуществить некоторую автоматизацию научной деятельности.
Можно без преувеличения сказать, что информационные технологии формируют передний край научно-технического прогресса, создают информационный фундамент развития науки и других технологий.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЛИНГВИСТИКЕ
Конкретизируя определение понятия «информационные технологии» по отношению к лингвистике, можно сказать, что информационные технологии в лингвистике – это совокупность законов, методов и средств получения, хранения, передачи, распространения, преобразования информации о языке и законах его функционирования с помощью компьютеров. Если соотнести это определение с теми задачами, которые решает современная прикладная лингвистика, то можно отметить, что понятие «информационные технологии» в лингвистике относится к основным задачам прикладной лингвистики.
К их числу можно отнести:
1) создание систем искусственного интеллекта;
2) создание систем автоматического перевода;
3) создание систем автоматического аннотирования и реферирования текстов;
4) создание систем порождения текстов;
5) создание систем обучения языку;
6) создание систем понимания устной речи;
7) создание систем генерации речи;
8) создание автоматизированных информационно-поисковых систем;
9) создание систем атрибуции и дешифровки анонимных и псевдоанонимных текстов;
10) разработка различных баз данных (словарей, карточек, каталогов, реестров и т.п.) для гуманитарных наук;
11) разработка различного типа автоматических словарей;
12) разработка систем передачи информации в сети Интернет и т.д.
Эти комплексные задачи включают целый ряд более мелких проблем. К их числу относится автоматизация следующих процессов:
1) построение словарей текстов;
2) морфологический анализ слова;
3) определение значения многозначного слова;
4) синтаксический анализ предложения;
5) поиск слова в словаре;
6) порождение предложения и т.д.
АВТОМАТИЧЕСКОЕ ЧТЕНИЕ ТЕКСТА
В процессе сканирования и распознавания текста документа OCR-системы автоматически подбирают яркость сканирования, фрагментируют каждую страницу, выделяя в ней области графических иллюстраций и таблиц, распознают символы текста, проверяют орфографию распознанных слов и показывают окончательный результат в текстовом редакторе.
OCR-системы позволяют распознавать печатные символы почти двух сотен языков. Хорошо распознаются рукопечатные символы, т.е. символы, написанные от руки печатными буквами с небольшим интервалом между ними.
OCR-системы узнают все используемые в тексте документа шрифты без предварительного обучения, хорошо воспринимают полужирный, курсивный, слипшийся, подчеркнутый и многоколоночный текст. Изначально в мире преобладали системы автоматического чтения текста, требующие обучения каждому новому шрифту (новой гарнитуре, стилю, размеру и т.д.). Такие системы называли мультифонтовыми (от англ. font – 'шрифт'). Противоположным классом ORC-систем являются так называемые интеллектуальные программы, именуемые ещё омнифонтовыми. Их не нужно обучать, эти программы распознают разные стилевые начертания одной и той же буквы не потому, что их обучили различным гарнитурам шрифтов, а потому, что они знают топологию (правила начертания) этой буквы.
Системы способны самообучаться и распознавать плохо пропечатанные символы или символы незнакомых программе языков.
Наряду со сплошными текстами (без таблиц и иллюстраций) программы автоматического чтения текста хорошо распознают:
а) тексты с графикой, подписями, логотипами;
б) таблицы;
в) тексты, напечатанные на цветном (гербовом) фоне;
г) тексты разноформатных документов (например, чертежей).
OCR-системы поддерживают все модели сканеров и любые графические форматы. Появились и широко используются сетевые версии программ автоматического чтения текста.
Программы автоматического чтения текста поддерживают публикацию бумажных документов в глобальной сети Интернет. В процессе распознавания и генерации HTML-страницы её оформление производится по всем правилам Web-публикации.)
Точность распознавания OCR-систем на текстах хорошего и среднего качества достигает 97–99%.
Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, выделения текстовой информации на фоне шумов (например, распознавание номерных знаков автомобилей), а также интеграции OCR-систем с различными программами обработки информации (системами машинного перевода, системами автоматического аннотирования и реферирования текстов, электронными архивами, системами автоматизации делопроизводства и т.д.).
АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА
Рефератом будем называть связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы., основные результаты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам – научным книгам, статьям, патентам на изобретение и т.п. Поэтому в приведенном определении и говорится о «методах и основных результатах описанного исследования или разработки». Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию. Процесс составления реферата называется реферированием.
Аннотацией называют краткое изложение содержания документа, дающее общее представление о его теме. Таким образом, если реферат в краткой форме знакомит читателя с сутью излагаемого в документе содержания (фактами, методикой, экспериментами и т.п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определённую тему. Процесс составления аннотации называется аннотированием.
Научно-технический прогресс привел к появлению большого числа публикаций по самым разным проблемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по всей области знания. Для этого, как установлено, человек должен был бы прочитывать ежедневно 1500 страниц текста на разных языках, что явно превышает его физические возможности. Поэтому для оперативного знакомства с новейшими публикациями используются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных журналах (РЖ) и реферативных сборниках
Реферирование и аннотирование текста являются довольно сложными и трудными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов и других специалистов новейшая информация доходит очень медленно, что, в свою очередь, ведёт к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших методик, технологий, процессов. Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют новые компьютерные технологии.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОБУЧЕНИИ ЯЗЫКАМ
Широкое использование компьютеров в различных аспектах деятельности человека не обошло стороной проблему обучения человека языкам. Уже сейчас создано большое число компьютерных программ обучения иностранным языкам. Эти проблемы рассматриваются в журналах, выпускаемых по всему миру. Ежегодно проблемам обучения языкам посвящается большое число конференций.
Сложность задачи обучения языкам объясняется тем, что любое обучение – задача комплексная, требующая учета данных психологии, педагогики, методики, особых свойств изучаемого предмета. По существу, каждая обучающая программа – это достаточно сложная система искусственного интеллекта.
За последние годы значительно изменился принцип применения компьютерных программ для обучения иностранному языку. Если ранее утверждалось, что наиболее эффективно они могут быть использованы в рамках автоматизированных обучающих систем, то с появлением компьютеров в доме обучаемых такие программы всё (чаще используются индивидуально и подбираются в зависимости от цели обучения. Однако принципы построения таких обучающих; программ в целом остались неизменными.
Они реализуются путём выполнения следующих основных задач:
1) теоретического обоснования выбираемого метода обучения
2) создания с опорой на выбранный метод технологии обучения
3) построения обучающей программы, реализующей выбранную технологию обучения.
С точки зрения принципов восприятия информации при обучении с помощью компьютера выделяют, как правило, два теоретических подхода: бихевиористский и когнитивно-интеллектуальный.
Бихевиористский подход, связанный с постулатом «чем чаще употреблено слово, тем лучше оно запоминается», в последние годы усовершенствовался использованием целого ряда приемов: дедуктивного контроля ответов, созданием универсальных банков данных об изучаемом объекте или явлении, построением справочной информации в виде гипертекстов и т.д.
В рамках такой теории различают следующие методы автоматизированного обучения:
1) программирование учебной деятельности обучаемого;
2) тестирование;
3) информирование.
Первый из этих методов обучения характерен тем, что управляющие воздействия на обучаемого полностью определяются обучающей программой. В такой программе каждому обучаемому в зависимости от его уровня знаний полностью задается последовательность учебных или контрольных заданий.
При тестировании компьютер по специальным программам выявляет индивидуальные профессиональные и психологические характеристики обучаемых и достигнутые ими уровни знаний. При этом обучаемый лишь отвечает на вопросы, но оценку за знания не получает. Этот метод достаточно часто используется при оценке различных аспектов знания иностранных языков (тестирование словарного запаса, способности к изучению иностранных языков и т.п.).
Суть метода информирования заключается в том, что в память компьютера помещаются некоторые справочно-информационные данные (грамматический справочник, орфографический словарь, двуязычный словарь и т.п.), которые обучаемый может использовать при подготовке к занятиям или непосредственно в процессе занятий. Тем не менее бихевиористский подход не может преодолеть механистичность обучения и отсутствие развития когнитивных способностей обучаемых.
При когнитивно-интеллектуальном подходе у обучаемого активизируются познавательные функции. Для успешной реализации такого подхода в памяти компьютера создается универсальная учебная среда, включающая различные грамматические справочники, словари, спеллеры, другие вспомогательные материалы.
При таком подходе в принципе возможны следующие методы автоматизированного обучения:
1) моделирование учебной среды;
2) свободное обучение.
Суть процесса моделирования учебной среды сводится к созданию компьютерных программ, которые моделируют структуру некоторого объекта или принципы его действия. При этом, как и при бихевиористском подходе, управляющее воздействия также полностью определяются обучающей программой.
Таким образом, решая задачу теоретического обоснования выбираемого метода обучения, следует выбирать одну из описанных выше моделей обучения.
(создан на базе прошлогоднего реферата)
