
- •Математическая лингвистика: теория, практика и перспективы
- •Введение
- •Краткая история
- •Методики: описания строения предложения, синтаксические группы
- •Теория формальных грамматик
- •Метод симуляции человеческого развития
- •Структурный метод
- •Метод производства
- •Метод осознания
- •Использованные источники
Метод осознания
Львиная доля внимания современной математической лингвистики лежит на осознании и понимании. С распространением интернета и избытка легко добываемого письменного материала, возможность разработки программы, умеющей понимать человеческий язык, пестрит множеством интригующих перспектив, включая улучшенные поисковые системы, автоматизацию обслуживания и онлайн-обучение.
Из ранних работ по пониманию следует упомянуть применение статистики для оптического распознавания букв в 1959, когда был сгенерирован крупный словарь благодаря «заучиванию» с выставленных в качестве примера букв, а затем вычисление вероятности того, что некоторые из них совпадают с новыми данными, собранными для принятия решения.
В 1979 Терри Вайноград разработал ранний движок для обработки речи, способный интерпретировать письменные команды внутри сгенерированной среды. Основную программу в этом проекте назвали SHRDLU, которая могла вести приблизительно естественную беседу с пользователем, дающим команды, но только в пределах игрушечной среды для задачи. Эта среда состояла из блоков разной формы и цвета, а SHRDLU мог воспринимать команды вроде «Найди блок выше того, что ты сейчас держишь, и положи его в коробку» и отвечать чем-то вроде «Я не понимаю, какую пирамиду вы имеете в виду» в ответ на данные пользователя. Хоть и это впечатляло, подобная обработка языка оказалась гораздо труднее вне игровой площадки.
Похожий проект разработало NASA, проект, названный LUNAR, и спроектированный для ответа на письменно введённые вопросы о геологическом анализе лунных камней, привезённых миссиями «Аполлон». S
Первые шаги в сторону восприятия устной речи основывались на работах 60-70-х, в области моделирования сигналов, в которой анализировались неизвестные сигналы в поисках статистической моды и прогнозирования на основе истории моды.
Ныне такие статистические методы применяются для задач посложнее ― например, установка темы с использованием категоризации параметров и вероятностей в текстовых документах.
Вывод
По своему назначению математическая лингвистика является прежде всего инструментом теоретического языкознания. В то же время её методы находят широкое применение в прикладных лингвистических исследованиях.
Использованные источники
John Hutchins: «Retrospect and prospect in computer-based translation». Proceedings of MT Summit VII, 1999.
Ноам Хомский, «Синтаксические структуры», 1957.
Лингвистический энциклопедический словарь, 1990.
The Association for Computational Linguistics: «What is Computational Linguistics?», 2005.
Angus, D., Smith, A., & Wiles, J.: «Conceptual recurrence plots: revealing patterns in human discourse.», 2012.
Weizenbaum, J.: «ELIZA ― a computer program for the study of natural language communication between man and machine», 1966.