
- •1. Соотношение теоретической и прикладной лингвистики. Основные задачи и методы прикладных лингвистических работ.
- •2. Декларативные и процедурные знания. Формы представления знаний в прикладной лингвистике. Фреймы, сценарии, планы, модели мира.
- •3. Ситуации и ключевые слова. Ключевые слова и текст. Ключевые слова и поисковый образ документа.
- •4. Теоретические и прикладные аспекты моделирования общения.
- •5. Гипертекст как особая форма передачи информации. Структурные и функциональные особенности гипертекста. Основные типы гипертекстов.
- •6. Квантитативная (количественная) лингвистика, ее лингвистические и математические основания. Структурно-вероятностная модель языка и ее приложения.
- •11. Прикладные аспекты лексикографии. Типология словарей. Компьютерная поддержка создания и использования словарей.
- •12. Структурные компоненты (зоны) словарной статьи. Параметризация лексики. Интегральное представление лексики в словаре.
- •13. «Новый объяснительный словарь синонимов русского языка» (рук. Ю.Д. Апресян) как словарь нового типа, отражающий системные связи лексики.
- •14. Частотные словари. Их создание и использование. Специфика информации, содержащейся в частотных словарях. Строение словарной статьи частотного словаря. Лексические зоны частотного словаря.
- •15. Компьютерная поддержка лексикографических работ. Автоматические словари.
- •16. Термин, терминология и специальные подъязыки. Прикладные работы в области терминологии. Стандартизация терминологической лексики.
- •18. Словари лингвистических терминов.
- •19. Корпусная лингвистика, ее идеология и основные понятия.
- •20. Текстовый корпус как модель коммуникативной сферы. Текстовая структура Британского национального корпуса.
- •21. Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.
- •22. Конкордансы и автоматические конкордансы. Автоматический конкорданс unilex.
- •23. Автоматический морфологический анализ и процедура лемматизации.
- •1. Маркеры - вставка маркеров абзаца и строки.
- •2. Сканирование - получение словника из текста.
- •3. Лемматизация - лемматизация полученного словника.
- •4. Сортировка - сортировка по [леммам и] словоформам.
- •5. Статистика - слияние, получение частоты и ранга.
- •6. Индекс - создание индекса к словнику.
- •6. Сортировка - получение алфавитного, частотного, обратного словника и по частям речи.
- •7. Печать - печать полученного словника.
- •24. Проблема переводимости. Переводческая эквивалентность.
- •25. Переводческие трансформации.
- •I. Лексические трансформации
- •1) Словообразовательные
- •3) Синтаксические
- •26. Лингвистические модели (теории) переводческой деятельности.
- •III. Семантическая модель (Кетфорд)
- •IV. Трехфазовая модель
- •VI. Теория уровней эквивалентности.
- •27. Специфика перевода текстов разных функциональных стилей.
- •I. Научные и научно-технические
- •II. Научно-учебный текст
- •III. Научно-популярный текст
- •IV Энциклопедические тексты
- •29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.
- •30. Контент-анализ, его идеология, основные понятия, использование.
29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.
Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.
Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписанию называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью.
Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.
Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и особенностям поиска ИПС — документальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокупность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризуется по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сетевые и реляционные. Наиболее распространены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столбцов.
Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для данной проблемной области семантические различия между документами, требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.
ИПЯ делятся на языки-классификации и языки дескрипторного типа. Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование.
Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.
В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.
На следующем этапе возникла технология лингвистического контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса (ИПТ). Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.