Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Итл.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
84.48 Кб
Скачать

Базы данных (бд) и лингвистические информационные ресурсы (лир)

БД – совокупность определенным образом упорядоченных сведений о некоторых объектах.

Объекты – это сведения, факты, события, процессы. Объект может быть материальным и нематериальным. В жизни каждый объект обладает определенными свойствами или атрибутами, которым приписываются определенные значения.

Например, база данных студент. Атрибуты - № зачетной книжки, ФИО, возраст, год рождения, стипендия.

Данные – это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента объекта некоторое значение.

Запись – группа данных, которая образует одну строку.

Файл – множество записей с одним форматом.

Базу данных образуют множество файлов.

Объект студент может быть записан в 3 файлах.

Функции БД:

- поиск информации в БД

- модификации информации, находящейся в БД:

Добавление

Удаление

Редактирование

Системы управления бд

СУБД – совокупность программных средств, позволяющих осуществлять создание и ведение базы данных.

Типы СУБД:

1.настольныые СУБД по степени сложности подразделяются:

- субд для обработки небольших объемов информации (ms outlook)

- субд, ориентированные на пользователя, не умеющего программировать (excel, lotus)

-сложные СУБД, ориентированные на разработку приложений (fox base, ms access)

2.серверные СУБД – используют архитектуру «клиент-сервер», т.е. осуществляют централизованное хранение и обработку данных (Informix, ms sql server).

Основные функции СУБД:

- обеспечить создание структуры БД (определить, какая информация будет храниться, какие атрибуты, типы данных)

- модификация информации, находящейся в БД:

Добавление

Удаление

Редактирование

- поиск информации

Лингвистические информационные ресурсы – множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (промышленность, культура и т.д.).

- активные: включают алгоритмы, модели, программы

- пассивные: книги, журналы, газеты, словари.

Пассивные

  1. письменный лексикон

- частотно-алфавитный словарь словоформ. Простейшая лингвистическая БД.

- словоуказатель более сложная. Указываются номера страниц и строк на странице, где встретилась данная словоформа.

- конкордансы. Еще более сложный тип БД. Каждая словоформа характеризуется также и некоторым контекстом, в котором эта единица употреблена. Как правило контекст состоит из 3 предложений. Словоформа будет находиться во 2 предложении.

- энциклопедии. Энциклопедия «британика».

- тезаурус. Иной тип словарей. Указанные семантические связи между определенной частью его единиц. тексты узкой проблемной области.

- термин. Осн единица – термин.

2. Письменный текстовый массив

Могут быть использованы

- в лексикографии и лексикологии. Для составления словарей, выделение терминов и т.д

- в грамматике. Употребление частоты. Выявление более употребляемых единиц.

- лингвистика текста. Создание конкордансов.

- автоматический перевод текстов

- в учебных целях

Таггированные корпусы текстов

Фонетические корпусы текстов

- сопоставительного изучения устной и письменной форм языка

- изучения грамматических и лексических особенностей устной речи

- исследования фонетических особенностей диалектов

- построения частотных списков фонем и их сочетаний

- изучения акустических свойств речевых единиц и их использование в психолингвистических и лингвистических экспериментах

- создания компьютерных систем распознавания и синтеза устной речи