- •4 Курс, 7 семестр, специальность 080802
- •Общее понятие информационной системы. Компоненты информационных систем.
- •Отличия систем управления базами данных и информационных систем. Сфера применения информационных систем.
- •Аппаратное и программное обеспечение как ресурсы информационных систем.
- •Лингвистические, информационные, человеческие ресурсы информационных систем.
- •Понятие «пользователь» информационных систем.
- •Понятие модели в информационных системах. Понятие предметной области, сущности предметной области.
- •Слабоструктурированные модели реальности в информационных системах.
- •Формальные модели реальности. Формальные языки.
- •Неструктурированные модели реальности. Средства описания неструктурированных моделей.
- •Понятие модели данных. Назначение моделей данных, область применения.
- •Материализация моделей предметной области в информационных системах.
- •Сбор и регистрация данных как функции информационных систем.
- •Хранение как функция информационных систем. Управления ресурсами памяти.
- •Вспомогательные структуры хранения данных в информационных системах. Индексирование, хеширование.
- •Актуализация информационных ресурсов информационных систем.
- •Обработка информационных ресурсов информационных систем.
- •Pull-технологии предоставления информационных ресурсов информационных систем.
- •Push-технологии предоставления информационных ресурсов информационных систем.
- •Особенности взаимодействия конечных пользователей с информационной системой.
- •Особенности взаимодействия прикладных программ с информационной системой.
- •Критерии сравнения характеристик информационных систем.
- •Свойства Web как глобальной информационной системы.
- •Общая архитектура Web. Компоненты системы, модели взаимодействия.
- •Понятие структурирования информации. Языки разметки. Гипертекст. Назначение. Общие принципы. Область применения.
- •Язык разметки гипертекстовых документов html. Назначение. Область применения. Основные понятия.
- •Организация простейших web-приложений. Схема взаимодействия в web-приложениях.
- •Расширение функциональности на стороне клиента в технологии web.
- •Расширение функциональности на стороне сервера в технологии web.
- •Метод передачи данных от клиента серверу get. Общие принципы. Область применения. Достоинства и недостатки.
- •Метод передачи данных от клиента серверу post. Общие принципы. Область применения. Достоинства и недостатки.
- •Назначение и общие форматы записи универсального указателя ресурсов (url). Назначение элементов. Форматы записи.
- •Интерфейс взаимодействия cgi. Область применения. Достоинства и недостатки.
- •Интерфейс взаимодействия api. Область применения. Достоинства и недостатки.
- •Организация web-приложений с использованием баз данных. Схема взаимодействия web-приложения и баз данных.
- •Основные положения языка xml. Сфера применения, история языка xml.
- •Описание типа документа. Состав, назначение.
- •Описание элементов в языке xml.
- •Описание атрибутов элементов в языке xml.
- •Общие сведения о системах текстового поиска. История развития. Область применения.
- •Терминология систем текстового поиска. Документ, коллекция документов, релевантность, критерии поиска, методы создания документов.
- •Общие принципы текстового поиска. Проблемы текстового поиска.
- •Структурированное представление документов. Задачи и методы структурирования.
- •Индексирование документов. Способы организации индексов документов.
- •Представление пользовательских запросов. Критерии релевантности.
- •Функционирование систем текстового поиска. Методы работы в системах текстового поиска.
- •Средства лингвистической поддержки в системах текстового поиска. Словари и тезаурусы.
Терминология систем текстового поиска. Документ, коллекция документов, релевантность, критерии поиска, методы создания документов.
Документ – это не юридическая сущность.а содерж.законченная,индевицируемая уние.образом ед. информ предсталенная на естественном языке.Для системы док-т представляется черным ящиком,в более развитых текст док-та доступен для обработки и анализа.
Совокупность хранимых док-ов –коллекция док-ов.
Релевантность - в широком смысле - мера соответствия получаемого результата желаемому результату.
Важными характер. правильн. поиска является полнота и точность поиска.Полнота определяет отношение кол-ва реливантных док-оа выдаваемых в результате обработки пользовательского запроса к кол-ву фактически имеющихся реливантных док-ов.
Для конечной оценки точности используется доли реливантных док-ов к общему числу док-ов запроса.
Общие принципы текстового поиска. Проблемы текстового поиска.
Разнообразие использ. технологий при построений систем стп вызванно различиями подходов используемых для представления смвсла хранимых в системе док-ов на естественных языках и информационной потребности пользователя многообразием возможных критериев реливантности док-ов пользовательским запросом.
СТП обеспечивают поиск интересных пользователю док-ов на основе их информационному содержанию,а не только по наборам дискрипторов или значений каких либо атрибутов ассоциированных с данным док-ом.Эти атрибуты хотя и могут быть уникальным индификатором.но не как характеризуют их содержание.
При работе СТП необходимо решать задачи формализ. Представляя содержание текстовых док-ов и формулировать информационную потребность пользователя на естественном языке.
Необходимо учитывать особенности естественных языков:высказываеия,синонимы и омонимы,мноогообразие грамотических форм,смысловые связи между словами в предложений.
Лексика естественных языков динамична.У тестовых док-ов на естественном яхыке отсутствует ярко выраженная структура их содержания.Данные такой структуры не структурированные.Сопоставить док-ты и пользов запрос.
Структурированное представление документов. Задачи и методы структурирования.
Одним из важнейших принципов организаций док-ов,является использование в процессе поиска не самих док-ов ,а их структурного представления иногда назыв.-представителями док-ов.
Работа со структурой представителя документов формируемыми в результате анализа их текстов позволяет применять в процессе поиска формализ. Методы,основанные на различных эврестических подходах.
Выбор такого пути определен важным значением и другого фактора.Анализ текста док-та является довольно тонкой процедурой т.к. док-ты могут быть довольно объемными ,коллекций могут содержать большое число док-ов и т.д.
Таким образом использ.представ док-та вместо самих док-тов,позволяет избежать трудоемкого процесса просмотра и анализа их полных текстов при выполнении поиска,а также использовать все преимущества структуры представления содержания док-ов для упрощения алгоритсмов поиска.
Указанный подход возможен т.к. введенные в систему док-ты остаются как правило неизменными на протяжений всего времени существования в системе.В этом случае построение представления каждого имеющегося в системе док-та.можно осуществ. Однократно при вводе его в систему
В современных СТП использ. различные подходы к построению пре хранимых док-ов от характера использования построений представлений существенно зависит качество поиска.