- •1. Структурная схема микропроцессора (на примере i8086). Назначение регистров.
- •3. Организация основной памяти.
- •3. Структура и характеристики оперативной памяти
- •4. Модель osi
- •5. Стек протоколов tcp/ip
- •6. Классификация компьютерных сетей
- •7. Данные и модели данных
- •8. Модель данных «сущность-связь»
- •Ограничения целостности
- •9. Реляционная модель данных
- •10. Основные направления исследования в области ии
- •11. Метод резолюции в лппп.
- •12. Продукционная модель
- •13. Основные парадигмы языков программирования.
- •14. Основные понятия ооп: инкапсуляция, наследование, полиморфизм
- •1. Инкапсуляция
- •2. Полиморфизм
- •3. Наследование
- •15. Понятие алгоритма.
- •16. Понятие о временной и емкостной сложности алгоритма
- •17. Машина Тьюринга: детерминированная и недетерминированная
- •18. Понятие формального языка и формальной грамматики
- •19. Основные понятия теории графов.
- •20. Понятие количества информации и энтропии. Теорема Шеннона.
- •21. Деревья в теории графов.
- •22. Модели линейного программирования (постановка задачи, математическая модель, решение графическим методом).
- •23. Двойственность в задачах линейного программирования.
- •25. Элементы теории игр.
- •2. Подпрограммы. Процедуры и функции
- •3. Массивы
- •4. Записи
- •5. Работа с Динамическими данными
- •6. Динамические структуры данных. Линейные списки.
- •7. Динамические структуры данных: двоичные деревья
- •8. Работа с файлами
- •9.Операции целочисленной арифметики
- •10. Системы счисления. Перевод чисел из одной системы счисления в другую
- •11. Язык sql. Назначение и основные команды.
- •Манипулирование данными
- •Простые запросы
- •12. Алгоритмы внутренней сортировки.
- •13. Алгоритмы внешней сортировки
- •14. Нахождение кратчайших путей в графе
- •15. Поиск в ширину
- •16. Поиск остова и минимального остова.
- •17. Линейная модель работы информационно-поисковой системы.
- •18. Хеширование
- •Основные достоинства в-дерева
- •20. Логические вопросно-ответные системы:выполнение запросов различных типов.
- •21. Поиск в семантической сети.
- •22. Принципы динамического программирования. Иллюстрация на примере.
- •23. Адресация в Интернете
- •Доменные имена
- •Общий вид формата url-адреса
- •Как работает dns-сервер
- •24. Основные сервисы в сети Интернет.
- •Word Wide Web (www) - "Всемирная паутина"
- •Поиск информации в сети
- •VoIp сервис
- •Мессенджеры
- •25. Использование html. Структура Web(html) страницы.
17. Линейная модель работы информационно-поисковой системы.
Считаем, что в системе имеется t дескрипторов (иначе говоря объем тезауруса равен t). Тогда любой документ (точнее его поисковый образ) можно идентифицировать с помощью битового (двоичного) вектора X=(x1,…..,xt), где xj=1, если j-й дескриптор присутствует в описании документа, в противном случае xi=0.
Если в системе d документов, то вся информация может быть представлена с помощью матрицы Cdt:
//расписать матрицу (3)
i-я строка матрицы является описанием i-го документа.
Запрос (точнее его поисковое предписание) также можно представить в виде битового вектора Q=(q1,…,qt).
(формула ri) (4) - количество дескрипторов, которые одновременно присутствуют и в запросе и в i-м документе. Эта величина называется критерием релевантности i-го документа относительно запроса Q.
R =(r1,….,rd) - вектор релевантностей для запроса Q.
Результатом поиска обычно признаются документы, релевантность которых выше заданного порога r*, который должен зависеть от числа дескрипторов в запросе и в документе, что не очень удобно.
Выражение для R можно записать в матричной форме: R=C Q.
Пример. Пусть в системе имеется 6 дескрипторов и 2 документа имеющих описания (1,1,1,0,0,0) и (1,1,1,1,1,1). Подается запрос Q=(1,1,1,0,0,0). Тогда r1=r2=3, хотя очевидно, что 1-й документ лучше соответствует запросу.
Другой критерий: (формула ri)
Для нашего примера в этом случае r1=1, r2=1/2.
Как видим, второй критерий более совершенен, что объясняется учетом не только совпадений дескрипторов в описаниях, но и несовпадений.
К сожалению, в силу человеческого фактора, однотипные документы часто характеризуют разными ключевыми словами, и это необходимо учесть в поисковой модели. Целесообразно учитывать степень похожести дескрипторов и документов.
Вычислим матрицы A, D:
Att=СTtdCdt, Ddd= CdtCTtd.
Элемент ajm матрицы A показывает количество одновременных присутствий j-го и m-го дескрипторов в описаниях документов, а элемент dik матрицы D– количество общих дескрипторов в i-м и k-м документах. Таким образом, матрица A показывает степень похожести дескрипторов, а матрица D – степень похожести документов. С помощью определения порогов a* и d* эти матрицы приводятся к бинарному виду:
//формулы бинаризации матриц A и D (получаем A' и D') (5)
Пусть:
-
1
7
3
5
6
2
A
=
8
4
6
D
=
9
4
3
2
3
5
7
6
8
a٭ = 3
d٭ = 3
aij ≤ a*=> aij' = 0
aij > a* => aij = 1
dij ≤ d*=> dij' = 0
dij > d* => dij = 1
|
|
0 |
1 |
0 |
|
|
|
1 |
1 |
0 |
A |
= |
1 |
1 |
1 |
|
D |
= |
1 |
1 |
0 |
|
|
0 |
0 |
1 |
|
|
|
1 |
1 |
1 |
Имеем смысл использовать критерий: R=D'(C(A' Q)) (6)
R=D'(C (A' Q))
Фактически в этом случае все похожие дескрипторы автоматически добавляются к запросу, по расширенному запросу производится поиск, а затем к множеству полученных документов добавляются похожие.