Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Филиппов / филиппов.docx
Скачиваний:
38
Добавлен:
18.08.2022
Размер:
11.69 Mб
Скачать
  1. Булев поиск. Матрица термин документ. Обратный индекс. Разбор документа. Стоп-слова. Биграммы. Стемминг. Морфология. Операции над списками и быстрое пересечение списков. 

  1. Устройство web и web граф. Структура url. Протокол http.  Http заголовки и коды возврата.  HTML и CSS. HTML tags. CSS селекторы.  Извлечение информации из html страницы с помощью библиотеки jsoup. Характеристики поискового робота. Общая архитектура поискового робота. 

  1. Построение индекса. Однопроходное индексирование. Блочное индексирование. Распределенное индексирование. Динамическое индексирование. Удаление объекта из индекса. Организация поиска. 

  1. Библиотека Lucene. Lucene основные концепции. Типы полей.  Создание индекса. Создание документа. Управление индексом. Индексация документа - analyzer, tokenizer, token filter. Запросы. TermQuery, BooleanQuery и т.д. Язык запросов.

  1. Организация словарей. Перестановочный индекс. k-граммный индекс. Поиск по числовым полям. Геопоиск. Сжатие индекса. Преимущества сжатия. Закон Хипса. Закон Ципфа. Словарь как строка. Блочное хранение. Сжатие инвертированного индекса. 

  1. Зональное ранжирование. Зональное ранжирование в Lucene. Модель tf-idf. Опорная нормировка длины документа. Ранжирование в Lucene. Модель BM25. 

  1. Оценка качества поиска. Точность полнота. MAP. NDCG.

  1. Вероятностная модель ранжирования.  Бинарная модель для ранжирования. Обоснование tf-idf. 

  1. Вероятностная модель языка. Модель правдоподобия запроса. Сглаживание. Синонимия. Синонимы в Lucene. Автоматическое построение синонимов. Контекст слова и PMI. Транслитерация. Словообразовательные расширения.  Аббревиатуры. 

  1. Современные методы построения языковых моделей. Вложение слов: word2vec, glove. Рекуррентные нейронные сети. Механизм внимания. 

  1. Машинное обучение в ранжирование. Факторы для ранжирования на примере Google. Поточечный подход для ранжирования. Попарный подход для ранжирования, алгоритмы RankNet, FRank, SVMRank, SortNet. Недостатки попарного подхода и их исправления.

  1. Булев поиск.

Булев поиск – поиск с помощью логических операторов, в ходе которого можно обрабатывать любой запрос, имеющий вид булева выражения, т.е. с операциями AND, OR и NOT. Преимущества – точность и прозрачность результатов. Недостатки – неустойчивость к опечаткам.

Матрица термин документ.

Матрица термин документ – пример бинарной матрицы инцидентности, где элемент матрицы равен 1, если термин имеется в документе, и 0, если не имеется. Помогает решить задачу поиска документа с требуемым списком терминов.

Обратный индекс.

Матрица инцидентности вида термин-документ является разряженной, т.е. имеет большое кол-во нулей. Поэтому целесообразно хранить в памяти компьютера только единицы. Именно так возникла концепция обратного индекса. Смысл в том, что необязательно хранить всю матрицу, а просто записать словарь терминов и для каждого перечислить его словопозиции.

Разбор документа.

Чтобы построить обратный индекс, нужно разобрать документ (текст): разбить на лексемы и выполнить их обработку. Выделение лексем – процесс разделения потока символов на лексемы. Классы одинаковых лексем образуют множество терминов, по которым идет индексирование. Нормализация терминов – процесс приведения терминов к канонической форме, чтобы устранить несущественные различия.

Стоп-слова.

Стоп-слова – очень распространенные слова, не представляющие ценности для удовлетворения информационных потребностей. Пример: предлоги, союзы, артикли, частицы и т.п.

Биграммы.

Биграммы – последовательности из двух слов, используются в случаях, когда стоп-слова несут смысловую нагрузку.

Стемминг.

Стемминг – приближенный эвристический процесс, в ходе которого от слов отбрасываются окончания в расчете на то, что в большинстве случаев это себя оправдает. Часто из-за этого происходит удаление производных аффиксов.

Морфология.

Морфология изучает слова и их формы. Идея морфологии в сфере информационного поиска – использование базы данных с таблицами морф (всевозможных слов) и связанных с ними лексем (корней и аффиксов). При индексации каждое слово связывается с морфой, если такая есть. Если нет, используется добавление вручную в словарь.

Операции над списками и быстрое пересечение списков.

  • Объединение

  • Пересечение

  • Дополнение

Быстрое пересечение – берем меньший список и проходим бинарным поиском по большему. Сложность алгоритма – n*log(m).

  1. Устройство web и web граф.

Веб-устройство – цифровое устройство, имеющее возможность постоянного подключения к сети Интернет и используемое для взаимодействия с веб-службами.

Веб-граф является ориентированным графом, вершины которого соответствуют веб-страницам сети, а рёбра – связями между ними.

Структура url.

Протокол http.

http – протокол прикладного уровня передачи данных в виде гипертекстовых документов в формате html. Основа http – технология «клиент-сервер», т.е. предполагается существование клиента, посылающего запрос, и сервера, производящего необходимые действия.

Http заголовки и коды возврата.

http-заголовки – строки в http-сообщении, содержащие разделенную двоеточием пару «параметр-значение». Пример:

Server: Apache/2.2.11 (Win32) PHP/5.3.0

Код возврата – часть первой строки ответа сервера – целое число из трех цифр. Первая указывает класс состояния. 1 – информационный, 2 – успешный, 3 – перенаправление, 4 – ошибка клиента, 5 – ошибка сервера.

HTML и CSS.

HTML – логическое описание структуры страницы, CSS – описание внешнего вида страницы.

HTML tags.

HTML тэги – основа HTML, используются для разграничения начала и конца элементов в разметке.

Тег <a> является одним из важных элементов HTML и предназначен для создания ссылок. В зависимости от присутствия атрибутов name или href тег <a> устанавливает ссылку или якорь. Якорем называется закладка внутри страницы, которую можно указать в качестве цели ссылки. При использовании ссылки, которая указывает на якорь, происходит переход к закладке внутри веб-страницы.

Для создания ссылки необходимо сообщить браузеру, что является ссылкой, а также указать адрес документа, на который следует сделать ссылку. В качестве значения атрибута href используется адрес документа (URL, Universal Resource Locator, универсальный указатель ресурсов), на который происходит переход. Адрес ссылки может быть абсолютным и относительным. Абсолютные адреса работают везде и всюду независимо от имени сайта или веб-страницы, где прописана ссылка. Относительные ссылки, как следует из их названия, построены относительно текущего документа или корня сайта.

Соседние файлы в папке Филиппов