- •Хайретдинов м.С. Cетевые информационные технологии
- •5.3. Электронная почта. 120
- •5.4. Группы новостей 144
- •Глава 6 Основные программы поиска ресурсов сети Интернет 158
- •Глава7. Глобальные поисковые системы 182
- •Глава 8. Перспективные технологии сети Интернет 206
- •8.4. Технология «Web 2.0» 228
- •Введение
- •Глава 1. Открытые системы Понятие «открытая система»
- •1.1 Модель osi
- •1.2. Уровни модели osi Физический уровень
- •Сетевой уровень
- •Транспортный уровень
- •Сеансовый уровень
- •Представительный уровень
- •Прикладной уровень
- •Сетезависимые и сетенезависимые уровни
- •1.3. Модульность и стандартизация
- •1.4. Источники стандартов
- •1.5. Стандартные стеки коммуникационных протоколов
- •Стек osi
- •Необходимый минимум.
- •Глава 2. Internet-организация, структура, методы
- •2.1. Сети коммутации пакетов
- •2.2. Протокол Internet (ip)
- •2.3. Tcp, udp и другие
- •2.4 Принцип «клиент-сервер».
- •2.5 Системы сетевых адресов
- •2.5.1 Региональная система имён
- •2.5.2 Структура региональной системы имён
- •2.5.3 Поиск адреса по доменному имени
- •2.5.5. Система адресов х.400
- •2.6 Маршрутизация
- •2.6.1 Протокол rip
- •2.6.2 Протокол ospf
- •Глава 3. Локальные и глобальные сети
- •3.1. Особенности локальных, глобальных и городских сетей
- •3.2. Отличия локальных сетей от глобальных
- •3.3. Тенденция к сближению локальных и глобальных сетей
- •3.4. Сети отделов, кампусов и корпораций
- •Сети отделов
- •Сети кампусов
- •Корпоративные сети
- •3.5. Требования, предъявляемые к современным вычислительным сетям
- •3.5.1 Производительность
- •3.5.2 Надежность и безопасность
- •3.5.3 Расширяемость и масштабируемость
- •3.5.4 Прозрачность
- •3.5.5 Поддержка разных видов трафика
- •3.5.6. Управляемость
- •3.5.7. Совместимость
- •Глава 4. Виды доступа в Internet
- •4.1 Непосредственный доступ
- •4.3 Доступ "по вызову" (Dial-up Access)
- •4.4 Доступ uucp
- •4.5 Доступ через другие сети
- •Глава 5 Наиболее распространённые возможности Internet Введение
- •5.1. Удалённый доступ (telnet)
- •Простой протокол telnet
- •Командный режим программы telnet
- •Нестандартные telnet-серверы
- •Telnet и нестандартные порты
- •Необходимый минимум
- •Безопасность и предоставление доступа
- •Удаленный вход в систему
- •5.2. Протокол передачи файлов (ftp) Введение
- •5.2.1. Модели работы ftp.
- •Алгоритм работы при соединении двух ftp-серверов, ни один из которых не расположен на локальном хосте пользователя.
- •Представление данных
- •1. Тип файла.
- •2. Управление форматом.
- •3. Структура.
- •4. Режим передачи. (Указывает на то, как файл передается по соединению данных)
- •5.2.2 Команды ftp
- •5.2.3 Ftp отклики
- •5.2.4. Управление соединением
- •Пример ftp
- •Утилита ftp.
- •5.2.5. Спам - трафик, или тонкости работы протокола ftp
- •5.2.6. Некоторые проблемы ftp
- •Необходимый минимум
- •Список источников:
- •Работа с меню
- •5.2.7. Работа с системой ftp
- •Поиск файлов
- •Поиск ключей
- •Применение указателей (индексов)
- •Применение команды grep
- •Движение по каталогам
- •Смена каталога
- •Форматы файлов
- •Ascii-файлы, или текстовые файлы
- •Бинарные Файлы
- •Выбор типа передачи
- •Если вы не уверены ...
- •Получение Файла
- •Права в другой системе
- •Упакованные файлы
- •Проблемы общего характера
- •Пересылка группы файлов
- •Анонимный протокол ftp
- •Архивы интерпретатора команд shell
- •Замечания относительно различий в системах
- •5.2.8. Протоколы tftp и sftp.
- •Выход из ftp
- •Необходимый минимум
- •5.3. Электронная почта. Введение
- •5.3.1. Системы почтовой рассылки.
- •5.3.2. Почтовые протоколы. Введение
- •Протокол smtp Модель протокола
- •Электронная почта
- •Команды smtp
- •Команды простого протокола передачи почты (smtp)
- •Последовательность команд smtp
- •Конверты, заголовки и тело
- •Описание протокола pop3
- •Режим autorization
- •Пример pop3 сессии
- •Литература
- •5.3.3. Мime: многоцелевые расширения электронной почты для Internet
- •Pine: Реализация mime
- •5.3.4. Что делать, когда электронная почта возвращается
- •Неизвестные компьютеры
- •Неизвестные получатели
- •Почту нельзя доставить
- •Неудачи при доставке почты нескольким адресатам
- •Списки рассылки и отражатели почты
- •Отмена подписки
- •Ведущие и этикет списков
- •5.3.5. Поиск файлов с помощью электронной почты
- •Серверы Internet-muna
- •Запросы в формате listserv
- •Команды поиска файлов утилиты listserv
- •Команды поиска файлов утилиты majordomo
- •Команды поиска файлов утилиты almanac
- •Прикладной шлюз ftPmail
- •Группы новостей
- •Тематика UseNet
- •Как получать информацию из групп новостей
- •WinVn — графическая программа чтения новостей
- •Просмотр материалов телеконференций
- •Составление ответов
- •Подготовка нового сообщения
- •Сохранение сообщений на диске
- •Декодирование сообщений
- •Как правильно завершить сеанс работы с WinVn
- •Просмотр новостей программой trn.
- •Глава 6 Основные программы поиска ресурсов сети Интернет Введение
- •6.1. Поиск в internet с помощью системы gopher
- •Каким клиентом Gopher воспользоваться?
- •Работа с Gopher сервисной компании
- •Запуск из оболочки unix
- •Работа через telnet
- •6.1.1.Работа с системой Veronica
- •Необходимый минимум
- •6.2. Глобальная система world wide web
- •Введение
- •6.2.1. Гипертекстовые системы.
- •Взаимодействие паутины и баз данных.
- •Простейшая homepage
- •6.3. Обзор языка html Введение
- •Направления в развитии языка
- •Базовые понятия языка html
- •Взаимодействие html-страницы с web сервером
- •Список литературы
- •6.4. Протоколы передачи гипертекста http Протокол http
- •История развития протокола
- •Структура протокола
- •Стартовые строки
- •Код ответа
- •Заголовки
- •Пример. Запрос/ответ по http
- •Методы обеспечения безопасности передаваемых данных
- •Процедура установления соединения по tls
- •Процедура hadshake в деталях
- •Глава7. Глобальные поисковые системы
- •7.1.Общие принципы работы поисковых систем
- •Внутренние факторы, влияющие на ранжирование документов в поисковых системах
- •Внешние факторы, влияющие на ранжирование документов в поисковых системах
- •7.2. Качество поиска. Понятие Page Rank
- •Что такое PageRank или что надо знать о pr.
- •ТИц (Тематический Индекс Цитирования)
- •Краткое резюме
- •7. 3. Обзор основных глобальных поисковых систем Internet Введение
- •7.3.1.Поисковая система Rambler
- •Нынешняя позиция Rambler в российском Интернет и на рынке интернет-рекламы
- •7.3.2 "Апорт"
- •7.3.3. Поисковая система Yandex.
- •Проверяйте орфографию
- •Используйте синонимы
- •Ищите больше, чем по одному слову
- •Не пишите большими буквами
- •Найти похожие документы
- •Попробуйте использовать язык запросов
- •Искать без морфологии
- •Поиск картинок и фотографий
- •7.3.4. Поисковая система Googlе История
- •7.3.5. Поисковая система tela
- •Зарубежные поисковики для русскоязычного пользователя
- •7.3.6. Поисковая система AltaVista
- •7.3.7. Поисковый каталог Yahoo
- •7.4. Интеллектуальные поисковые системы: принцип организации, сравнительный анализ. Введение
- •Поиск с обратной связью на естественном языке
- •Интерактивный генератор диалогов
- •Начинается с ввода пользовательского запроса, который порождает либо обмен сообщениями на естественном языке, либо направление интерпретированного запроса поисковому агенту
- •Адаптивный поисковый агент
- •Основные выводы
- •Заключение
- •Список литературы
- •Глава 8. Перспективные технологии сети Интернет
- •8.1.Гигабитные испытательные модели
- •8.2. Примеры служб обмена данными
- •Сети х.25
- •Ретрансляция кадров
- •8.3.Широкополосные isdn и atm
- •Эталонная модель b-isdn atm
- •Протокол атм
- •Категории услуг протокола атм и управление трафиком
- •Перспективы atm
- •Сравнение предоставляемых услуг
- •Стандартизация сетей
- •8.3.1. Who's Who в мире телекоммуникаций
- •Передача трафика ip через сети atm
- •Сосуществование atm с традиционными технологиями локальных сетей
- •Использование технологии atm
- •Вопросы
- •8.4. Технология «Web 2.0» Введение
- •Причины появления web 2.0
- •Что такое web 2.0
- •8.4.1. Основные принципы Веба 2.0 Веб как платформа
- •8.4.2. Использование коллективного разума
- •Блоги и мудрость масс
- •Архитектура взаимодействия
- •Конец цикла разработки по
- •Упрощенные модели программирования
- •Софт работает поверх устройств
- •Богатые пользовательские интерфейсы
- •Что должны уметь компании в Вебе 2.0
- •Подходы к проектированию Веба 2.0
- •Примеры сайтов Web 2.0
- •Пример работы в Web 2.0- википедия (http://ru.Wikipedia.Org/wiki/)
- •В контакте (http://vkontakte.Ru/)
- •Заключение
- •Список литературы.
- •Глоссарий
- •Список литературы
- •Темы ргр по дисциплине «Сетевые информационные технологии»
- •Примеры экзаменационных билетов
7.4. Интеллектуальные поисковые системы: принцип организации, сравнительный анализ. Введение
Активный рост Всемирной паутины превратил Internet в огромное информационное пространство с разнообразным и зачастую плохо организованным содержимым. Пользователи сталкиваются с быстрым ростом объемов информации, нашедшим отражение в термине «информационная перегрузка». И если для просмотра отдельных Web-страниц достаточно минимального набора навыков, то поиск по запросам и навигация в Web-пространстве требуют большего. Исследования поискового поведения опытных и начинающих пользователей Сети позволяют сделать несколько практических выводов. В частности, модель поискового поведения может послужить основой для улучшения интерфейсов и расширения функциональности существующих поисковых систем. В будущем они смогут полнее удовлетворять разнообразные потребности, как экспертов, так и новичков. Кроме того, глубокое понимание трудностей, с которыми сталкиваются потребители в процессе поиска, необходимо при построении справочных систем. Поведение Web-пользователей привлекает к себе внимание исследовательского сообщества. Теза Лоу и Эрик Хорвиц, например, предложили задействовать байесовские сети для моделирования последовательных запросов, с которыми пользователи обращаются к поисковой машине. Эти сети могут дополнить поисковую машину назначенными вручную категориями предполагаемых информационных целей, позволяющими предсказывать модификации запросов. Ингрид Цукерман с коллегами говорят о возможности применять Марковские модели для предугадывания следующего запроса потребителя на основе предыдущих. Однако в этих исследованиях не принимаются во внимание персональные характеристики пользователя и его опыт. Разумеется, традиционные информационно-поисковые системы, основанные на использовании ключевых слов, могут обеспечить первый шаг в процессе поиска. Однако проблема состоит в том, чтобы выполнять поиск более точно и интеллектуально на основе знаний о пользователе, его намерениях, целях и т.п., чтобы улучшать результаты поиска, обходясь минимумом уточнений. Наше исследование предполагает, что обратная связь с потребителем при таком общении может сыграть ключевую роль в уменьшении информационной перегрузки и получении искомой информации. Базовая лингвистическая эрудиция сделает поисковую систему более точной благодаря сужению запросов и идентификации намерений пользователя. Соответственно, мы исследуем генерацию интерактивных диалогов на естественном языке для библиографического поиска в Сети с целью улучшения процессов поиска и отбора информации при минимальном взаимодействии с потребителем. Основное внимание в нашем подходе уделяется совершенствованию парадигмы поиска с помощью методов компьютерной лингвистики и применения более подходящего поискового агента. Проблемы поиска Полнота и точность. Под полнотой и точностью понимают релевантность результатов поиска поисковому предписанию и наличие в этих результатах информационного шума. Так, стопроцентная полнота достигается, когда в выборке присутствуют все имеющиеся документы, релевантные поисковому предписанию. Стопроцентная точность — это отсутствие в выборке документов, нерелевантных поисковому предписанию. Cтопроцентных полноты и точности удается достигнуть только в рамках одной базы данных, а поиск по разрозненным источникам информации неминуемо приводит к снижению этих показателей. Наличие информационного шума обуславливает необходимость вторичной идентификации выбранных по запросу документов: нужно вручную отобрать только релевантные документы и уже потом продолжить их обработку, в полной мере используя естественный интеллект. На показатели полноты и точности можно влиять с помощью алгоритмов идентификации и индексирования (синтаксический и морфологический анализ русскоязычных текстов, синонимия, служба ведения словарей имен собственных и т.д.). Исторически наибольшую потребность в поиске документов, поступивших из разных источников, испытывали спецслужбы. Для них, в первую очередь, и создавались системы, способные обрабатывать и находить документы на разных языках. Сегодня эти разработки становятся доступными и на ИТ-рынке. Актуальность и достоверность. Своевременное обновление быстро изменяющихся данных — требование бизнеса, а удаление неактуальной информации позволяет защитить его от риска случайного использования таких данных. Современные программы сканирования Сети в поисках нужной информации (crawler) отслеживают обновление источников данных с заранее заданной периодичностью. Важно, чтобы при вводе в корпоративное хранилище новых (обновленных) данных происходила автоматическая идентификация подобных, но уже устаревших данных, и в этом случае вновь требуется вторичная идентификация. Проблема достоверности данных напрямую связана с источником их происхождения. Распыление информации по Сети привело к изменению отношения к проблеме доверия и в дальнейшем существенно повлияет на разработку новых поколений информационных систем. Сегодня достоверными принято считать источники, доступные в пределах корпоративной сети, а также сайты крупнейших компаний. Для остальных данных, как и прежде, существует процедура проверки с использованием нескольких независимых источников. Фрагментарность. Пополнение традиционной базы данных новым документом обычно сопровождается контролем над заполнением минимально необходимого состава реквизитов. Это продиктовано желанием однозначно идентифицировать реальные объекты в конкретной информационной системе и стремлением к устранению информационного шума. Если в традиционной базе данных выполняется операция пополнения/изменения какого-либо документа, то изменяемый фрагмент может быть сколь угодно малым (например, всего один реквизит). В информационных хранилищах индексируются все документы первоисточников, независимо от состава данных и полноты реквизитов, описывающих тот или иной объект. Как правило, документы содержат только фрагменты этих описаний. То, что считается «мусором» в традиционных базах данных, в информационных хранилищах является «сырьем» для сведения в единое целое фрагментов описания объектов, поступивших из различных источников. Процесс сведения фрагментов — это интеллектуальный процесс выявления тождеств, связанный с сопоставлением подобий. Поиск подобных фрагментов осуществляется поисковой машиной, а их сведение, отождествление описания реального объекта, как правило, выполняется человеком в процессе вторичной идентификации. Безопасность. Теоретически, информационные хранилища могут сохранять схему разграничения прав доступа как совокупность (суперпозицию) схем разграничения, заимствованных из первоисточников. Так, некоторые документы не будут участвовать в поиске при выполнении запроса, не допущенного к ним пользователя. На практике выявление устаревших и дезинформирующих документов может потребовать наделения некоторого количества специалистов полномочием чтения всех документов для выполнения вторичной идентификации. Эти специалисты могут не иметь полномочий удаления устаревших, на их взгляд, документов. Однако эту особенность информационных хранилищ неформатированной информации, поступившей из разрозненных источников, следует учитывать при работе с заказчиками. Поиск информации Многие поисковые машины, такие как Google и AltaVista, просматривают содержимое каждого Web-сервера, создавая индексированные базы данных по мере обнаружения документов. Однако при обращении к этим огромным БД пользователи встречаются с хорошо известными проблемами. В том числе они вынуждены тратить много времени на проверку того, содержат ли полученные результаты именно необходимые сведения. Кроме того, они часто получают столь значительное количество информации, охватывающей весьма широкую область, что отказываются от большей ее части и ограничиваются лишь небольшим набором документов. Недавние исследования поведения Web-пользователей и связанных с ним практических проблем показывают, что для эффективного поиска информации в Сети требуется преодолеть множество препятствий. Как показано на рис. 1, они могут иметь самую разную природу — от недостатка опыта (неумения получать существующие страницы) до проблем дизайна (браузер плохо спроектирован либо его трудно эффективно применять). Значительной части Web-пользователей требуется слишком много времени, чтобы найти конкретный документ или Web-страницу. Другие проблемы связаны с трудностями получения полезной и понятной информации. Анализ этих препятствий позволяет выявить две конкретные проблемы:
Действительно, многие поисковые системы не могут собрать базовые сведения о пользователе — отчасти потому, что для них не характерно получение неявной информации на уровне языкового общения, к которому часто прибегают потребители. Например, если в запросе на естественном языке используются неявные предположения или местоимения («Найти документы, которые содержат ...» или «Каковы планы путешествий Ее Величества на следующий год?»), то поисковая машина не найдет нужной информации. Что же касается точности и полноты поиска, система пропустит тысячи относящихся к делу документов, если запросы не содержат достаточного количества ключевых слов, позволяющих судить о подобии. Первая проблема относится к интеллекту поисковой машины и ее способностям адаптации, а вторая связана с представлением запроса, взаимодействием с пользователем и способностью системы воспринимать основообразующую (в том числе неявную) информацию, выраженную на естественном языке. Чтобы справиться с этими проблемами, исследователи обратились к разработке интеллектуальных поисковых агентов. Такие агенты по-новому применяют традиционную «паучью» технологию поиска и обычно являются «роботами», которых можно обучить поиску в Сети определенных типов информационных ресурсов. Владелец интеллектуального агента способен персонализировать его так, чтобы тот создавал индивидуальные профили или удовлетворял конкретные информационные потребности. Агент может быть автономным, т.е. самостоятельно судить о вероятной уместности материала. И чем чаще он служит инструментом поиска, тем выше становится его «мастерство» — агент учится на прошлом опыте. Потребителю предоставлены возможности пересмотра результатов поиска и отклонения любых информационных источников, не относящихся к делу или бесполезных. Агент хранит эту информацию в пользовательском профиле, чтобы задействовать ее при обучении и поиске. Но даже современные подходы не позволяют устранить ряд проблем, включая информационную перегрузку, затраты времени на поиск и получение необходимых сведений. Некоторые поисковые системы не могут выполнить углубленный лингвистический анализ запроса и контекста, помогающий качественно осуществить поиск информации, которую пользователь действительно хочет найти. Для того чтобы справиться с этими ограничениями, отдельные системы теперь включают в процесс поиска как статистические переменные, так и лингвистические параметры. Однако данный подход все еще остается на стадии опытных разработок и базируется преимущественно на документах, представленных в рамках парадигмы «мешка слов», которая является базисной для многих информационно-поисковых систем. В отличие от поиска, фильтрация подразумевает отбор документов на основании их содержимого. В качестве примера можно указать предложенную в когнитивную систему фильтрации сведений со скрытой семантической индексацией для отбора новостных статей. Другой пример — система Infoscope, которая задействует агентов на основе правил, чтобы следить за поведением пользователя и предлагать варианты. Преодолевая трудности создания подходящих профилей в ходе диалога, некоторые современные системы фильтрации позволяют пользователям выбирать в качестве типовых один или несколько релевантных документов, вместо того чтобы требовать прямого и явного определения области интересов. Другие системы пытаются построить профили по поведению потребителя. Однако этот подход недостаточно практичен, поскольку пользователи не всегда фокусируются на реальных целях и порой путешествуют по Сети без явного направления, что может привести поискового агента к неверным выводам об их предпочтениях. С точки зрения языка эти проблемы можно в какой-то мере преодолеть, либо извлекая больше знаний из того, что ищут пользователи, либо генерируя в интерактивном режиме более внятные запросы, побуждающие потребителя сосредоточиться на своих интересах. Некоторые исследователи для построения пользовательских профилей применяют технологию обработки естественного языка (natural-language processing, NLP), но лишь в ограниченных областях, в случае привлечения WordNet или более простых ресурсов. Их усилия сосредоточены на проблемах доступа и обобщения концепций, решение которых позволит с упреждением отвечать на нужды пользователей. К задачам NLG относятся:
Конструкция системы NLG предполагает генерацию текста на естественном языке на уровне диалога, причем сложные задачи типа планирования беседы играют ключевую роль в синтезе эффективного текста. Эти усилия позволяют ввести теорию речевых актов в компьютерные системы, планирующие речевые последовательности. Если обработка беседы включает в себя управление диалоговыми взаимодействиями с пользователем, системы NLG могут получать базовые сведения о коммуникативных шагах, чтобы синтезировать ответы в соответствии со знаниями и целями потребителя, реагировать на его ошибки или справляться с его неожиданной реакцией. |
