- •Хайретдинов м.С. Cетевые информационные технологии
- •5.3. Электронная почта. 120
- •5.4. Группы новостей 144
- •Глава 6 Основные программы поиска ресурсов сети Интернет 158
- •Глава7. Глобальные поисковые системы 182
- •Глава 8. Перспективные технологии сети Интернет 206
- •8.4. Технология «Web 2.0» 228
- •Введение
- •Глава 1. Открытые системы Понятие «открытая система»
- •1.1 Модель osi
- •1.2. Уровни модели osi Физический уровень
- •Сетевой уровень
- •Транспортный уровень
- •Сеансовый уровень
- •Представительный уровень
- •Прикладной уровень
- •Сетезависимые и сетенезависимые уровни
- •1.3. Модульность и стандартизация
- •1.4. Источники стандартов
- •1.5. Стандартные стеки коммуникационных протоколов
- •Стек osi
- •Необходимый минимум.
- •Глава 2. Internet-организация, структура, методы
- •2.1. Сети коммутации пакетов
- •2.2. Протокол Internet (ip)
- •2.3. Tcp, udp и другие
- •2.4 Принцип «клиент-сервер».
- •2.5 Системы сетевых адресов
- •2.5.1 Региональная система имён
- •2.5.2 Структура региональной системы имён
- •2.5.3 Поиск адреса по доменному имени
- •2.5.5. Система адресов х.400
- •2.6 Маршрутизация
- •2.6.1 Протокол rip
- •2.6.2 Протокол ospf
- •Глава 3. Локальные и глобальные сети
- •3.1. Особенности локальных, глобальных и городских сетей
- •3.2. Отличия локальных сетей от глобальных
- •3.3. Тенденция к сближению локальных и глобальных сетей
- •3.4. Сети отделов, кампусов и корпораций
- •Сети отделов
- •Сети кампусов
- •Корпоративные сети
- •3.5. Требования, предъявляемые к современным вычислительным сетям
- •3.5.1 Производительность
- •3.5.2 Надежность и безопасность
- •3.5.3 Расширяемость и масштабируемость
- •3.5.4 Прозрачность
- •3.5.5 Поддержка разных видов трафика
- •3.5.6. Управляемость
- •3.5.7. Совместимость
- •Глава 4. Виды доступа в Internet
- •4.1 Непосредственный доступ
- •4.3 Доступ "по вызову" (Dial-up Access)
- •4.4 Доступ uucp
- •4.5 Доступ через другие сети
- •Глава 5 Наиболее распространённые возможности Internet Введение
- •5.1. Удалённый доступ (telnet)
- •Простой протокол telnet
- •Командный режим программы telnet
- •Нестандартные telnet-серверы
- •Telnet и нестандартные порты
- •Необходимый минимум
- •Безопасность и предоставление доступа
- •Удаленный вход в систему
- •5.2. Протокол передачи файлов (ftp) Введение
- •5.2.1. Модели работы ftp.
- •Алгоритм работы при соединении двух ftp-серверов, ни один из которых не расположен на локальном хосте пользователя.
- •Представление данных
- •1. Тип файла.
- •2. Управление форматом.
- •3. Структура.
- •4. Режим передачи. (Указывает на то, как файл передается по соединению данных)
- •5.2.2 Команды ftp
- •5.2.3 Ftp отклики
- •5.2.4. Управление соединением
- •Пример ftp
- •Утилита ftp.
- •5.2.5. Спам - трафик, или тонкости работы протокола ftp
- •5.2.6. Некоторые проблемы ftp
- •Необходимый минимум
- •Список источников:
- •Работа с меню
- •5.2.7. Работа с системой ftp
- •Поиск файлов
- •Поиск ключей
- •Применение указателей (индексов)
- •Применение команды grep
- •Движение по каталогам
- •Смена каталога
- •Форматы файлов
- •Ascii-файлы, или текстовые файлы
- •Бинарные Файлы
- •Выбор типа передачи
- •Если вы не уверены ...
- •Получение Файла
- •Права в другой системе
- •Упакованные файлы
- •Проблемы общего характера
- •Пересылка группы файлов
- •Анонимный протокол ftp
- •Архивы интерпретатора команд shell
- •Замечания относительно различий в системах
- •5.2.8. Протоколы tftp и sftp.
- •Выход из ftp
- •Необходимый минимум
- •5.3. Электронная почта. Введение
- •5.3.1. Системы почтовой рассылки.
- •5.3.2. Почтовые протоколы. Введение
- •Протокол smtp Модель протокола
- •Электронная почта
- •Команды smtp
- •Команды простого протокола передачи почты (smtp)
- •Последовательность команд smtp
- •Конверты, заголовки и тело
- •Описание протокола pop3
- •Режим autorization
- •Пример pop3 сессии
- •Литература
- •5.3.3. Мime: многоцелевые расширения электронной почты для Internet
- •Pine: Реализация mime
- •5.3.4. Что делать, когда электронная почта возвращается
- •Неизвестные компьютеры
- •Неизвестные получатели
- •Почту нельзя доставить
- •Неудачи при доставке почты нескольким адресатам
- •Списки рассылки и отражатели почты
- •Отмена подписки
- •Ведущие и этикет списков
- •5.3.5. Поиск файлов с помощью электронной почты
- •Серверы Internet-muna
- •Запросы в формате listserv
- •Команды поиска файлов утилиты listserv
- •Команды поиска файлов утилиты majordomo
- •Команды поиска файлов утилиты almanac
- •Прикладной шлюз ftPmail
- •Группы новостей
- •Тематика UseNet
- •Как получать информацию из групп новостей
- •WinVn — графическая программа чтения новостей
- •Просмотр материалов телеконференций
- •Составление ответов
- •Подготовка нового сообщения
- •Сохранение сообщений на диске
- •Декодирование сообщений
- •Как правильно завершить сеанс работы с WinVn
- •Просмотр новостей программой trn.
- •Глава 6 Основные программы поиска ресурсов сети Интернет Введение
- •6.1. Поиск в internet с помощью системы gopher
- •Каким клиентом Gopher воспользоваться?
- •Работа с Gopher сервисной компании
- •Запуск из оболочки unix
- •Работа через telnet
- •6.1.1.Работа с системой Veronica
- •Необходимый минимум
- •6.2. Глобальная система world wide web
- •Введение
- •6.2.1. Гипертекстовые системы.
- •Взаимодействие паутины и баз данных.
- •Простейшая homepage
- •6.3. Обзор языка html Введение
- •Направления в развитии языка
- •Базовые понятия языка html
- •Взаимодействие html-страницы с web сервером
- •Список литературы
- •6.4. Протоколы передачи гипертекста http Протокол http
- •История развития протокола
- •Структура протокола
- •Стартовые строки
- •Код ответа
- •Заголовки
- •Пример. Запрос/ответ по http
- •Методы обеспечения безопасности передаваемых данных
- •Процедура установления соединения по tls
- •Процедура hadshake в деталях
- •Глава7. Глобальные поисковые системы
- •7.1.Общие принципы работы поисковых систем
- •Внутренние факторы, влияющие на ранжирование документов в поисковых системах
- •Внешние факторы, влияющие на ранжирование документов в поисковых системах
- •7.2. Качество поиска. Понятие Page Rank
- •Что такое PageRank или что надо знать о pr.
- •ТИц (Тематический Индекс Цитирования)
- •Краткое резюме
- •7. 3. Обзор основных глобальных поисковых систем Internet Введение
- •7.3.1.Поисковая система Rambler
- •Нынешняя позиция Rambler в российском Интернет и на рынке интернет-рекламы
- •7.3.2 "Апорт"
- •7.3.3. Поисковая система Yandex.
- •Проверяйте орфографию
- •Используйте синонимы
- •Ищите больше, чем по одному слову
- •Не пишите большими буквами
- •Найти похожие документы
- •Попробуйте использовать язык запросов
- •Искать без морфологии
- •Поиск картинок и фотографий
- •7.3.4. Поисковая система Googlе История
- •7.3.5. Поисковая система tela
- •Зарубежные поисковики для русскоязычного пользователя
- •7.3.6. Поисковая система AltaVista
- •7.3.7. Поисковый каталог Yahoo
- •7.4. Интеллектуальные поисковые системы: принцип организации, сравнительный анализ. Введение
- •Поиск с обратной связью на естественном языке
- •Интерактивный генератор диалогов
- •Начинается с ввода пользовательского запроса, который порождает либо обмен сообщениями на естественном языке, либо направление интерпретированного запроса поисковому агенту
- •Адаптивный поисковый агент
- •Основные выводы
- •Заключение
- •Список литературы
- •Глава 8. Перспективные технологии сети Интернет
- •8.1.Гигабитные испытательные модели
- •8.2. Примеры служб обмена данными
- •Сети х.25
- •Ретрансляция кадров
- •8.3.Широкополосные isdn и atm
- •Эталонная модель b-isdn atm
- •Протокол атм
- •Категории услуг протокола атм и управление трафиком
- •Перспективы atm
- •Сравнение предоставляемых услуг
- •Стандартизация сетей
- •8.3.1. Who's Who в мире телекоммуникаций
- •Передача трафика ip через сети atm
- •Сосуществование atm с традиционными технологиями локальных сетей
- •Использование технологии atm
- •Вопросы
- •8.4. Технология «Web 2.0» Введение
- •Причины появления web 2.0
- •Что такое web 2.0
- •8.4.1. Основные принципы Веба 2.0 Веб как платформа
- •8.4.2. Использование коллективного разума
- •Блоги и мудрость масс
- •Архитектура взаимодействия
- •Конец цикла разработки по
- •Упрощенные модели программирования
- •Софт работает поверх устройств
- •Богатые пользовательские интерфейсы
- •Что должны уметь компании в Вебе 2.0
- •Подходы к проектированию Веба 2.0
- •Примеры сайтов Web 2.0
- •Пример работы в Web 2.0- википедия (http://ru.Wikipedia.Org/wiki/)
- •В контакте (http://vkontakte.Ru/)
- •Заключение
- •Список литературы.
- •Глоссарий
- •Список литературы
- •Темы ргр по дисциплине «Сетевые информационные технологии»
- •Примеры экзаменационных билетов
7.3.3. Поисковая система Yandex.
www.ya.ru - текстовая версия
На сегодняшний день имеет самую большую базу данных, которая имеет кластерную структуру и размещена на нескольких серверах.
В 1996 году компанией CompTek, созданной со стопроцентным американским участием, на выставке Internetcom было официально объявлено о существовании "Яндекса". Это была морфологическая приставка к "Альтависте", которую отличало быстродействие и умение строить гипотезы. Пословный индекс для незнакомых слов организован также, как и для словарных - этим "Яндекс" отличается от других поисковиков.
23 сентября 1997 года "Яндекс" стал интернет-проектом. Релевантность документов вычислялась в зависимости от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и так далее. В октябре 1999 года в интервью "ИнфоБизнесу" Аркадий Волож указал: "Финансирование "Яндекса" всегда было не ниже сегодняшнего финансирования "Апорта". В результате, 6 июня 2000 года была представлена вторая версия системы, а нынешняя версия функционирует с 23 мая 2001 года. Ее главное нововведение, которое потребовало неизбежной перестройки ядра, - ранжирование по ссылкам. Другие нововведения относятся, главным образом, к переформулированию системой запросов пользователя: "что такое предмет" преобразуется в "предмет - это...", а если запрос начинается на слово "как", то в результатах в первую очередь пытаются выдать FAQ или иной справочный документ. Новый "Яндекс" стал "понимать" альтернативную лексику, которая входит в 5 процентов запросов. Только в последней версии Яндекса индекс цитируемости стал непосредственно использоваться поисковой машиной.
В настоящее время "Яндекс" обладает самой полной базой документов среди русских поисковиков, а также самой узнаваемой маркой.
Сравнение качества поиска. Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных).
Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.
Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин.
Отечественная компьютерная пресса, которая так любит устраивать тестирование лингвистических программ (например, систем оптического распознавания), пока ни разу не организовала ни одного тестирования отечественных поисковиков (в отличие от ZDnet). Научные тестирования поисковиков также представляются недостаточно объективными, так как используют, к примеру, всего четыре типа запросов (без учета реальной частоты этих запросов на некоторую поисковую машину). Поэтому остановимся на исследованиях для оценки точности по методике Н. Харина. Она используется во время периодических внутрифирменных тестирований поисковых машин в " Rambler " группой приглашенных экспертов-лингвистов (обычно, в течение двух недель каждое). Можно считать это тестирование независимым, так как его результат не используется заказчиком в маркетинговых целях. Исследования проводились путем оценки результатов поиска различных поисковиков по одним и тем же 100 популярным запросам, состоящим из одного, двух, трех и четырех слов. Важным условием всех исследований были четкие формулировки, какие именно документы считать релевантными смыслу каждого из запросов (без этого были бы получены сильно завышенные оценки технической эффективности). Часто встречающиеся запросы, содержащие ненормативную лексику, не учитывались.
Результаты исследований представлены ниже. Значения годичной давности оставлены, чтобы показать изменения эффективности при переходе "Яндекса" на более совершенную версию поисковой машины в июне 2000 года и изменение точности "Рамблера", вследствие того, что с ноября 2000 года некоторые нововведения стали последовательно внедряться в старый движок.
Результаты для "Апорта", по словам его создателя Евгения Киреева, качественно похожи на правду, потому что за прошедший год ничего в технологиях повышения релевантности в этой системе не менялось, так как, по его мнению, ничего уже и невозможно принципиально изменить. По его словам, команда "Апорта" спокойно ждет, пока "Яндекс" и "Рамблер" подтянутся до такого же уровня, и это будет уровнем развития отрасли. Фактически, результаты последнего исследования от 24 мая 2001 года, проведенные на следующий день после представления новой версии "Яндекса", показывают, что с нынешнего лета уровень отрасли определяется им.
Хотя данные советы даны в качестве "советов по поиску в Яндексе", тем не менее, они применимы к подавляющему большинству поисковых систем, так как все современные поисковые системы, в своих функциях и возможностях для поиска, очень похожи.
