Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Mirovye_informatsionnye_resursy.docx
Скачиваний:
3
Добавлен:
18.09.2019
Размер:
58.88 Кб
Скачать

Пространство имен.

Имя каждого тега в XML должно быть уникально, но в XML -документ может быть включен другой документ, содержащий такие же по названию теги, но несущие другой смысл. Чтобы различать одни и те же имена тегов и атрибутов, несущие разный смысл, их можно снабдить специальным префиксом, отделяемым от имени: этот префикс связывается с идентификатором, определяющим пространство имен. Внутри одного пространства все имена уникальны. Имя вместе с префиксом называется уточненным именем. Идентификатор пространства имен должен иметь форму URAI, этот URAI не имеет никакого значения и даже может не соответствовать действительному адресу сайта. Программы использующие документ не будут обращаться к этому адресу.

пример для *

Расширяемый язык ссылок XLL

Это одно из стандартизированных расширений XML, предоставляющее механизм создания гиперссылок в XML- документах, обладает след особенностями

1. XML ссылки реализованные не на уровне тегов, как в случае HTML, а с помощью зарезервированных имен атрибутов. Это позволяет с легкостью превратить в гипертекстовую ссылку любой элемент документа.

2. для XML- ссылки можно указать будет ли она обычной ссылкой, активируемой пользователем или браузер должен, встретив ее в документе, активизировать ее самостоятельно, не дожидаясь команды пользователя

3. для ссылки можно указать результат ее активации, например, вывести документ, на который она ссылается вместо текущего или вставить этот документ внутри текущего или организовать новый контекст вывода.

Внесены усовершенствования в синтаксис URL использующийся в ссылках. Они позволяют адресоваться к любому фрагменту XML или HTML файла, при этом не требуется, чтобы автор файла вносил какую-то спец размётку.

Расширяемый язык стилевых спецификаций. XST - обработка XML- документа, использующего XSL стили, происходит в 2 этапа. На первом этапе иерархическое дерево исходного документа преобразуется в другое дерево, содержимое при этом может быть переупорядочено, часть материала отфильтрована, а также сгенерирован новый. Могут измениться даже теги. Стандарт XXL содержит базовый набор тегов визуального форматирования, по возможностям превосходящий CSS 2. На втором этапе происходит форматирование документа, т.е. интерпретация тегов преобразованного документа и вывод на экран или печать.

Замечание: преобразование XSLT часто используют для преобразования документов из одного DTD в другое. Например,1С предприятия версии 8 и выше содержит механизм выгрузки данных в формате XML и механизм загрузки данных XML, при этом выгрузка производится в схеме стандартизированной конфигурацией, а для загрузки можно использовать XSLT схему, преобразующую загружаемый документ к стандартизированному 1С.

XHTML- одна из версий HTML появилась в 200? , представляет собой HTML , использующий строгость размётки XML. В XHTML нельзя вводить собственные теги, но правила разметки страницы носят не рекомендательный, а обязательный характер. Страница, приведенная с обычного HTML на XHTML будет корректно отображаться и распознаваться XML анализаторами. Основные правила размётки XHTML:

1. в начале документа обязательно указать <!DOCTYPE....>, со ссылкой на один из нескольких DTD XHTML

2. в документе обязательно должны присутствовать теги HTML, head, body, причем элемент title должен быть употреблен первым внутри head

3. все значения атрибутов должны быть заключены в кавычки

4. должна соблюдаться правильная вложенность тегов

5. закрывающие теги обязательны

6. все теги и имена атрибутов должны указываться в нижнем регистре.

28.04.2012

Принципы построения информационно-поисковых систем.

бд принято делить на 2 группы:

1. фактографические - предназначенные для хранения структурированной информации

2. документографические - предназначенные для хранения полнотекстовой информации

Наиболее популярной реализацией (1) являются реляционные базы данных- все данные представлены в виде таблиц, имеют развитый математический аппарат и основанный на этом аппарате стандартизированный язык запросов SQL.

Огромное кол-во информационных ресурсов не могут быть представлены в виде таблиц и не структурированны в математическом смысле.

(2) также часто называются информационно-поисковыми системами, их основная задача поиск информации. Результатом этого поиска является набор документов, содержащих данные соответствующих запросов.

Запрос с которым пользователь обращается к системе - это значение его информационной потребности, выраженное на специальном языке, однако запрос может быть выражен неправильно или не отображать полноту информационной потребности.

Определение: пертинентность - свойство документа соответствия информационному запросу. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными.

Релевантность - свойство соответствия документа информационному запросу в том виде, в каком он сформулирован.

Смысловое содержание запроса формализуется в виде поискового предписания и поисковых образов документов. Для записи предписаний и образов применяются специальные информационно-поисковые языки. В процессе проведения информационного поиска степень соответствия содержания документа запросу пользователя определяется сопоставлением поискового образа и предписания.

На основе такого сопоставления принимается решение о выдаче документа, он признается релевантным.

В состав типичной поисковой информационной системы входят:

1. подсистема ввода и регистрации

2. подсистема обработки

3. подсистема хранения

4. подсистема поиска

Текстовые документы, поступающие на вход системы, могут быть представлены в различной форме. Например, федеральный закон может быть представлен в виде текста или скана, хранимого в PDF- формате. Поэтому подсистема ввода и регистрации решает следующие задачи:

1. создание электронных образов документов, в том числе полученных с классических носителей

2. преобразования форматов электронных документов в формат принятый для внутреннего хранения системы

3. регистрация документа, а также хранение истории его изменения при необходимости

все поступающие документы без внесения в них каких - либо изменений отправляются в подсистему хранения.

Для глобальных поисковых систем хранение документов представляет собой очень сложную задачу, поскольку сохранить в одном месте все содержимое интернета невозможно.

Из подсистемы хранения документы поступают в подсистему обработки. Задачей этой подсистемы является формирование для каждого документа поискового образа. В который заносится информация, необходимая для последующего пользования. Индексом поисковой системы, называется хранилище сгенерированных поисковых образов документов. Структура индекса информационно- поисковых систем, как правило является коммерческой тайной. При поступлении на вход системы запроса от пользователя, он преобразуется в поисковое предписание и передается в подсистему поиска, задачами которой является отыскание в индексе поискового образа документов, удовлетворяющих поисковому предписанию. Идентификаторы релевантных документов попадают на вход подсистемы хранения, которая осуществляет выдачу пользователю документов или ссылок на них.

12.05.2012

Информационно-поисковые языки.

Языки классифицируются по сложности их грамматики, выделяют контекстно-зависимые и контекстно-свободные грамматики.

Наиболее удобными для автоматизированного анализа являются языки с односторонними контекстно-ориентированными грамматиками. К таким относится большинство языков программирования.

Естественный язык относится к контекстно-независимым языкам. Анализ высказываний, построенный в таких языках, представляет собой сложную задачу.

Идеальная информационно - поисковая система должна предоставлять возможность формулирования запросов на естественном языке, поскольку грамматика естественного языка является контекстно-свободной. При ее машинном анализе возникает несколько проблем:

1) многообразие средств передачи смысла. В естественном языке могут возникать изменения смысла лексических единиц в зависимости от контекста изложения, устойчивых связей между словами и прочее.

2) семантическая неоднозначность. Возникает обычно из-за синонимии и многозначности слов естественного языка. Синонимия представляет собой тождественность или близость одних и тех же слов, выражающих одно и тоже понятие. Например, должен и обязан.

Многозначность характеризуется возможностью неоднозначного понимания смысла отдельных слов.

Многозначность возможна двух видов:

1. полисемия - совпадение названий различных предметов, имеющих общие свойства и признаки. Например, оператор, группа.

2. омонимия - совпадение названий различных предметов, не имеющих между собой никаких общих свойств. Например, ключ.

3. эллипсисность - пропуски подразумеваемых слов. Одна из самых сложных проблем распознавания естественных языков. Методик извлечения смысла из фраз в естественном языке, имеющих эллипс на данный момент не существует.

Информационно - поисковым языком, называется специализированный искусственный язык, предназначенный для описания содержания документа с целью обеспечения возможности их дальнейшего поиска.

Информационно - поисковые языки обычно строятся на базе естественных языков, но отличаются компактностью, наличием четких грамматических правил, отсутствием выразительных средств, и как следствие неоднозначностей. Пример, SQL.

Информационно - поисковые языки принято подразделять на 2 типа:

1. классификационные.

2. дискрипторные (описательные).

В лексемы (1) входят, кроме обычных слов, выражения, а также заранее включенные словосочетания и фразы, выражающие сложные понятия. При этом задача построения сложного выражения обычно сводится к выбору из многоуровневого справочника. Например, классификатор научных специальностей ВАК, библиотечный классификатор УДК и ББК.

Частным случаем классификационного информационно - поискового языка является рубрикатор, лексическими единицами которого являются названия тематических рубрик.

(2) это языки, лексемами которого являются заведомо - несвязанные текстуальными отношениями лексемы естественного языка. Сложные синтаксические конструкции создаются путем объединения во время процедуры представления смыслового содержания документов системы. Предопределенных составных лексем в таких языках нет. В связи с чем отсутствуют ограничения на составление сложных понятий, это посткоординируемые языки.

Различают дискрипторные информационно - поисковые языки с грамматикой и без грамматики. С грамматикой имеют жесткие правила формирования синтаксических конструкций. Без грамматики такие правила отсутствуют.

Глобальные поисковые системы.

Глобальные поисковые системы - это информационно- поисковые системы, которые в качестве обрабатываемого массива документов рассматривают всемирную паутину.

Алгоритм работы глобальной поисковой системы можно разбить на два этапа:

1. сбор страниц. Для сбора страниц поисковая система обычно использует самостоятельный модуль, называемый поисковым роботом или пауком. Это программа, осуществляющая автоматическое сканирование веб - ресурсов.

Источники из которых поисковый бот узнает о существовании страниц:

а. ссылки обнаруженные на других страницах

б. оправленные поисковой системе ссылки на вновь созданные сайты, а также формально представленная карта сайта sitemap.xml выполняется обычно веб- мастером.

в. tool - бары, предоставляемые различными поисковиками.

19.05.2012

Страницы могут быть отмечены, как запрещенные для индексации. Для этого используется robot.txt файл, который кладется в корень сайта. В этом файле отмечаются страницы или группы страниц (находящиеся в одной папке или имеющие общие части имени) на которые роботу заходить нельзя. Согласно договоренности также можно указать конкретный тип робота, для которого действуют указанные запреты. Также можно запретить индексацию отдельных частей страницы на уровне HTML, для этого используется тег <noindex>...</noindex>. Можно запретить поисковику переходить по ссылке со страницы, для этого у ссылки должен быть атрибут rel="nofollow". Эти же настройки можно определить для всей страницы целиком поместив в заголовке тег <meta name="robots" content= "noindex",nofollow, или вместе />.

2.Индексирование страниц. Узнав о существовании страницы, робот поисковой системы скачивает ее и анализирует. Внешний вид страницы и то, как ее видит поисковый робот нетождественные понятия. К примеру, страница полностью построенная на технологии флэш может быть очень красивой, информативной и удобной, но робот ее увидит как страницу, содержащую один единственный медиа- объект - флэш- ролик, при этом текст страницы и расположенные на ней ссылки не будут видны роботу.

При анализе страницы внимание робота может быть обращено на значение элемента <title> , текст страницы, а также на альтернативный текст картинок и некоторые значения описанные в meta.

Некоторое время назад поисковики уделяли большое внимание значению атрибута <meta name ="keywords"; content="учебник,студент"/>. В настоящее время большинство поисковиков не обращают внимания на ключ слова. Наиболее значимыми считаются заголовок (title), а также выделенные слова в тексте. Поисковик разбивает текст страницы на отдельные слова и строит числовую оценку для каждого слова. На значимость слова может повлиять номер предложения от начала текста, удаленность этого слова от начала предложения, а также наличие специальных выделения. Учитывается лишь семантическое выделение. Например, <style> glavnoe {font-size: 20pt; color: red;} <style/> ... <p> слово1 <span class ="glavnoe">слово2</span> <еm>слово3</em></p>.

Кроме текста могут быть проанализированы изображения на странице, для этого поисковик пытается найти у каждого изображения атрибуты title и alt. Если у изображения есть такие атрибуты, они будут проанализированы также, как и текст, и по соответствующему поисковому запросу можно будет находить эти изображения. Например, <img src="/1.jpg" alt="Иванов И.И."/>.

Данные, записанные в полях мета, все же анализируются некоторыми поисковыми системами, либо глобальными системами в исключительных случаях. Например, существует договоренность о разметке мета- информации, называемая Дублинским ядром. По сути, эта договоренность, эквивалентна правилам заполнения библиотечных карточек. Если сайт зарегистрирован в какой-либо библиотечной электронной системе, например, google schoolar.

Также поисковые машины обращают внимание на геоинформационные поля мета.

Поисковый спам.

Из-за злоупотребления при заполнении полей keyword, discription и прочих, поисковые машины практически перестали обращать внимание на значения этих полей, но встречаются случаи, когда разработчик, желающий вывести свой сайт в топ поисковика по определенным запросам прибегает к методам, отсечь которые трудно. Например, <style> .geo_text{color:white;background:white; font-size:1pt;} </style>... <p class = "geo_text"> Мир,труд,май </p>, называется поисковый спам, сложно отследить. Сайт с поисковым спамом обычно исключается из индекса навсегда.

Однако есть легальные технологии, формализованные, как набор правил, позволяющие строить, таким образом, веб - страницы, чтобы они были наиболее дружелюбны поисковому роботу. Класс таких технологий называют SEO.

Ранжирование выдачи.

До эпохи поисковых машин основным инструментом поиска в интернет были каталоги, например, желтые страницы интернета. Поисковые машины существовали, но были достаточно слабыми и давали результат, существенно менее качественный, чем каталоги.

Идея поисковика Google заключалась в анализе интернета, как ориентированного графа, при этом для каждой страницы вычислялся показатель значимости этой страницы Page Rank и при выводе результатов запроса, страницы обладающие одинаковой релевантностью сортировались по убывают показателя Page Rank.

Аналогом Page Rank является индекс цитирование.

Алгоритмы ранжирования хранятся поисковиками в тайне, во избежание спекуляций со стороны веб - мастеров. В настоящий момент существует несколько объективных показателей популярности веб - ресурсов. Часть этих показателей влияет на ранжирование при выдаче результатов запросов, часть не влияет. Рассмотрим наиболее важные:

1. Google Page Rank - показатель измеряющийся от 0 до 10, возможна ситуация неопределенности. Встречается редко и в основном для новых сайтов.

Ориентировочная формула расчета Page Rank ... , где ... таким образом, каждая страница раздает свой Page Rank другим страницам, на которые ссылается и получает часть Page Rank, ссылающихся на нее страниц.

2. тиц - показатель исчисляемый от 0 до некоторого неопределенного максимума. Отличается от Page Rank тем, что показывает авторитетность всего сайта, а не отдельных его страниц. Не влияет на поисковую выдачу, но влияет на позицию ресурса в каталоге яндекса. Для оценки отдельных страниц яндекс также использует виц, он является непубличным, но влияет на поисковое ранжирование.

3. Alexa Rank показатель посещаемости ресурса, а также сопряженной с ней статистикой (среднее время проведенное на странице, богатство контента и прочее в т.ч демографические показатели)

назначение технологии ssl в контексте http

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]