Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ГОСы / ФБИ МИР 2016

.pdf
Скачиваний:
31
Добавлен:
04.01.2020
Размер:
2.07 Mб
Скачать

25. Эффективность работы поисковых машин

Эффективность работы поисковых систем ограничивается четырьмя существенными факторами.

1. Топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете.

Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. веб-страниц и 1,5 млн. ссылок,

размещенных на этих страницах, специалисты пришли к выводу, что все исследуемое пространство состоит из следующих компонентов:

Центральное ядро (тесно связанные между собой веб-страницы) 28%

Отправные страницы (в них есть ссылки, ведущие к ядру, но с ядра попасть к отправным страницам нельзя) 22%

Конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру с них попасть нельзя 22%

Отростки — полностью изолированные от ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных страниц 22%

Острова — Веб-страницы, не пересекающиеся с остальными ресурсами Интернет 6%

Котдельным ресурсам Интернета поисковые машины не имеют доступа.

2.Глубина индексирования веб-сайтов. Глубина – количество страниц и вложенность директорий,

просматриваемая при индексации. Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.

3.Охват — определяется тремя показателями – объемом проиндексированной информации,

количеством уникальных серверов и количеством уникальных документов (говорят, не больше трети всех сайтов в Интернете).

"Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть - это та часть сайта, которая не предназначена для обработки поисковыми системами

Cуществует понятие «невидимый Интернет». К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а

также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.

4. Частота индексации. Индекс поисковых систем Интернета обновляется с периодичностью около неде-ли. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например,

периодических изданий, так как выходят они заведомо чаще, чем об-новляется индекс.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины

Google, Yandex, Rambler. При работе с поисковыми машинами большое значение име-ет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

Скорость обхода – показывает, насколько быстро осуществляется индексация новой информации в

базе.

Скорость поиска – скорость выполнения поисковой системой запроса пользователя.

26. Топология интернета

Топология интернета (А. Брѐдер, 1999 г.)

Модель «галстук-бабочка»

Центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

"Отправные" Web-страницы (IN) (22% Web-страниц) — они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

"Оконечные" Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро.

"Отростки" (еще 22% Web-страниц) — полностью изолированы от центрального ядра: это либо

"мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки",

соединяющие две Web-страницы, не входящие в ядро.

Острова – веб-страницы, не пересекающиеся с остальными ресурсами Интернета 6%

Выявлено, что четыре основных множества - более 90% веб-страниц, топологически относятся к одной компоненте связности. Существуют и "острова", которые вообще не пересекаются с остальными ресурсами Интернет. Единственный способ обнаружить ресурсы этой группы - знать адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Интернет.

27. Скрытые ресурсы интернета

Не попадем на них через информационно-поисковые системы (ИПС).

1) Источники, недоступные для ИПС

Глубокая паутина (также известна как невидимая сеть) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Не следует смешивать понятие глубокая паутина с понятием тѐмная паутина (от англ. dark web), под которым имеются в виду сетевые сегменты, хотя и подключѐнные к общей сети Интернет, но требующие для доступа определенных программных средств, настроек или авторизации.

www.brightplanet.com – навигатор скрытого веба

2)Скрытые ресурсы

Онлайн БД (вход через систему или требует пароля) (патенты, медицина и финансы)

Ресурсы, требующие пароль и регистрацию — объявления о поиске работы, чаты, библиотеки,

справочники (не все).

С-мы интерактивного взаимодействия с пользователем — помощи, консультирования,

обучения, требующие участия людей для формирования динамических ответов от серверов

Специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб. Например, медицинские поисковики.

Закрытая (полностью или частично) информацию, доступную, пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. Например, китайский интернет.

Веб-сайты, зарегистрированные на бесплатных серверах. Индексируются, в лучшем случае,

лишь частично - поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме

Веб-сайты, создатели которых не оповещают о создании этих ресурсов

Различные форматы представления информации. Например, только сравнительно недавно поисковые машины начали индексировать информацию в PDF-формате.

архив ресурсов «открытого веба» — устаревающие веб-страницы

На Alexa.com есть ресурс «машина времени» The Wayback Machine — Интернет-архив.

Сохранено 484 биллиона веб-страниц.

Плюс некоторые удаленные документы сохраняются какое-то время в кэше гугла.

По топологии Бредера (галстук бабочка):

Существующие "острова" вообще не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы - знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Интернет..

Доступные сегодня благодаря традиционным информационно-поисковым системам 10 млрд. вэб-

страниц - это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше.

Это прежде всего динамически генерируемые страницы, файлы неопознаваемых поисковыми системами форматов, информация из многочисленных баз данных.

.

28.Конкурентная разведка, источники информации для конкурентной разведки

Конкурентная разведка – сбор информации о деятельности конкурентов.

корпоративная разведка,

бизнес-разведка,

деловая разведка,

маркетинговая деятельность,

промышленный шпионаж,

бенчмаркинг — механизм сравнительного анализа эффективности работы одной

компании с показателями других, более успешных фирм.

СМИ (новостные агентства, газеты, реклама)

Интернет (сайт компании, сайты партнеров, грамотный поиск. Искать надо, цепляясь за мелочи.

Использовать команды расширенного поиска. Использовать разные поисковики под разные задачи. Работать с адресной строкой: можно пробовать самим подбирать названия папок,

файлов)

ярмарки, выставки, конференции, семинары, обход торговых точек.

неформальное общение с коллегами и партнерами.

Профессиональные БД, рейтинги.

рекламные материалы и проспекты компаний, фирменные справочники.

пресс-релизы, отраслевые издания.

технические и патентные доклады.

объявления конкурентов.

сама продукция (купить на исследование).

государственные или правоохранительные органы.

другие организации, специализирующиеся на информационном обслуживании, научных исследованиях, консультациях, инжиниринговых, брокерских услугах, аудиторские и консалтинговые фирмы, банки (ВНИКИ, ТПП).

звонки в конкурирующие компании.

косвенная информация о действиях конкурентов (активность, кредиты, заявки на тендеры).

информация от частных лиц…

29.Оценка качества информационных ресурсов и эффективности их использования

Качество одной и той же информации при реализации различных целей или видов деятельности

различно.

Этап сбора или отбора данных сопровождается чрезвычайно важной характеристикой информации – ее репрезентативностью, связанной с определенными правилами сбора, отбора и формирования данных таким образом, чтобы последние наиболее правильно отражали исследуемые стороны и свойства объекта и представляли в дальнейшем этот объект адекватно. Нарушение репрезентативности при формировании информации приводит нередко к существенным ее погрешностям и сказывается на основных характеристиках информации – точности и достоверности.

Точность информации характеризует степень приближения этой информации к реальному состоянию отображаемого объекта, процесса, явления или окружающей действительности.

Достоверность (адекватность, истинность, верность) информации определяется ее свойством отражать реально существующие объекты с необходимой точностью.

При формировании ИР весьма важный характеристикой является его смысловая содержательность, которая отражает количество информации, несущей некий смысл сообщения,

или объем содержащихся в нем знаний по отношению к общему объему сообщения. Указанное отношение может находиться в пределах от 0 (в сообщении нет смысла и оно полностью избыточно)

до 1 (все данные сообщения осмысленны, а избыточность равна нулю).

Полнота– соотношение между имеющейся информацией по проблеме и той информацией,

которая доступна пользователю. Чем больше знаний содержит ИР по конкретной проблеме, тем выше эффективность использования этого ресурса при последующем его использовании потребителями с различным уровнем предметной подготовки.

Достаточность определяется возможностью достижения поставленной цели, при наличии доступной пользователю данного ИР.

Доступность информации характеризует возможность доступа к ней, получения и дальнейшего ее использования со стороны потребителя, в том числе возможность получить информацию в заданное время.

Эффективность использования информации обуславливается такими основными ее потребительскими показателями качества, как полезность, важность, актуальность,

своевременность, соответствие запросу, цена.

Полезность характеризует способность приносить пользу в интересах кого-нибудь, в

соответствии с чьими-нибудь выгодами и определяется абсолютной или относительной величиной полученного эффекта в результате использования конкретного ИР по отношению к результату,

достигнутому без использования данного ресурса.

Важность определяет степень влияния используемого ИР в процессе анализа складывающейся ситуации и принятия решения на пути достижения поставленной цели по отношению к влиянию другой используемой при этом информации. Эта характеристика выражает, насколько нужна и значительна именно данная информация для принятия решений.

Актуальность отражает степень важности и значительности содержательной сущности полученной информации в момент ее использования, в том числе для анализа складывающейся ситуации и принятия решения по управлению наилучшим образом. Эта характеристика подчеркивает востребованность ИР именно в определенный момент времени. Дело в том, что со временем многие ИР устаревают и полностью или частично теряют свою актуальность. Поэтому с актуальностью часто связывают коммерческую ценность информации, т.е. ее цену.

Своевременность характеризует факт поступления ИР в пределах временного периода между моментом появления потребности в данной информации и моментом выполнения аналитических процедур и принятия конкретного решения по управлению. Иначе говоря, эта характеристика означает поступление информации не позже заранее назначенного времени, согласованного со временем решения поставленной задачи, когда данная информация еще может повлиять на результат принятия решения.

Соответствие запросу– содержательная тематическая характеристика ИР, которую определяет потребитель при получении ресурса определенной тематической направленности в ответ на его конкретный тематический запрос передающей стороне. В данном случае учитывается полнота или достаточность объема знаний, заложенных в ИР, которые необходимы для эффективного решения поставленных задач.

Цена определяет денежное выражение стоимости ИР в том случае, если последний выступает в виде продаваемого товара, который удовлетворяет специфическим потребностям пользователей. В ее основе также заложена рыночная стоимость, складывающаяся с учетом признанных обществом на рынке затрат труда на подготовку ИР и его потребительских свойств с учетом востребованности,

полезности, важности и других характеристик.

Из всех ранее перечисленных признаков, характеризующих ИР, только цена может являться объективным свойством, которое имеет количественную меру оценки. Остальные признаки являются качественными, показатели которых могут выражаться относительными понятиями предпочтений.

Пример формализованной оценки качества информационных ресурсов и эффективности их использования

На первом этапе определяется набор отдельных признаков качества некоторого ИР (по классу позитивных признаков и отдельно по классу негативных признаков), которые принимаются для последующей их оценки в процессе общей комплексной оценки качества и эффективности использования этого ресурса.

В первом классе признаков (позитивных) приняты для оценки следующие признаки c учетом их вышеприведенного градационного разбиения: полезность, важность, актуальность,

своевременность и соответствие запросу:

Во втором классе признаков (негативных) приняты двапризнака c учетом их вышеприведенного градационного разбиения: цена и ущерб.

На втором этапе для каждого признака устанавливаются градационные шкалы, позволяющие оценить степень влияния каждого признака на эффективность использования ИР.

Для первого класса признаков:

Полезность (РП), важность (РВ), актуальность(PА)– 4 градации;

Своевременность (PТ), соответствие запросу (PЗ)– 2 градации.

Для второго класса признаков:

Цена (PЦ) — 3 градации (qЦ = 3);

Возможность ущерба (PУ) — 4 градации (qУ = 4).

На третьем этапе определяются количественные значения каждого уровня шкалы градационного разбиения отдельных признаков качества с учетом назначенных коэффициентов весомости каждого признака.

Предположим, что для каждого позитивного признака экспертным путем установлены коэффициенты весомости. На их основании рассчитываются коэффициенты нормирования для каждого класса признаков по формулам:

Далее определяются ранги для каждого признака по формулам (entier — округление до целого):

После рассчитывается шаг градации для каждого признака по формулам:

Рассчитываются значения уровней градации для каждого признака по формулам:

Четвертый этап. На основании выбранных для анализа признаков и полученных значений градаций по каждому признаку составляется лист экспертной оценки эффективности использования ИР.В данном листе потребитель указывает соответствующие каждой градации отдельных признаков количественные оценки, которые при суммировании дают обобщенную (комплексную) оценку эффективности использования данного ИР.

Оценка, проведенная по предлагаемой методике потребителем ИР, позволяет ему самостоятельно делать выводы о дальнейшем применении и использовании данного ресурса.