Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ГОСы / ФБИ МИР 2016

.pdf
Скачиваний:
31
Добавлен:
04.01.2020
Размер:
2.07 Mб
Скачать

20. Классификация источников информации в интернете

На рисунке — схема информационных потоков в интернете Источники ИР:

Бесплатные сайты, интернет

Сайты информационных агентств (профессиональные БД)

СМИ

Библиотеки, архивы, НТИ, статистические отделы

Торговые точки

Классификация источников информации в Интернете может производиться по разным основаниям:

1) По способам представления информации

1. Web-страницы – наиболее распространенный и используемый из информационных ресурсов.

Представляет собой страницы, связанные гипертекстом.

2. Файловые серверы – представляют собой реализацию в Интернете традиционного способа предоставления информации;

3. Телеконференции – являются важным источником информации и разбиваются на группы (рубрики)

по различным тематикам; 4. Базы данных – в них часто содержится кроме текстовой информации также другие виды информации.

2) по языковому признаку.

В Интернете представлены практически все основные языки, но превалирующим является английский.

3) по территориальному признаку

ряд сайтов представляет информацию для потребителей определенного региона, хотя доступ к ней возможен с любой точки мира.

4) по содержанию информации.

Деловая информация, необходимая предпринимательской деятельности, по этому критерию может быть разделена на следующие группы:

1.Сведения о фирмах и организациях – различают три типа серверов данной группы:

а) серверы присутствия в Интернете делятся на рекламные и информирующие. Рекламные обычно содержат 1 – 2 страницы; информирующие содержат более подробную информацию о фирме, о производимой ей продукции и услугах;

б) информационные серверы – их ведут информационно-аналитические агентства, в том числе государственные, чья деятельность связана с предоставлением различного рода информации потребителям;

в) интерактивные магазины – обеспечивают продажу товара посредством Интернета.

2.Сведения о состоянии мировой экономики и экономики отдельных стран – данная информация представлена в профессиональных базах крупнейших информационно-аналитических агентств мира.

Серверы этих агентств входят в состав информационных ресурсов Интернета.

3. Сведения о состоянии отраслевых рынков – анализ отраслевых рынков осуществляют специализированные маркетинговые и консалтинговые агентства, а также маркетинговые службы различных фирм и организаций. Результаты этих исследований можно получить:

-из профессиональных баз, крупнейших информационных агентств;

-в самих агентствах, чьи сайты представлены в Интернете;

-в многопрофильных и отраслевых журналах, регулярно публикующих обзоры рынков (Эксперт,

Профиль и т.д.).

4. Деловые новости – подавляющее большинство мировых информационных агентств, предоставляют потребителям доступ к деловым новостям, из которых можно выделить:

- зарубежные (Lexis-Nexis, Dialog и т.д.);

-отечественные (РИА-Новости – государственное информационно-аналитическое агентство РФ,

ИТАР-ТАСС – государственное информационное агентство РФ).

5. Справочная информация – списки Web -сайтов компаний, отобранных по определенному принципу,

а также телефонно-адресный справочник с возможностью поиска информации по названию фирмы и виду деятельности. Также в Интернете представлены телефонные справочники городов России, стран СНГ и Балтии. Имеется информация о расписании движения поездов, авиарейсов, погоде и т.п.

21.Средства поиска информации в интернете

1)Гиперссылки

Переход с одного сайта по ссылке на другой. Занимает очень много времени.

2) Поисковые системы

Поисковые системы — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Основные составляющие поисковой системы: поисковый робот, индексатор (формирует индексную базу), поисковик. Также пользовательский интерфейс.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещѐ не известных поисковой системе.

Индексатор — это модуль, который анализирует страницу, предварительно разбив еѐ на части,

применяя собственные лексические и морфологические алгоритмы.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования.

Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов.

Индексация — процесс добавления сведений о сайте роботом поисковой машины в БД.

Впоследствии используется для полнотекстового поиска информации на проиндексированных сайтах.

Виндекс включаются:

основы слов

номера страниц

номера вхождений

ссылки

документы

изображения и т.д.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Поисковый индекс строится по специальной методике на основе информации, извлечѐнной из веб-

страниц.

3) Веб-каталоги

структурированный набор ссылок на сайты с кратким их описанием. Сайты внутри каталога разбиваются по темам, а внутри тем могут быть ранжированы или по индексу цитирования (как в каталогах Яндекса или Google), или по дате добавления, или по алфавиту, или по другому параметру.

4) Справочные ресурсы

К справочным ресурсам Интернет относятся электронные энциклопедии, справочники и словари,

расположенные на web-серверах в различных частях света. Во Всемирной паутине широко представлены как электронные версии авторитетнейших печатных изданий, так и источники,

существующие исключительно в Сети.

Википедия, сервисы перевода, Энциклопедия Кирилла и Мефодия, Рубрикон (энциклопедии,

словари и справочники), Энциклопедия Britannica и т.д.

5) Профессиональные БД

это базы данных с удаленным доступом, содержащие технические, деловые, правовые и другие сведения, подготовленные профессиональными производителями информации.

Характеристики:

больший объем релевантной информации,

более полная и достоверная информация,

высокий уровень структуризации данных,

развитая поисковая система.

Например, LEXIS NEXIS, Dan and Bradstreet

6) Локальные программы

— Поисковые плагины (панель поиска в браузере, в которой можно вводить поисковые запросы.)

— Омнибокс — Адресная строка с расширенной функциональностью в современных моделях браузеров. Если в омнибокс написать адрес сайта, то он просто перейдет по соответствующему адресу,

если написать поисковый запрос, то будет осуществлен поиск в соответствии с выбранной поисковой системой.

— программа FirstStop WebSearch: фильтрует, проверяет, агрегирует и интегрирует результаты в в объединенный упорядоченный список.

Получает только релевантные результаты с помощью автоматической проверки и удаления дубликатов. Особенности включают в себя: встроенный мастер запроса, библиотеку поиска,

возможность экспортировать результаты поиска в Microsoft Word и Excel, доступ к закладкам браузера

имногое другое.

Image Wolf — продвинутый инструмент, разработанный для поиска труднонаходимых изображений.

ипрочее

22. Работа поисковых машин

Основные составляющие поисковой системы: поисковый робот, индексатор (формирует индексную базу), поисковик. Также пользовательский интерефейс.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещѐ не известных поисковой системе. Владелец сайта может исключить определѐнные страницы при помощи robots.txt,

используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования.

Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов.

Индексатор — это модуль, который анализирует страницу, предварительно разбив еѐ на части,

применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или еѐ часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы,

подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещѐнных страниц.

Индексация — процесс добавления сведений о сайте роботом поисковой машины в БД.

Впоследствии используется для полнотекстового поиска информации на проиндексированных сайтах.

Виндекс включаются:

основы слов

номера страниц

номера вхождений

ссылки

документы

изображения и т.д.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов),

система проверяет свой индекс и выдаѐт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации,

извлечѐнной из веб-страниц.

23.Виды поисковых интернет-систем

Универсальные интернет-поисковики (google, yandex)

Система вертикального поиска.

Системы вертикального поиска ориентированы на конкретную область и позволяют осуществлять глубокий поиск именно по данной тематике.

Научная тематика:

Google Academia (книги, статьи, концеренции)

scholar.ru — научная электронная библиотека

elementy.ru — Сайт о фундаментальной науке. Новости, статьи, лекции, задачи и прочее

Поиск книг:

google books

http://www.ebdb.ru/ — поиск книг в электронных библиотеках

нигма.рф — интеллектуальная поисковая система (раздел «Книги»)

Ориентированы на полнотекстовый поиск

Поиск программ: http://softsearch.ru/ — архив ПО

Поиск по блогам и новостям Мониторинг соцсетей и СМИ

https://youscan.io/ , http://iqbuzz.pro/ — системы для мониторинга упоминаний в социальных медиа

Поиск изображений

анализ не только названия изображения, но и содержание (CBIR — поиск изображения по содержанию). Алгоритм поиска должен анализировать содержание изображения, например,

цвет представленных на нѐм объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.

Яндекс. Картинки, Google images

Поиск видео

http://univertv.ru/ — образовательные видео

Youtube, Яндекс.Видео

http://intellect-video.com/ — документальные видео

Метапоисковые системы (нигма.рф, yippy, ixquick)

это поисковая система, которая в отличие от классических поисковых машин не имеет собственной базы данных и собственного поискового индекса, а формирует поисковую выдачу за счет смешивания и переранжирования результатов поиска других поисковых систем.Может обладать более удобным интерфейсом, чем у универсальных поисковиков

Визуальные (также метапоисковые)

zuula — поисковый интерфейс построен на вкладках

quintura — позволяет визуально находить в Рунете документы на русском языке и картинки с учетом морфологии русского языка. Особенность Quintura — визуальное «облако», или карта,

слов-ассоциаций между картинками или документами, которая является удобным навигатором по ним.

Семантические (ask.net) – обрабатывает запросы на естественном языке

Рекомендательные машины (имхонет, irecommend.ru, livelib, last.fm) – могут выдавать рекомендации на основе предпочтений. Содержат отзывы реальных людей.

Персональные поисковики – система пользовательского поиска google, flexum. Предлагают набор инструментов для создания собственной индексной базы, что позволяет повысить качество тематического поиска за счет ручного отбора включаемых в нее ресурсов.

24. Эффективность поиска информации

Эффективность поиска информации в сети Интернет можно оценить с помощью различных групп показателей.

1. Семантические показатели.

Введем следующие обозначения:

a - множество релевантных и выданных системой документов;

b - множество нерелевантных, но выданных системой документов; c - множество релевантных, но не выданных системой документов.

Полнота

Полнота выдачи (ПВ) =a / (a+c) *100%

Потери информации (ПИ) = c / (a+c) *100%

Релевантность - объективно существующее смысловое соответствие между содержанием документа и запроса. Объективное соответствие запроса и результата, математически верный результат.

Точность выдачи (ТВ) = a / (a+b) *100%

Информационный шум (ИШ) = b / (а+b) *100%

2. Прагматические показатели.

Пертинентность - это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя (Pertinent – уместный, относящийся к делу).

3. Другие показатели.

Достоверность — степень соответствия информации об объекте его реальному состоянию.

Лучше пользоваться первичными источниками. Необходимо проверять их надежность, выявлять логические несоответствия. Важно понимать контекст, в котором подается информация. Можно подвергнуться манипуляциям.

Время на поиск (формулировку запроса) — системы мониторинга позволяют его уменьшить.

Время до принятия решения

В течение определенного времени после возникновения события необходимо сохранить информацию о нем, а затем через какое-то время на ее основе принять управленческое решение. Если затянуть с принятием решения, информация к тому моменту может уже быть искажена.