Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информатика. ответы на вопросы..doc
Скачиваний:
6
Добавлен:
28.10.2018
Размер:
441.34 Кб
Скачать
  1. Информационно-поисковые системы, принципы их работы. Перспективы интеллектуализации информационно-поисковых систем.

 ИПС (информационно-поискОвая  система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе, о нём речь пойдёт дальше, не удивляйтесь, когда встретите это слово) на основе информационно-поискового языка и соответствующих правил поиска.

    Главной задачей любой ИПС является поиск  информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность. Релевантность - это соответствие результатов поиска сформулированному запросу.

    По  пространственному масштабу ИПС  можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

    В общем случае, можно выделить следующие  поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые  системы.

    Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

    Поиск в каталоге очень удобен и проводится посредством последовательного  уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или  страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

    Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

    Адреса  популярных каталогов:

    Зарубежные  каталоги: Yahoo - www.yahoo.com Magellan - www.mckinley.com

    Российские  каталоги: @Rus - www.aport.ru Weblist - www.weblist.ru Улитка - www.ulitka.ru

    Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

    Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

    Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или  фразы, заключенной в кавычки. Индекс формируется и поддерживается в  актуальном состоянии роботами-индексировщиками.

    В описании документа чаще всего содержится несколько первых предложений или  выдержки из текста документа с выделением ключевых слов. Как правило, указана  дата обновления (проверки) документа, его размер в килобайтах, некоторые  системы определяют язык документа и его кодировку (для русскоязычных документов).

    Что можно делать с полученными результатами? Если название и описание документа  соответствует вашим требованиям, можно немедленно перейти к его  первоисточнику по ссылке. Это удобнее  делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

    Адреса  наиболее популярных поисковых машин  за рубежом и в России.

    Зарубежные  поисковые машины: Google - www.google.com Altavista - www.altavista.com

    Российские  поисковые машины: Яndex - www.yandex.ru (или www.ya.ru) Рэмблер - www.rambler.ru Апорт - www.aport.ru

    Метапоисковая система. Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

    Адреса  известных метапоисковых систем: MetaCrawler - www.metacrawler.com SavvySearch - www.savvysearch.com

 

     К дальнейшей информации рекомендую относиться аналитически, ибо, по-моему, не все  из описанных проблем существуют на сей день. 

    Организация ИПС 

    ИПС отличаются друг от друга по логике своей работы и по техническим параметрам. К логике относится выделение единицы хранения, язык запросов, представление исходных и выходных документов, а также - адресная информация. К параметрам - время индексации и поиска, объем индекса, поддержка существующих платформ, совместимость с другими системами. 

    Основными критериями качества работы поисковой  машины являются релевантность (степень  соответствия запроса и найденного, то есть уместность результата), полнота  базы, учёт морфологии языка. 

    Основатели  и разработчики первых поисковых  систем воспользовались методом  поиска книг в библиотеках. Они создали  тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конец концов к группе «Scooter» пришлось проделывать путь в 7-8 подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти. 

    Потом постепенно все поисковые системы  начали переходить на «поисковые указатели». В отличии от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но в последствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке. 

    Большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Принцип работы: сначала поисковая система индексирует (собирает) информацию и заносит их в базу данных, потом, с учетом морфологии, разрезает все слова страниц на составляющие. Если человек обращается к поисковому процессору, то в действие вступает третий и четвертый этапы работы поисковой системы, она выбирает из базы абсолютно все документы, соответствующие данному запросу, а потом уже выводит их в зависимости от того, какая страница имеет больший поисковый вес, точность вхождения поисковой фразы, дату обновления и т.д. 

    Такая выборка, на основе многих параметров, называется ранжированием результатов  поиска. Первые механизмы ранжирования документов строились на основе точности вхождения самого текста в поисковый запрос. Но это оказалось неактуальным, потому что степень вхождения поисковой фразы, расположение ее в теле документа или список ключевых слов не давал полного представления о документе. 

    Именно  механизмы ранжирования отличают поисковые  системы одну от другой. Сейчас каждая поисковая система старается  предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на поисковом рынке. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов. Именно они (совместно со скоростью индексации и объемами указателей) и помогли в свое время Гуглу опередить некогда лидирующую АльтаВисту. 

    Простейший  способ организации индекса (базы с описанием источников информации, я говорила, что про это будет, но не знаю, насколько оно вам нужно) для ИПС - сделать единицей хранения выделенную по некоторым правилам (пробелы, знаки препинания) последовательность из букв и цифр. Назовем такую последовательность токеном (впервые слышу это слово, но так написано, на всякий случай пропускайте). А в качестве адресной информации можно хранить путь и имя файла, URL Web-страницы или номер записи и поле БД. По такому пути пошли и идут разработчики многих систем. Например, один из самых известных поисковых механизмов в Интернет - AltaVista компании Dec.  

    ИМХО, по личному опыту  работы с гуглом: он работает с русским  словарём машинных основ  и окончаний (пойти  и пошёл воспринимает как разные слова, и подтвердить словарь словоформ мне не удалось), так что последующие три абзаца неактуальны. 

Развитие  ИПС (оно же типа принципы интеллектуализации)

    Дальнейшее  содержательное развитие ИПС идет в  сторону упрощения работы с ними и их интеллектуализации. Идеальный  язык запросов ИПС - естественный. Надо научить систему "понимать", что от нее хотят. Для этого широко используют словари, ряды синонимов, тезаурусы слов. Для расширения области поиска делают переводы (как правило, пословные) запросов на другой язык (например, в Интернете - с русского на английский). Представляется заманчивым научить ИПС выполнять запрос вида: "Найди мне все на данную тему", или, что еще сложнее, "Подбери мне все документы такие, как этот". Для решения этой задачи используют методы теории распознавания образов, нейронные сети, контент-анализ.  

    Существует  два противоположных подхода к поисковым механизмам. Первый, "демократический" - поиск должен быть настолько прост, чтобы любой неподготовленный человек мог бы не очень задумываясь спросить, что ему надо, и получить за приемлемое время приемлемый ответ. Второй, "элитарный" - поиск является тонким инструментом, с которым надо разобраться и обращаться квалифицированно. Как обычно, оба подхода справедливы, что находит свое отражение в наличии у всех крупных Интернет-поисков двух поисковых страниц - Simple и Advance (ИМХО, это у гугла «простой и «расширенный», с дополнительными параметрами). 

    При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).

Шаблоны? Выделение токена указанным выше способом имеет очевидные недостатки для всех языков, в которых слова имеют словоформы - то есть изменяются по числам, родам, падежам, временам. При поиске пользователь вынужден либо вспоминать, как точно выглядело искомое слово, либо, почувствовав себя школьником, честно склонять и спрягать, чтобы получить полную парадигму слова.? Частичное решение этой проблемы - шаблоны. Из них самый распространенный - "*" в конце слова. Такой шаблон неплохо работает для английского языка, где большая часть словоизменения сводится к добавлению окончаний "s", "ed" и "ing", хотя и не спасает от мусора в результате поиска. С русским языком уже гораздо сложнее. Случаи, когда шаблон не спасает:? Слова, у которых в разных формах меняется основа (супплетивные формы): идти-шел, плохо-хуже, я-меня, человек-люди, ребенок-дети? Слова с большим количеством словоформ. Привести список всех словоформ русского глагола (с причастиями и деепричастиями - до 250 различных форм) человеку, не имеющему лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка "накрываются" шаблоном "*" - ещё труднее.? Слова с беглыми гласными и чередованиями. В словаре на 90000 слов, используемом в нашей системе, примерно четверть слов имеет чередования, которые не позволяют найти слово по шаблонам: (искать-ищу, окно-окон, расти-рос: запрос и* или ок* или р* даст много мусора)? Короткие (три-четыре буквы) слова: дом, хор, ... . Во всех языках, в том числе и в русском, имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона "*" в коротких словах приводит к большому количеству ненужных ссылок в списке найденных документов.? Развитие ИПС (оно же типа принципы интеллектуализации) Дальнейшее содержательное развитие ИПС идет в сторону упрощения работы с ними и их интеллектуализации. Идеальный язык запросов ИПС - естественный. Надо научить систему "понимать", что от нее хотят. Для этого широко используют словари, ряды синонимов, тезаурусы слов. Для расширения области поиска делают переводы (как правило, пословные) запросов на другой язык (например, в Интернете - с русского на английский). Представляется заманчивым научить ИПС выполнять запрос вида: "Найди мне все на данную тему", или, что еще сложнее, "Подбери мне все документы такие, как этот". Для решения этой задачи используют методы теории распознавания образов, нейронные сети, контент-анализ.? Существует два противоположных подхода к поисковым механизмам. Первый, "демократический" - поиск должен быть настолько прост, чтобы любой неподготовленный человек мог бы не очень задумываясь спросить, что ему надо, и получить за приемлемое время приемлемый ответ. Второй, "элитарный" - поиск является тонким инструментом, с которым надо разобраться и обращаться квалифицированно. Как обычно, оба подхода справедливы, что находит свое отражение в наличии у всех крупных Интернет-поисков двух поисковых страниц - Simple и Advance (ИМХО, это у гугла «простой и «расширенный», с дополнительными параметрами). При поиске существует проблема глубокой паутины. Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, неиндексируемых поисковыми системами. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep). В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов. Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам. Научить компьютер уточнять вопросы у человека (попытки были у AltaVista, но безуспешно). Создавать словари синонимов.