- •Содержание
- •Список сокращений
- •Введение
- •§1. История развития ипс
- •Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области [6].
- •§2. Ипс и их типы
- •§3. Использование ипс для поиска лингвистической информации
- •Поводя итог, можно сказать, что для целенаправленного поиска лингвистической информации следует пользоваться не популярными порталами, а специализированными поисковыми сайтами
- •§4. Направления развития информационного поиска в Интернет
Поводя итог, можно сказать, что для целенаправленного поиска лингвистической информации следует пользоваться не популярными порталами, а специализированными поисковыми сайтами
§4. Направления развития информационного поиска в Интернет
Исходя из особенностей Интернет, как системы хранения информации возникает вопрос о возможности эффективного ИП в Интернет при существующей организации Интернет.
Наибольшими препятствиями на пути разработки эффективных алгоритмов ИП в Интернет являются малая структурированность информации в Интернет, высокая скорость изменения информации и отсутствие метаинформации. Информационные источники в сети Интернет можно разделить на две категории Всемирная Паутина (World Wide Web, WWW, Web) и унаследованные системы.
Всемирная Паутина объединяет в себе большую часть Интернет, внешнее представление информации на Web-серверах стандартизовано, доступ к информации осуществляется единообразно. Унаследованные системы (например, Gopher, Archie, Usenet News и т.п.) не соответствуют стандартам представления информации, используемым в WWW. Часть этих систем постепенно отмирает [10].
Важно отметить следующие тенденции ее развития: применение технологий баз данных для создания Web-сайтов, появление средств динамической генерации Web-страниц, коммерциализация WWW, появление электронной коммерции, и, как следствие, постоянное снижение охвата WWW системами поиска по ключевым словам. На текущий момент в WWW можно выделить две основные части. Surface Web – часть WWW, доступная большинству промышленных ИПС, индексирующие роботы которых обходят Интернет по ссылкам. Относительный размер этой части постоянно уменьшается. Сюда относятся статические и динамические Web-сайты в которых возможна навигация по ссылкам. Deep Web – часть WWW, недоступная для большинства промышленных ИПС из-за необходимости явно формулировать запрос на получение требуемого документа (нет ссылок). Относительный размер ее постоянно увеличивается. Сюда относятся электронные библиотеки, ИПС для поиска по ключевым словам, Web-интерфейсы к базам данных [9; 10].
Таким образом, решение проблемы ИП в Интернет на сегодняшний день состоит не только в построении эффективных ИПС, но и в изменении структурной организации информации Интернет.
Что касается развития информационно-поисковых систем в Интернет, то на сегодняшний день существуют следующие задачи [1]:
1. Развитие средств семантического анализа текстов на естественном языке. Сюда относятся задачи реферирования текстов, рубрикации, кластеризации, смыслового поиска по текстам. Интернет вносит большее разнообразие в качество и социальную ориентированность текстов по сравнению с традиционными системами, что существенно усложняет задачу семантического анализа.
2. Огромные скорости роста Интернет привели к тому, что на практике не существует стандарта для организации информации в Интернет, что усложняет доступ к имеющейся информации. Задача, заключается в необходимости обеспечения единообразного доступа ко всем информационным ресурсам Интернет. С одной стороны, задачу можно рассматривать как необходимость выработки единого стандарта для организации данных и приведения всей хранящейся в Интернет информации к этому стандарту, с другой стороны, задачу можно рассматривать как необходимость обеспечения возможности получения метаинформации о любой информации, хранящейся в Интернет.
3. Обеспечение контролируемого и безопасного доступа к хранящейся в Deep Web информации.
4. Покрытие ИПС максимального количества информации в Интернет, устранение дублирования ИПС с целью экономии ресурсов. Организация единой распределенной технологии поиска.
5. Поддержание информации в ИПС в соответствии с реальностью. Максимально быстрый учет изменений документов Интернет.
ЗАКЛЮЧЕНИЕ
Появление всемирной паутины WWW стало количественным и качественным скачком в области информационных технологий. Число новых ресурсов и объём информации, которую они содержат постоянно растёт, вместе с тем увеличивается количество проблем связанных с поиском необходимой и релевантной информации.
В Рунете наилучшим на сегодняшний день является портал Яндекс. Наибольшая среди ИПС информационная база и широкие поисковые возможности позволяют рекомендовать его для поиска в русскоязычной части Интернет. Кроме того, Яндекс отличается прекрасной информативной документацией и хорошим набором бесплатных сервисов, среди которых Web-хостинг и электронная почта с Web-доступом.
Но для поиска информации на иностранном языке наилучшие результаты даёт международная ИПС или локальные версии известных поисковых систем.
Несмотря на известность таких брендов, как Google, Yahoo! и их популярность, конкуренты не собираются проигрывать борьбу за пользователей. И эта конкуренция сможет привести к качественному изменению ИПС.
Что касается непосредственно поиска лингвистической информации, то пользователям зачастую приходится прибегать к дополнительным методом поиска, например, такими как ключевые слова, логические операторы, корпуса текстов и т. п., поскольку на данный момент ИПС не всегда могут выдавать по запросу только релевантную лингвистическую информацию.
Но пока эволюционный путь развития ИПС преобладает, пользователи могут надеяться на улучшение качества поиска, увеличение его скорости, повышения его характеристик и появления большого количества специализированных поисковых систем.
Список использованной литературы
Козлов, Д.Д. Информационно-поисковые системы в Internet: текущее состояние и пути развития / Д.Д. Козлов. – М : МГУ им. М.В. Ломоносова, 2000. – 24 с.
Кондратьев, Г.Г. Популярный самоучитель работы в интернете / Г.Г. Кондратьев, – Спб : Питер, 2005. – 320 с.
Муртазин, Э.В. Интернет / Э.В. Муртазин. – М : ДМК пресс, 2004. – 415 с.
Семёнов, Ю.А. Сети интернет. Архитектура и протоколы / Ю.А. Семёнов. – М : Блик плюс, 2001. – 432 с.
Сеннов, А.С. Курс практической работы на ПК /А.С. Сеннов. – БХВ - Петербург, 2003. – 576 с.
Википедиа : Свободная энциклопедия [Электронный ресурс] / Поисковая система. – Режим доступа : http://ru. wikipedia.org/ wiki /Поисковая _ система. – Дата доступа : 30.11.2014
Общие принципы построения информационно-поисковых систем [Электронный ресурс] / Информационные базы данных и электронные библиотеки. – Режим доступа : http://bourabai.kz/einf/chapter121.htm. – Дата доступа : 30.11.2014
Информационно-поисковые системы Интернета [Электронный ресурс] / Центр информационно-библиотечного обеспечения учебно-научной деятельности НИЯУ МИФИ. – Режим доступа : http://library.mephi.ru/icb2/glav5_new.html. – Дата доступа : 23.11.2014
Bergman K., The Deep Web: Surfacing Hidden Value, the Centre for Digital Content of the Natinal Security Agency, 2007 – p. 607
Lawrence S., Giles C., Accessibility of Information on the Web, Nature, 1999 – p.400
