- •Содержание
- •Список сокращений
- •Введение
- •§1. История развития ипс
- •Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области [6].
- •§2. Ипс и их типы
- •§3. Использование ипс для поиска лингвистической информации
- •Поводя итог, можно сказать, что для целенаправленного поиска лингвистической информации следует пользоваться не популярными порталами, а специализированными поисковыми сайтами
- •§4. Направления развития информационного поиска в Интернет
§3. Использование ипс для поиска лингвистической информации
Точность и полнота поиска лингвистической информации зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с нужной предметной областью, а также с используемой ИПС.
Остальные же пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой. Для повышения качества поиска можно использовать различные методы. Наиболее употребляемый из них – использование логических операторов AND, OR, NOT.
Использование логических операторов – довольно простой способ повысить релевантность выдаваемой лингвистической информации, но он имеет и свои недостатки. Главный из них – плохая масштабируемость. Применение оператора AND может сильно сузить выдачу, а оператора OR – сильно расширить [7].
Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Использование слишком специфичных терминов может быть чревато еще и тем, что в словаре ИПС этого термина может не оказаться.
В общем виде процедура поиска является процедурой итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому запросу и т. д. Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой информационно-поисковой системой [7].
В зависимости от соотношения полноты и точности найденной информации пользователь может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные понятия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту область достаточно плавно.
Может оказаться полезным знание пользователя о наличии определенно релевантных документов. Не найдя их в списке найденных документов, область поиска надо расширить.
Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее точно отвечающих его потребности. В таком случае при следующем поиске система ищет те документы, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем [5].
Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.
Также в Сети существует возможность тематического поиска по специализированным каталогам (directories), в которых ссылки на ресурсы Сети распределены по многочисленным рубрикам. Самым известным таким каталогом, безусловно, является Yahoo. Другим хорошим ресурсом является Open Directory Project, созданный усилиями 32 000 редакторов по всему миру. Тематические каталоги позволяют быстро найти несколько крупных специализированных сайтов.
При поиске лингвистической информации в последнее время набирают популярность корпуса текстов, полнотекстовый поиск по которым осуществляется с помощью специализированных ИПС.
В качестве корпуса может использоваться множество текстов, доступных в интернете (то есть миллиарды словоупотреблений для основных мировых языков). Для лингвистов самым распространенным способом работы с Интернетом остаётся составление запросов к поисковой машине и интерпретация результатов либо по числу найденных страниц, либо по первым возвращенным ссылкам. Необходимо отметить, что такой подход годится для решения ограниченного класса задач, так как средства разметки текстов, используемые в вебе, не описывают ряд лингвистических особенностей текста (указание ударений, грамматических классов, границ словосочетаний и т. д.). Кроме того дело осложняется малой распространённостью семантической вёрстки.
На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается.
Но необходимо отметить, что существует и ряд проблем, связанных с корпусами текстов, а именно [7]:
– Проблема представительности. Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексико-грамматические феномены, типичные для всего объёма текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов, для исследования первых пяти тысяч наиболее частотных слов требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов уже требуется корпус свыше ста миллионов словоупотреблений.
– Проблема разметки. К первичной разметке текстов относятся этапы, обязательные для каждого корпуса: токенизация или разбиение на орфографические слова, лемматизация (приведение словоформ к словарной форме), морфологический анализ.
– Проблема представления результатов. В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивыесловосочетания (коллокации) со статистической оценкой их значимости.
