Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вуль В_А_ Электронные издания.doc
Скачиваний:
154
Добавлен:
23.02.2016
Размер:
10.13 Mб
Скачать

7.4. Автоматизация выделения метаданных

7.4.1. Метаинформация и ее роль

Повсеместное распространение информационной среды Интернет привело к заметному перекосу в части использования однонаправленных ссылок, служащих для организации переходов от одного документа к другому в гипертекстовых структурах. Такие ссылки не имеют атрибутов и не обеспечивают структурирования и классификации документов.

В настоящее время объем информации, циркулирующей в среде Интернет, приближается или даже превысил некий критический предел, в результате значительная ее часть остается невостребованной, препятствуя, пo существу, эффективному использованию этой среды. Все более актуальной становится задача создания гибкой информационной среды для хранения документов, включая статьи, доклады, книжные издания. Желательно обеспечить возможность сборки таких документов в группы (коллекции) с последующей возможностью включения этих первичных коллекций в состав других групп, стремясь получить в результате иерархическую структуру и, в, конечном счете, попытаться упорядочить информационное пространство в целом.

Ссылки следует снабдить такими атрибутами, как имя автора (авторов), название работы, время создания, срок хранения. Интересно отметить, что такие атрибуты рекомендовано хранить не вместе с документами, которые они характеризуют, а в отдельной базе данных, что позволит существенно упростить и ускорить поиск документов. Таким образом, структура хранилища, предложенная в § 7.2, соответствует рекомендуемой в настоящее время структуре хранения данных в глобальной сети.

Для описания метаданных консорциумом W3C подготовлен стандартный формат их представления - Resource Description Framework (RDF), который определяет основные принципы обработки метаданных и обеспечивает функциональную совместимость Web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного программирования и моделирования и элементы языков HTML, SGML и XML (см. также § 2.9). Следует заметить, что с одной стороны язык XML описывает в RDF синтаксис метаданных, a RDF, в свою очередь, позволяет описывать семантическую структуру XML-документов и передавать смысл данных, заключенных между XML-тегами. Консорциум W3C в учебнике упоминается несколько раз, но роль этого объединения в стандартизации и унификации сетевых средств и технологий поистине неоценима. И мы ее касаемся лишь в незначительной степени.

Наше время характеризуется достаточно тесной интеграцией издательств с сетью Интернет и использованием локальных интрасетей в самом издательстве. Таким образом, даже исходя из требований интеграции в издательстве информация об изданиях должна сопровождаться метаинформацией, которая извлекается из содержимого самого издания, желательно автоматически. Представительство издательств в глобальных сетях также требует соответствия между структурой издательских баз данных и информационных хранилищ на поисковых серверах.

7.4.2. Законы Зипфа и автоматизация извлечения метаданных из электронных изданий

Известный математик Дж. Зипф (С. К. Zipf) показал, что все созданные человеком тексты подчиняются общим закономерностям, которые он сформулировал в 1946 г. в виде нескольких законов.

Если взять любой текст, то можно подсчитать, какие слова в нем сколько раз встречаются. Количество повторов слова в тексте можно назвать частотой. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте - 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из этих нескольких значений. Если разделить частоту повторения слова на общее количество значащих слов в тексте, то получим его относительную частоту или вероятность встречи этого слова в тексте. Первый закон Зипфа гласит, что произведение вероятности встречи слова в тексте на его частоту приблизительно постоянно для любых текстов определенного языка. Сказанное иллюстрируется рис. 7.3, где представлена зависимость частоты встречи слова в тексте f от его ранга R.

Второй закон Зипфа определяет соотношение между частотой и количеством слов, которые с этой частотой встречаются в тексте. Если построить график зависимости количества слов и частоты, то окажется, что характеризующая ее кривая остается неизменной для любых текстов в пределах одного языка. Сказанное иллюстрируется да иным и рис. 7.4, на котором показаны кривые для английского (самая нижняя), французского и русского языков (самая верхняя).

Данные рис. 7.3могут успешно использоваться на практике для выделения значащих слов в тексте. Все значащие слова для данного текста размещаются в области средних значений ранга (область выделена на рис. 7.3штриховкой). Действительно, самые часто встречающиеся слова обычно относятся к вспомогательным, а самые редко встречающиеся обычно также не имеют решающего смыслового значения для данного текста. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким - нужные термины потонут в море вспомогательных слов, установив чрезмерно узкий диапазон мы рискуем потеряешь смысловые термины.

Если рассматривать совокупность изданий, в особенности, посвященных одной и той же тематике, то вероятность случайного попадания малозначащих слов в выделенную область для группы изданий (см. рис. 7.3) уменьшается. Чтобы учесть такую возможность избавиться от случайных слов вводят понятие инверсной частоты термина. Инверсная частота определяется как логарифм отношения общего количества рассматриваемых документов п кчислу документов, содержащих данный термин m (под термином может пониматься не только отдельное слово, но и единое по смыслу словосочетание), т. е.

.

С учетом инверсной частоты вес или значимость термина в каждом документе определится как произведение

,

где z - вес или значимость термина в издании; f - частота повторения термина в этом издании; i - инверсная частота этого термина в группе издании.

Процесс определения веса или значимости термина в издании легко алгоритмизируется. На этом принципе основана работа всех программ - экстракторов значащих слов. Надо сказать, что даже широко распространенный в нашей стране редактор Word, начиная с версии 1997 г., как-то выполняет функции извлечения терминов. Для этого используется команда «Реферат» в секции меню «Сервис». Соответствующее команде диалоговое окно показано на рис. 7.5.

Как следует из данных рис. 7.5, реферат можно поместить в начало реферируемого документа или оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере на рис. 7.5в реферате содержатся два предложения, в то время как в исходном документе их было двадцать одно. Наряду с составлением реферата из текста документа извлекается пять наиболее значимых слов. Для их просмотра следует воспользоваться командой «Свойства» секции меню «Файл». Соответствующее диалоговое окно показано на рис. 7.6.

Для того чтобы ключевые слова были занесены в нужное поле вкладки «Документ» окна «Свойства», в диалоговом окне, показанном на рис. 7.5, должна быть задействована опция «Обновить сведения о документе»).

В поле «Ключевые слова» в примере отобрано пять слов, а именно: «в», «издательств», «области», «предусмотрен», «должен». Нетрудно за метить, что из пяти отобранных слов только одно соответствует тематике статьи «Современные издательства», причем одно из отобранных слов - предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работе названием на английском (а не на русском) языке. Надо сказать, что редактор Word 2000 ничем существенным не отличается от своего предшественника.