Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Веревченко.doc
Скачиваний:
11
Добавлен:
17.08.2019
Размер:
943.62 Кб
Скачать

5.3. Искажение модели описания объекта

Искажения модели описания объекта, могут быть преднамеренным, и/или определяться "благими намерениями" (выделение "главного", большая наглядность и обозримость описания, исключение "пустых мест" в характеристиках, "умолчание" "несущественных параметров", сокрытие особенностей определения используемых показателей и т.п.), либо просто "по умолчанию".

"Умолчание", когда те или иные особенности не упоминаются совсем, ведет к тому, что перед пользователем возникает целый набор трудно разрешимых альтернатив, например:

  • не упомянуто, следовательно, отсутствует и/или "как обычно", и/или "в пределах принятых нормативов";

  • есть, но нет достаточных оснований для включение в число характеристик, задающих объект;

  • нет данных;

  • данные однотипных объектов несопоставимы и/или не свидетельствуют в пользу рекламируемого (либо выбранного за базовый) объекта.

Основные искажений модели описания объекта могут быть заданы следующим перечнем:

  1. Полнота информационного описания не соответствует требованиям решаемой задачи.

  2. Неправильно заданы границы описания оригинал-объекта.

  3. Неправильно построены показатели, задающие анализируемые свойства (параметры, характеристики) объекта.

  4. Нарушены допустимые отклонения от точности представления показателей.

  5. Разброс в значениях показателей.

  6. Отсутствие (пропуск) невыгодных показателей.

  7. Ложные данные по свойствам объекта.

  8. Сокрытие данных по объекту.

Перечисленные группы искажений взаимодействуют комплексно.

Поэтому при описании каждого оригинал-объекта, необходимо как-бы воссоздавать условия появления этого описания, контролировать на достоверность все внесенные в описание данные, обосновывать возможность их использования при принятии конкретного информационного решения.

5.4. Ошибки идентификации

Как правило, возникновение ошибок идентификации начинается на этапе поиска информации.

Исследования, связанные с изучением различных указателей документальных источников информации, свидетельствуют о том, что значительные искажения вводятся составителями документов за счет ошибок в написании имен авторов (коллективных и индивидуальных, а также наименований объектов. Например:

  • Создавая в течение 10 лет сводную картотеку коллективных авторов на основе фондов государственной библиотеки "Прусский культурный фонд" (Зап.Берлин), немецкой библиотеки во Франкфурте-на-Майне и Боварской библиотеке в Мюнхене, выявили 207 тыс. авторов и 402 тыс. написаний их фамилий [РЖ 6И202,1985].

  • Варианты написания фамилии автора-венгерского математика Georgt Polia в различных изданиях имеют следующие формы представления [Д.Пойя. Математическое открытие. Решение задач: основные понятия, изучение, преподавание.-М.: Наука, Гл. ред. физ.- мат.лит., 1970]: Дж.Пойа, Георг Полиа (немецкий вариант), Дьердь Пойа(венгерский вариант), Д.Пойя.

  • По данным [ЭИ Информатика,#9,1984, Исследование достоверности библиографических ссылок] в опубликованных журнальных статьях от 10 до 13% библиографических ссылок содержит ошибки. Анализ 2500 ссылок на одну из работ за 1976-1981 гг. показал: 180 авторов одновременно сослались и на статью о книге и книгу; из них в 148 указано заглавие статьи, причем 114-верно, а в 34 случаях(23%) с той же ошибкой, что в книге. Более подробный анализ показал (в данном примере), что лишь малое число авторов может быть обвинено в некорректном цитировании(4-5%). Значительная часть ошибок относится к тем данным, которые задают номера томов, страниц, что существенно затрудняет поиск требуемых источников и, соответственно, контроль приведенной в источниках информации.

  • Ошибки, связанные с ложным отождествлением однофамильцев в качестве одного и того же лица. Последствия различны: от неправильной идентификации уровня доверия к информации и области деятельности и уровня квалификации, до неправильной оценки достоверности и надежности источника информации.

Особо следует рассмотреть вопросы, связанные с идентификацией марок изделий и наименований фирм и предприятий.

В ряде технических заданий на разработку баз данных по изделиям и организационным единицам обычно используются следующие посылки:

  • Марки изделий являются, в сущности, не лексическими единицами естественного языка, а однозначно заданными (для каждого изделия) условными обозначениями. В связи с этим неоднозначность их написания и интерпретации в системе маловероятна (?!). Необходимо только не допускать отклонений от обозначений, установленных производителями изделий. Какая-либо дополнительная нормализация употреблений марок изделий является излишней.

  • Предприятия и фирмы также могут быть однозначно идентифицированы по их официальным названиям, установленным самими фирмами и используемыми в научно-технической литературе. Как и другие наименования, эти названия не переводятся на другие языки. Возможно, правда, применение транслитерации.

Приведенные утверждения некорректны. В действительности идентификация изделий, фирм и предприятий по их наименованиям является достаточно сложной проблемой. Это обусловлено следующими причинами:

  • многие объекты имеют несколько имен, каждое из которых используется в конкретных условиях;

  • существуют родовые имена, под которыми группируется некоторое подмножество однородных, но не тождественных по своему назначению, свойствам, функциям и характеристикам объектов;

  • одни и те же имена могут принадлежать принципиально различным объектам;

  • перенос наименований в иную языковую среду ведет, как правило, к появлению имен заменителей, которые после прохождения через несколько языковых преобразований порождают имена-идентификаторы, которые не могут быть однозначно идентифицированы с исходным объектом, что ведет к появлению "объектов-фантомов".

Трудности идентификации объектов по их наименованиям пытаются обойти с помощью использования "записи их имен на языке оригинала".

Но такой подход реально осуществить далеко не просто, т.к. он не может быть реализован без наличия в системах полного алфавита ВСЕХ языков, на которых ведется обработка информации.

Но и это не избавит от ложных отождествлений объектов. Ибо абсолютно идентичное по написанию имя собственное, может принадлежать принципиально различным объектам.

Поэтому утверждения типа: в настоящее время в информационных изданиях (например, ВИНИТИ, система МОСФИтракторостроения (одна из подсистем бывшего МЦНТИ стран-членов СЭВ) ) сложилась традиция записи названий предприятий и фирм на языке оригинала; -необходимо рассматривать как прием, используемый в действующих системах, но одновременно необходимо понимать, что данный прием в действительности не дает решения проблемы однозначной идентификации объектов по их именам.

Одним из методов повышения качества идентификации имен собственных (принадлежащих самым различным объектам: фамилий, географических наименований, наименований фирм) является транслитерация.

Именно этим вызвана разработка систем и правил транслитерации различных имен (географических наименований, наименований фирм, предприятий, имен собственных), представленных на различных языках, использующих различные алфавиты на основе латиницы, кириллицы и других графических представлений символов.

Создание правил, соответствующих зачастую противоречивым, сложившимся под воздействием различных факторов традициям передачи иноязычных имен собственных в русских текстах крайне затруднительно. В нашей стране этой проблеме не уделялось должного внимания, что существенно затрудняло обработку данных в полиязычных информационных системах. Проведенные в 80-х годах работы по разработке стандартов по транслитерации латиницы в кириллицу создавали определенную базу нормирования представления латинизированных текстов русским алфавитом.

Однако процессы суверенизации республик разрушили достигнутые договоренности, а их переход на национальные языки еще более осложнил вопросы однозначной идентификации имен объектов.

Сложность идентификации усиливается рядом дополнительных факторов:

  • смена алфавита, проведенная в ряде республик, влечет изменение норм написания, как на языке оригинала, так и на языках перевода. Например: Кыргызстан, Башкаркостан;

  • массовым переименованием объектов учета (фамилий, географических наименований и др.);

  • разрушением сложившихся норм перевода на другие языки;

  • появлением огромного числа новых слов в базовых языках. Данная ситуация будет особенно характерна для всех новых государственных образований на территории бывшего СССР.

В принципе, перед разработчиками информационных систем республик возникла еще более сложная проблема создания многоязычных и многоалфавитных перечней наименований изделий, фирм, предприятий и других имен собственных, и каждая республика теперь будет решать эти проблемы самостоятельно и далеко не всегда успешно, что существенно осложнит проблемы идентификации объектов по их именам.