5.3. Искажение модели описания объекта

Искажения модели описания объекта, могут быть преднамеренным, и/или определяться "благими намерениями" (выделение "главного", большая наглядность и обозримость описания, исключение "пустых мест" в характеристиках, "умолчание" "несущественных параметров", сокрытие особенностей определения используемых показателей и т.п.), либо просто "по умолчанию".

"Умолчание", когда те или иные особенности не упоминаются совсем, ведет к тому, что перед пользователем возникает целый набор трудно разрешимых альтернатив, например:

не упомянуто, следовательно, отсутствует и/или "как обычно", и/или "в пределах принятых нормативов";
есть, но нет достаточных оснований для включение в число характеристик, задающих объект;
нет данных;
данные однотипных объектов несопоставимы и/или не свидетельствуют в пользу рекламируемого (либо выбранного за базовый) объекта.

Основные искажений модели описания объекта могут быть заданы следующим перечнем:

Полнота информационного описания не соответствует требованиям решаемой задачи.
Неправильно заданы границы описания оригинал-объекта.
Неправильно построены показатели, задающие анализируемые свойства (параметры, характеристики) объекта.
Нарушены допустимые отклонения от точности представления показателей.
Разброс в значениях показателей.
Отсутствие (пропуск) невыгодных показателей.
Ложные данные по свойствам объекта.
Сокрытие данных по объекту.

Перечисленные группы искажений взаимодействуют комплексно.

Поэтому при описании каждого оригинал-объекта, необходимо как-бы воссоздавать условия появления этого описания, контролировать на достоверность все внесенные в описание данные, обосновывать возможность их использования при принятии конкретного информационного решения.

5.4. Ошибки идентификации

Как правило, возникновение ошибок идентификации начинается на этапе поиска информации.

Исследования, связанные с изучением различных указателей документальных источников информации, свидетельствуют о том, что значительные искажения вводятся составителями документов за счет ошибок в написании имен авторов (коллективных и индивидуальных, а также наименований объектов. Например:

Создавая в течение 10 лет сводную картотеку коллективных авторов на основе фондов государственной библиотеки "Прусский культурный фонд" (Зап.Берлин), немецкой библиотеки во Франкфурте-на-Майне и Боварской библиотеке в Мюнхене, выявили 207 тыс. авторов и 402 тыс. написаний их фамилий [РЖ 6И202,1985].
Варианты написания фамилии автора-венгерского математика Georgt Polia в различных изданиях имеют следующие формы представления [Д.Пойя. Математическое открытие. Решение задач: основные понятия, изучение, преподавание.-М.: Наука, Гл. ред. физ.- мат.лит., 1970]: Дж.Пойа, Георг Полиа (немецкий вариант), Дьердь Пойа(венгерский вариант), Д.Пойя.
По данным [ЭИ Информатика,#9,1984, Исследование достоверности библиографических ссылок] в опубликованных журнальных статьях от 10 до 13% библиографических ссылок содержит ошибки. Анализ 2500 ссылок на одну из работ за 1976-1981 гг. показал: 180 авторов одновременно сослались и на статью о книге и книгу; из них в 148 указано заглавие статьи, причем 114-верно, а в 34 случаях(23%) с той же ошибкой, что в книге. Более подробный анализ показал (в данном примере), что лишь малое число авторов может быть обвинено в некорректном цитировании(4-5%). Значительная часть ошибок относится к тем данным, которые задают номера томов, страниц, что существенно затрудняет поиск требуемых источников и, соответственно, контроль приведенной в источниках информации.
Ошибки, связанные с ложным отождествлением однофамильцев в качестве одного и того же лица. Последствия различны: от неправильной идентификации уровня доверия к информации и области деятельности и уровня квалификации, до неправильной оценки достоверности и надежности источника информации.

Особо следует рассмотреть вопросы, связанные с идентификацией марок изделий и наименований фирм и предприятий.

В ряде технических заданий на разработку баз данных по изделиям и организационным единицам обычно используются следующие посылки:

Марки изделий являются, в сущности, не лексическими единицами естественного языка, а однозначно заданными (для каждого изделия) условными обозначениями. В связи с этим неоднозначность их написания и интерпретации в системе маловероятна (?!). Необходимо только не допускать отклонений от обозначений, установленных производителями изделий. Какая-либо дополнительная нормализация употреблений марок изделий является излишней.
Предприятия и фирмы также могут быть однозначно идентифицированы по их официальным названиям, установленным самими фирмами и используемыми в научно-технической литературе. Как и другие наименования, эти названия не переводятся на другие языки. Возможно, правда, применение транслитерации.

Приведенные утверждения некорректны. В действительности идентификация изделий, фирм и предприятий по их наименованиям является достаточно сложной проблемой. Это обусловлено следующими причинами:

многие объекты имеют несколько имен, каждое из которых используется в конкретных условиях;
существуют родовые имена, под которыми группируется некоторое подмножество однородных, но не тождественных по своему назначению, свойствам, функциям и характеристикам объектов;
одни и те же имена могут принадлежать принципиально различным объектам;
перенос наименований в иную языковую среду ведет, как правило, к появлению имен заменителей, которые после прохождения через несколько языковых преобразований порождают имена-идентификаторы, которые не могут быть однозначно идентифицированы с исходным объектом, что ведет к появлению "объектов-фантомов".

Трудности идентификации объектов по их наименованиям пытаются обойти с помощью использования "записи их имен на языке оригинала".

Но такой подход реально осуществить далеко не просто, т.к. он не может быть реализован без наличия в системах полного алфавита ВСЕХ языков, на которых ведется обработка информации.

Но и это не избавит от ложных отождествлений объектов. Ибо абсолютно идентичное по написанию имя собственное, может принадлежать принципиально различным объектам.

Поэтому утверждения типа: в настоящее время в информационных изданиях (например, ВИНИТИ, система МОСФИтракторостроения (одна из подсистем бывшего МЦНТИ стран-членов СЭВ) ) сложилась традиция записи названий предприятий и фирм на языке оригинала; -необходимо рассматривать как прием, используемый в действующих системах, но одновременно необходимо понимать, что данный прием в действительности не дает решения проблемы однозначной идентификации объектов по их именам.

Одним из методов повышения качества идентификации имен собственных (принадлежащих самым различным объектам: фамилий, географических наименований, наименований фирм) является транслитерация.

Именно этим вызвана разработка систем и правил транслитерации различных имен (географических наименований, наименований фирм, предприятий, имен собственных), представленных на различных языках, использующих различные алфавиты на основе латиницы, кириллицы и других графических представлений символов.

Создание правил, соответствующих зачастую противоречивым, сложившимся под воздействием различных факторов традициям передачи иноязычных имен собственных в русских текстах крайне затруднительно. В нашей стране этой проблеме не уделялось должного внимания, что существенно затрудняло обработку данных в полиязычных информационных системах. Проведенные в 80-х годах работы по разработке стандартов по транслитерации латиницы в кириллицу создавали определенную базу нормирования представления латинизированных текстов русским алфавитом.

Однако процессы суверенизации республик разрушили достигнутые договоренности, а их переход на национальные языки еще более осложнил вопросы однозначной идентификации имен объектов.

Сложность идентификации усиливается рядом дополнительных факторов:

смена алфавита, проведенная в ряде республик, влечет изменение норм написания, как на языке оригинала, так и на языках перевода. Например: Кыргызстан, Башкаркостан;
массовым переименованием объектов учета (фамилий, географических наименований и др.);
разрушением сложившихся норм перевода на другие языки;
появлением огромного числа новых слов в базовых языках. Данная ситуация будет особенно характерна для всех новых государственных образований на территории бывшего СССР.

В принципе, перед разработчиками информационных систем республик возникла еще более сложная проблема создания многоязычных и многоалфавитных перечней наименований изделий, фирм, предприятий и других имен собственных, и каждая республика теперь будет решать эти проблемы самостоятельно и далеко не всегда успешно, что существенно осложнит проблемы идентификации объектов по их именам.

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 30 31 3233 / 4333 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.08.2019466.08 Кб2Вебер - О некоторых категориях понимающей социо...rtf
#
20.08.2019387.14 Кб4Вебер - Основные социологические понятия.rtf
#
20.08.20192.92 Mб1Вебер - Протестантская этика и дух капитализма.rtf
#
15.09.2019279.04 Кб2Великий кордон.doc
#
08.11.20182.51 Mб11Вельямінов.doc
#
17.08.2019943.62 Кб11Веревченко.doc
#
07.08.201953.67 Кб1взаємовідвідування занять стеоретипи.docx
#
13.11.2019124.93 Кб1Взаємозв’язки та взаємодія функціональних харак...doc
#
06.08.201944.78 Кб1вибори.docx
#
20.11.201971.68 Кб4види наукових досліджень new.doc
#
17.11.201923.79 Кб1види шкіл в Польщі.docx