Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по ОИТ.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
2.37 Mб
Скачать

5.5. Ошибки идентификации

Ошибки идентификации связаны с неправильным отождествлением объектов и его свойств. Пользователь начинает работать с информацией, не имеющей никакого отношения к рассматриваемой проблеме, что становится причиной наиболее серьезных ошибок при принятии решений. Создание трудностей в идентификации объектов является наиболее частым приемом при проведении мероприятий по "дезинформации": в боевых условиях, при "недобросовестной" рекламе, при проведении выборных компаний.

Ошибки идентификации начинаются уже на этапе поиска информации. Так, значительные искажения возникают за счет ошибок в написании имен авторов или наименований источников (объектов). Например, фамилия венгерского математика Georgt Polia в различных изданиях имеет следующие формы представления [5]: Дж. Пойа, Георг Полиа, Дьердь Пойа, Д. Пойа. Или по данным [ ЭИ Информатика, № 9, 1984, Исследование достоверности библиографических ссылок ] в опубликованных журнальных статьях от 10 до 13% библиографических ссылок содержат ошибки.

Особого внимания требуют вопросы, связанные с идентификацией марок изделий и наименований фирм и предприятий. Трудности идентификации объектов по их наименованиям пытаются обойти с помощью использования "записи их имен на языке оригинала", но и это не всегда избавляет от ложных отождествлений объектов. Ибо абсолютно идентичное по написанию имя собственное, может принадлежать принципиально различным объектам. В качестве примера можно привести следующее. Взрывчатое вещество тринитротолуол получил разные названия: толит (Франция), трилит (Испания), тротил (Германия). В России за ним закрепились два названия: тротил (Артиллерийское ведомство) и тол (Инженерное ведомство). В базах данных по пищевым добавкам, некоторые имеют до 20-30 различных наименований. Нет ни одной добавки с единственным именем.

Одним из методов повышения качества идентификации имен собственных (фамилий, географических наименований, наименований фирм) является транслитерация. Проведенные в 80-х г.г. работы по разработке стандартов по транслитерации латиницы в кириллицу, создали определенную базу нормирования представления латинизированных текстов русским алфавитом.

При создании каталогов (регистров) организаций, товаров, географических наименований и пр., могут возникнуть более чем интересные проблемы. Например, используя 8 различных схем транслитерации кирилического алфавита стандартной латиницей, было транслитерировано ограниченное множество наименований, содержащих буквы русского алфавита: Ц, Ч, Ш, Я, Ё, Ь, Ъ, Ж, З, Й. Получилась интереснейшая "мозаика". Но еще большая "абракадабра" возникла, когда "мозаику" вернули в исходную форму лица, знающие системы транслитерации, но не знавшие какое наименование по какой системе преобразовывалось.

    1. Перевод

Перевод информации неизбежно сопровождается искажениями. Это вызывается многими причинами. Особое место занимает процесс непрерывного устаревания словарей в быстроразвивающихся и новых отраслях науки и техники. Это вызвано тем, что большинство терминов несет специфическую нагрузку, но они используются в мировом масштабе с очень различными значениями. В одной из публикаций (конца 80-х г.г.) отмечалось, что по проблематике вычислительной техники и программированию существует около 20 тыс. только английских терминов, не имеющих соответствующих эквивалентов на русском языке, что существенно снижает качество перевода документации с языка на язык.

Последовательный перевод на несколько языков (например, японский - английский -русский и т.д.) , иногда создает такую ситуацию, что текст последнего перевода просто невозможно идентифицировать с оригиналом.

Проблема перевода особенно сложна при использовании полиязычных баз данных. Этим объясняется создание международных баз данных нормированной многоязычной лексики. Например, международной базы терминологических данных, международных специализированных тезаурусов различной направленности: по атомной энергии (тезаурус INIS), по медецине, сельскому хозяйству (тезаурус AGRIS) и т.д.

При международном обмене информацией в настоящее время в качестве основного языка используется английский, но до 1991 г. на всем пространстве СССР и в странах СЭВ широко использовался русский язык. Огромные информационные ресурсы в этих странах сформированы и хранятся именно на этом языке. Одномоментный переход на национальные языки и отказ от использования русского языка в качестве второго государственного, приводит к значительному ущербу для национальных информационных ресурсов этих стран.