Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mi_128522.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.17 Mб
Скачать

Обработка информации

Обработка — это преобразование информации с изменением её содержания или формы представления.

Редактирование текста, математические вычисления, логические умозаключения — примеры процедур изменения содержания информации.

Упорядочивание информации, шифрование или перевод текстов на другой язык — изменение формы. Обработка информации может производиться формально, по правилам или заданному алгоритму. А может применяться эвристический подход, при котором создаётся новая система действий или открываются неизвестные ранее закономерности изучаемой информации. 

Хранение информации

Информация не может существовать без своего носителя — среды, непосредственно хранящей информацию. Заметим, что слово «носитель» означает «нести в себе», то есть содержать, а не переносить информацию. Что может быть носителем? Любой предмет, явление, живое существо. Это могут быть волны различной природы (электромагнитные, в том числе световые, звуковые) или разные состояния вещества. Информация о предмете может быть в самом предмете или во внешнем носителе информации: записной книжке, магнитной записи, картине, фото- и кинодокументах и т. д. Для извлечения информации из внешних носителей необходимы дополнительные средства Для хранения носителей организуются хранилища: для книг — это библиотеки, для картин и рисунков — художественные музеи, для документов — архивы, патентные бюро и т. д.

  1. Извлечение информации как базовый информационный процесс. Фазы извлечения информации. Формы, методы, подходы к извлечению информации.

Извлечение информации 

Источник данных в любой предметной области – это объекты и их свойства, а также процессы и функции, выполняемые объектами. Каждая предметная  область  имеет  три  уровня  представления:  реальное, формальное и информационное. При извлечении информации она трижды оценивается: синтаксическая ценность (правильность представления), семантическая ценность (смысловая ценность), прагматическая ценность (потребительская, практическая).

Чтобы адекватно формализовать предметную область применяют объектно-ориентированный подход. Его основные понятия: объект, класс, экземпляр. Объект – это абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами функционирования. Таким образом, объект – типичный неопределенный элемент такого множества. Основные характеристики объекта – его атрибуты   (свойства).   Экземпляр   объекта   –   конкретный   элемент 

множества. Класс – множество предметов реального мира, связанных общностью структуры и поведения. Элемент класса – это конкретный элемент данного множества.

Извлечение информации фазы.

накопление — системное или бессистемное (стихийное) накопление информации в рамках предметной области;

структурирование — выделение основных понятий, выработка структуры представления информации, обладающей максимальной наглядностью, простотой изменения и дополнения;

формализация — представление структурированной информации в форматах машинной обработки, т. е. на языках описания данных и знаний;

обслуживание — корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям

Формы и методы извлечения

  • нахождение ассоциаций, связанных с привязкой к какому либо событию;

  • нахождение последовательностей событий во времени;

  • нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

  • оценка влияния (важности) параметров на события и ситуации;

  • классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объем (события, ситуации, процессы) к той или иной классификационной категории;

  • кластеризация, основанная на группировании объектов по каким-либо признакам;

  • прогнозирование событий и ситуаций.

  1. Понятие объектно-ориентированного подхода, принципы ООП.

Объе́ктно-ориенти́рованное программи́рование (ООП) — парадигма программирования, в которой основнымиконцепциями являются понятия объектов и классов. В случае языков с прототипированием вместо классов используются объекты-прототипы.

Объектно-ориентированное программирование базируется на трех важнейших принципах, придающих объектам новые свойства. Этими принципами являются инкапсуляция, наследование и полиморфизм.

  1. Инкапсуляция - это объединение в единое целое данных и алгоритмов обработки этих данных. В рамках ООП данные называются полями объекта (свойствами), а алгоритмы - объектными методами или просто методами.

  2. Наследование - есть свойство объектов порождать своих потомков. Объект-потомок автоматически наследует от родителя все поля и методы, может дополнять объекты новыми полями и заменять (перекрывать) методы родителя или дополнять их.

  3. Полиморфизм - это свойство родственных объектов (т.е. объектов, имеющих одного общего родителя) решать схожие по смыслу проблемы разными способами. В рамках ООП поведенческие свойства объекта определяются набором входящих в него методов. Изменяя алгоритм того или иного метода в потомках объекта, программист может придавать этим потомкам отсутствующие у родителя специфические свойства. Для изменения метода необходимо перекрыть его в потомке, то есть объявить в потомке одноименный метод и реализовать в нем нужные действия. В результате в объекте-родителе и объекте-потомке будут действовать два одноименных метода, имеющие разную алгоритмическую основу и, следовательно, придающие объектам разные свойства. Это и называется полиморфизмом объектов.

  1. Методы обогащения информации.

Среди методов обогащения информации различают структурное,

статистическое, семантическое и прагматическое обогащения.

Структурное обогащение предполагает изменение параметров

сообщения, отображающего информацию в зависимости от частотного

спектра исследуемого процесса, скорости обслуживания источников

информации и требуемой точности.

При статистическом обогащении осуществляют накопление

статистических данных и обработку выборок из генеральных совокупностей

накопленных данных.

Семантическое обогащение означает минимизацию логической

формы, исчислений и высказываний, выделение и классификацию понятий,

содержания информации, переход от частных понятий к более общим. В

итоге семантического обогащения удается обобщенно представить

обрабатываемую либо передаваемую информацию и устранить логическую

противоречивость в ней.

Прагматическое обогащение является важной ступенью при

использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.

  1. Технологии Data Mining и Text Mining.

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году[1][2][3].

Английское словосочетание «Data Mining» пока не имеет устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания[4]: просев информации, добыча данных, извлечение данных, а, также, интеллектуальный анализ данных[5][6][7]. Более полным и точным является словосочетание «обнаружение знаний в базах данных» (англ. knowledge discovery in databases, KDD).

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений (визуализация), что позволяет использовать инструментарий Data Mining людьми, не имеющими специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации.

Основные задачи Text Mining

Как и большинство когнитивных технологий, Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных.

Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций.

Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов.

Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов.

Основные элементы Text Mining

В соответствии с уже сформированной методологии к основным элементам Text Mining относятся:

классификация (classification)

При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории.

Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации.

• кластеризация (clustering)

Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Различают два основных типа кластеризации - иерархическую и бинарную.

• построение семантических сетей,

Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации.

• извлечение фактов, понятий (feature extraction),

Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации.

• суммаризация (summarization),

• ответ на запросы (question answering),

• тематическое индексирование (thematic indexing),

• поиск по ключевым словам (keyword searching).

  1. Методы поиска информации в сети Интернет (ИПС: поисковые машины, поисковые каталоги).

Основные методы поиска информации в Интернете

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.

Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать.

Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого метода основана на применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.

Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы).

Анализ новых ресурсов

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема.

Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

  1. Процесс формирования информационных ресурсов и их представление в ИПС.

В общем случае информационные ресурсы формируются в результате деятельности, как органов государственной власти, так и государственных и негосударственных предприятий, научных, учебных и общественных организаций. Они включают информацию, знания, а также лингвистические средства, применяемые для описания конкретной предметной области и для доступа к информации и знаниям.

В процессе формирования и использования информационных ресурсов осуществляются сбор, обработка, хранение, поиск и выдача информации по запросам или регламенту. По формам собственности информационные ресурсы подразделяются:

  • государственные;

  • межгосударственные;

  • негосударственные (в том числе коммерческие);

  • смешанной собственности.

Основу информационных ресурсов в области научной и технической информации составляют печатные издания и документы. Все больше растет количество первоисточников в электронной форме. В результате весь информационный массив может быть представлен в виде следующих основных групп:

  • традиционные (печатные) издания: первичные отечественные и зарубежные издания – журналы, книги, депонированные научные работы, стандарты;

  • электронные издания: первичные отечественные и зарубежные издания – книги, журналы; вторичные издания: реферативные журналы, сигнальная информация, экспресс-информация;

  • базы и банки данных, генерируемые в России и получаемые из-за рубежа.

Очень часто эти формы дублируют или дополняют друг друга.

Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

  1. Лексическое, вероятностное, скрытое семантическое индексирование. Использование нейронных сетей для поиска документов.

Индексирование - в информационном поиске - процесс описания документов и запросов в терминах информационно-поискового языка. По результатам индексирования каждому документу назначается набор ключевых слов, отражающих его смысловое содержание.

Координатное (возможно она это имела ввиду, т.к. Лексического индексирования в природе - нет) индексирование - индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов.

Алгоритм координатного индексирования документов основан на учете классификационных признаков входящих в текст терминов (слов и словосочетаний), характеризующих ту или иную предметную область. Для этого необходимо создание словаря терминов предметной области, причем в этом словаре должны быть установлены связи между терминами и проведена классификация терминов. Такой словарь называется тезаурусом.

Вероятностное латентно-семантическое индексирование (PLSI)

Это метод выделения скрытых факторов, характеризующих значение отдельных термов и документов из заданного массива документов. В отличие от традиционного, данный метод основан на вероятностном подходе. Метод вероятностного латентно-семантического индексирования ставит своей задачей выявление латентных, скрытых факторов (тем), присутствующих в информационном массиве и связанных с его документами и словами.

Скрытое семантическое индексирование (LSI – Latent Semantic Indexing)– методология автоматической классификации документа, в результате которой проводится исследование слов во всей совокупности документов и производится подсчет одинаковых характеристик для каждого документа или употребляемого термина.

Скрытое семантическое индексирование с точностью определяет релевантность документа по отношению к поисковой фразе, даже если эта поисковая фраза не встречается в документе. Оценка релевантности – ключевой компонент алгоритма ранжирования поисковыми системами. При использовании данного компонента поисковыми системами LSI оказывает существенное влияние на ранжирование страниц.

Искусственная нейронная сеть (ИНС) — математическая модель, а также её программная или аппаратная реализация, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.

Определение тематики текстовых сообщений — пример успешного использования искусственных нейронных сетей. Так, сервер новостей Convectis (продукт компании Aptex Software, Inc.) был выбран в 1997 году компанией PointCast, Inc., являвшейся лидером персонализированной доставки новостей в Интернете, для автоматической рубрикации сообщений по категориям. Определяя значения ключевых слов по контексту, сервер Convectis был способен в реальном времени распознавать тематику и автоматически рубрицировать огромные потоки текстовых сообщений, передаваемых по таким информационным сетям, как Reuters, NBC и CBS.

  1. Транспортирование информации как базовый информационный процесс.

Основным физическим способом реализации операции транспортировки является использование локальных сетей и сетей передачи данных. При разработке и использовании сетей для обеспечения совместимости используется ряд стандартов, объединенных в семиуровневую модель открытых систем, принятую во всем мире и определяющую правила взаимодействия компонентов сети на данном уровне (протокол уровня) и правила взаимодействия компонентов различных уровней (межуровневый интерфейс). Международные стандарты в области сетевого информационного обмена нашли отражение в эталонной семиуровневой модели, известной как модель OSI (Open System Interconnection – связь открытых систем).

  1. Модель OSI, характеристика уровней.

Модель OSI

Данная модель разработана международной организацией по стандартизации (International Standards Organization – ISO). Большинство производителей сетевых программно-аппаратных средств стремятся придерживаться модели OSI. Но в целом добиться полной совместимости пока не удается.

характеристика уровней

Физический уровень реализует физическое управление и относится к физической цепи, например телефонной, по которой передается информация. На этом уровне модель OSI определяет физические, электрические, функциональные и процедурные характеристики цепей связи, а также требования к сетевым адаптерам и модемам.

Канальный уровень. На этом уровне осуществляется управление звеном сети (каналом) и реализуется пересылка блоков (совокупности битов) информации по физическому звену. Осуществляет такие процедуры управления, как определение начала и конца блока, обнаружение ошибок передачи, адресация сообщений и др. Канальный уровень определяет правила совместного использования сетевых аппаратных средств компьютерами сети.

Сетевой уровень относится к виртуальной (воображаемой) цепи, которая не обязана существовать физически. С помощью интерфейса, обеспечиваемого этим уровнем, удается «спрятать» сложности управления передачей на физическом уровне. Программные средства данного уровня обеспечивают определение маршрута передачи пакетов в сети. Маршрутизаторы, обеспечивающие поиск оптимального маршрута на основе анализа адресной информации, функционируют на сетевом уровне модели OSI. В качестве простейшего маршрутизирующего устройства между сегментами сети или различными локальными сетями может выступать и устройство функционирующее на более низком канальном уровне модели OSI, называемое мостом.

Транспортный уровень. Первые три уровня образуют общую сеть, в которой коллективно могут работать многие пользователи.

На транспортном уровне контролируется очередность пакетов сообщений и их принадлежность. Таким образом, в процессе обмена между компьютерами поддерживается виртуальная связь, аналогичная телефонной коммутации. Сеансовый уровень. В некоторых случаях трудно организовать процесс взаимодействия между пользователями из-за обилия способов такого взаимодействия. Для устранения этих трудностей на данном уровне координируются и стандартизируются процессы установления сеанса, управления передачей и приемом пакетов сообщений, завершения сеанса. На сеансовом уровне между компьютерами устанавливается и завершается виртуальная связь по такому же принципу, как при голосовой телефонной связи.

Управление представлением. Программные средства этого уровня выполняют преобразования данных из внутреннего формата передающего компьютера во внутренний формат компьютера-получателя, если эти форматы отличаются друг от друга (например, IBM PC и DEC). Данный уровень включает функции, относящиеся к используемому набору символов, кодированию данных и способам представления данных на экранах дисплеев или печати. Помимо конвертирования форматов на данном уровне осуществляется сжатие передаваемых данных и их распаковка.

Прикладной уровень относится к функциям, которые обеспечивают поддержку пользователю на более высоком прикладном и системном уровнях, например:

• организация доступа к общим сетевым ресурсам: информации, дисковой памяти, программным приложениям, внешним устройствам (принтерам, стримерам и др.);

• общее управление сетью (управление конфигурацией, разграничение доступа к общим ресурсам сети, управление производительностью);

• передача электронных сообщений, включая электронную почту;

• организация электронных конференций;

• диалоговые функции высокого уровня.

  1. Протоколы нижнего уровня модели OSI.

Модель OSI представляет собой стандартизированный каркас и общие рекомендации, требования же к конкретным компонентам сетевого программного обеспечения задаются протоколами.

Протокол является стандартом в области сетевого программного обеспечения и определяет совокупность функциональных и эксплуатационных требований к какому-либо его компоненту, которых придерживаются производители этого компонента. Требования протокола могут отличаться от требований эталонной модели OSI.

Протоколы нижнего уровня OSI соответствуют уровню сетевых аппаратных средств и нижнему уровню сетевого программного обеспечения. Среди наиболее распространенных стандартов данного уровня выделим следующие:

• стандарт NDIS (Network Driver Interface Specification – спецификация интерфейса сетевых драйверов), разработанный совместно фирмами Microsoft и 3Com;

• стандарт ODI (Open Datalink Interface – открытый интерфейс связи), разработанный совместно фирмами Novell и Apple Computer.

  1. Протоколы среднего уровня модели OSI.

Модель OSI представляет собой стандартизированный каркас и общие рекомендации, требования же к конкретным компонентам сетевого программного обеспечения задаются протоколами.

Протокол является стандартом в области сетевого программного обеспечения и определяет совокупность функциональных и эксплуатационных требований к какому-либо его компоненту, которых придерживаются производители этого компонента. Требования протокола могут отличаться от требований эталонной модели OSI.

Протоколы среднего уровня распространяются на сетевой, транспортный и сеансовый уровни эталонной модели. По типу межкомпьютерного обмена эти протоколы можно классифицировать следующим образом:

• сеансовые протоколы (протоколы виртуального соединения);

В сеансовых протоколах порядок следования пакетов при передаче соответствует их исходному порядку в сообщении, а передача осуществляется с подтверждением доставки, а в случае потери от-правленных пакетов они передаются повторно. Сеансовые протоколы определяют организацию передачи информации между компьютерами по так называемому виртуальному каналу в три этапа:

o установление виртуального канала (установка сеанса);

o реализация непосредственного обмена информацией;

o уничтожение виртуального канала (разъединение).

• дейтаграммные протоколы.

При использовании дейтаграммных протоколов пакеты сообщений передаются так называемыми дейтаграммами независимо друг от друга, поэтому порядок доставки пакетов каждого сообщения может не соответствовать их исходному порядку в сообщении. При этом пакеты сообщений передаются без подтверждения.

Таким образом, с точки зрения достоверности, сеансовые протоколы являются более предпочтительными, зато скорость передачи при использовании дейтаграммных протоколов гораздо выше.

Наиболее часто используемыми наборами протоколов среднего уровня являются следующие:

• набор протоколов SPX/IPX, используемый в локальных сетях, функционирующих под управлением сетевой операционной системы NetWare;

• протоколы NetBIOS и NetBEUI, поддерживаемые большинством сетевых операционных систем и используемые только в локальных сетях;

• протоколы TCP/IP, являющиеся стандартом для глобальной сети Internet, используемые в локальных сетях и поддерживаемые большинством сетевых операционных систем.

  1. Протоколы верхнего уровня модели OSI.

Модель OSI представляет собой стандартизированный каркас и общие рекомендации, требования же к конкретным компонентам сетевого программного обеспечения задаются протоколами.

Протокол является стандартом в области сетевого программного обеспечения и определяет совокупность функциональных и эксплуатационных требований к какому-либо его компоненту, которых придерживаются производители этого компонента. Требования протокола могут отличаться от требований эталонной модели OSI.

Протоколы верхнего уровня соответствуют уровню пользователей и прикладных программ и распространяются на уровень представления и прикладной уровень эталонной модели сетевого взаимодействия.

Наиболее распространенными являются следующие высокоуровневые протоколы:

• перенаправления запросов и обмена сообщениями (SMB, NCP);

• управления сетями (SNMP);

• сетевой файловой системы (NFS);

• вызова удаленных процедур (RPC);

• повышающие эффективность использования протоколов TCP/IP среднего уровня (DNS, DHSP);

• удаленного доступа к компьютерным ресурсам (SLIP, PPP,

Telnet);

• передачи файлов (FTP);

• передачи гипертекста (HTTP);

• электронной почты (SMTP, POP3, IMAP4);

• организации электронных конференций и системы новостей (NNTP).

  1. Требования к компьютерной сети.

Требования, предлагаемые к современным вычислительным сетям заключаются в следующем:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]