Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
78
Добавлен:
24.04.2015
Размер:
209.41 Кб
Скачать

Лекция 2. Основные понятия обработки данных: стандартизация, очистка и обогащение информации. Направление развития технологий обработки данных План лекции

1.Основные понятия, связанные с обработкой данных

2.Направления развития современных информационных технологий в сфере обработки данных

Историческое развитие информационных технологий можно обобщить следующим образом:

Контрольные вопросы

  1. Основные понятия, связанные с обработкой данных

Начнем с того, что в современном мире роль информации значительно увеличилась, и сегодня о ней говорят, как о стратегическом ресурсе общества, определяющем уровень развития государства, его экономический потенциал и положение в мировом сообществе.

Сам термин «информационное общество» возник уже во второй половине 60-х годов ХХ столетия, когда человечество впервые осознало наличие «информационного взрыва», в результате которого производство и другие сферы деятельности стали нуждаться в информационном обслуживании, переработке огромного количества информации.

Информационное общество – общество, в котором большинство работающих занято производством, хранением, переработкой и реализацией информации, особенно высшей ее формы – знаний. Соответственно под информационным обществом сегодня понимается общество, в котором информация является ключевым компонентом экономической и социальной жизни. При информатизации общества возникает производство информационного продукта, а не продукта материального, что служит движущей силой развития общества. Информацияприобретает статус товара и по значимости для общества становится даже выше других материальных ресурсов. Так, в себестоимости современного автомобиля более половины составляет стоимость информации. Рассмотрим понятия, связанные с информационным обществом, более подробно.

Соответственно информатизация – это организованный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав граждан, органов государственной власти, органов местного самоуправления, организаций, общественных объединений на основе формирования и использования информационных ресурсов.

В понятии «информатизация общества» следует сделать акцент не столько на технических средствах, сколько на сущности и цели социально-технического прогресса – обеспечении полного использования достоверного, исчерпывающего и своевременного знания во всех видах человеческой деятельности.

Информационные ресурсы – отдельные документы и отдельные массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).

Информационные продукты – документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара. Информационными продуктами являются программные продукты, базы и банки данных и другая информация.

В этой связи данные будем рассматривать как формализованную (структуированную) информацию, представленную на каком-то физическом носителе.

Информационные процессы – процессы сбора, обработки, накопления, поиска и распространения информации.

Каналы связи (информационные коммуникации) – пути и процессы, обеспечивающие передачу информации от источника к потребителю.

Телекоммуникации – дистанционная передача данных на базе компьютерных сетей и современных средств связи.

Технологияпри переводе с греческого (techne) означает искусство, мастерство, умение. Но в информатике и экономике понятие технологии больше связано с понятием процесса. Причем, под процессом имеется в виду определенная совокупность действий, направленных на достижение поставленной цели. Процесс определяется выбранной человеком стратегией и реализовывается с помощью совокупности различных средств и методов.

Технологияматериального производства – процесс, определяемый совокупностью средств и методов обработки, изготовления, изменения состояния, свойств, формы сырья или материала. Технологияизменяет качество или первоначальное состояние материи в целях получения материального продукта.

Поскольку информация один из наиболее ценных ресурсов общества, то процесс ее переработки можно, по аналогии, воспринимать как технологии. Тогда, справедливо следующее определение.

Информационная технология (ИТ) – это процесс, использующий совокупность методов и программно-технических средств, для сбора, обработки, хранения, передачи и представления информации с целью получения информации нового качества, снижения трудоемкости и повышения эффективности процессов использования информационных ресурсов.

Соответственно основным назначением информационных технологий является производство информационных продуктов для их дальнейшего анализа и принятия управленческих решений (см. рис.1).

Рисунок 1. Понятие информационных технологий

Технология обработки данных – это информационная технология, направленная на процесс стандартизации, очистки и обогащения информации, что позволяет ее представлять и хранить в наиболее оптимальном виде.

Стандартизация данных – это унификация представления и приведение к единому формату данных.

Методы стандартизации: парсинг – грамматический или лексический анализ текста, использование машинных словарей (кодификаторов), использование регулярных выражений.

Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Как правило, очистка сводится к исправлению синтаксических, семантических и прагматических ошибок, допущенных в процессе сбора информации из разных источников.

Методы очистки: частотный анализ, использование контрольных чисел, схожесть строк, дедубликация.

Обогащение информации – это процесс насыщения данных новой информацией, которая позволяет сделать их более ценными и значимыми с точки зрения решения той или иной аналитической задачи.

Существует два основных типа обогащения данных – внешнее и внутреннее. Внешнее обогащение предполагает привлечение дополнительной информации из источников, которые находятся вне информационной системы. Практически источником информации для обогащения данных могут быть любые организации, которые в процессе своей деятельности собирают, структурируют и хранят сведения, связанные с их деятельностью. Внешнее обогащение особенно эффективно при проведении стратегического анализа, когда необходимо учесть все факторы и тенденции, действующие при решении определенной задачи.

Внутренне обогащение не предполагает привлечения какой-либо внешней информации. Оно обычно связано с получением и включением в набор данных полезной информации, которая отсутствует в явном виде, но может быть тем или иным способом получена с помощью манипуляций с имеющимися данными. Затем, эта информация встраивается в виде новых полей или даже таблиц в хранилище данных и может быть использована для дальнейшего анализа. Для обогащения данных может использоваться также информация, полученная в процессе их анализа. Внутреннее обогащение используется для повышения эффективности оперативного анализа.

Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.

Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.

При статистическом обогащении осуществляют накопление статистических данных и обработку выборок из генеральных совокупностей накопленных данных.

Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней.

Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.

Обобщающим понятием в информатизации является информационный рынок — система экономических, правовых и организационных отношений по торговле продуктами интеллектуального труда на коммерческой основе.

Он характеризуется определенной номенклатурой продуктов и услуг, ценами, спросом и предложением, поставщиками и потребителями. В отличие от торговли обычным товаром, информационные ресурсы, услуги и продукты могут копироваться в неограниченном количестве (см. рис. 2).