
- •Лекция 2. Основные понятия обработки данных: стандартизация, очистка и обогащение информации. Направление развития технологий обработки данных План лекции
- •Основные понятия, связанные с обработкой данных
- •Компоненты рынка информационных продуктов
- •Направления развития современных информационных технологий в сфере обработки данных Историческое развитие информационных технологий можно обобщить следующим образом:
- •Новое поколение мультимедийных поисковых систем
- •Распознавание и обработка видео и аудиообразов
- •Аналитическое программное обеспечение
- •Мобильные приложения
- •Встроенные системы управления
- •Сложные инженерные решения
- •Новые методы хранения, обработки и передачи информации
- •Облачные вычисления
- •«Зеленые» информационные технологии
- •Ит-безопасность
- •Контрольные вопросы
Лекция 2. Основные понятия обработки данных: стандартизация, очистка и обогащение информации. Направление развития технологий обработки данных План лекции
1.Основные понятия, связанные с обработкой данных
2.Направления развития современных информационных технологий в сфере обработки данных
Историческое развитие информационных технологий можно обобщить следующим образом:
Контрольные вопросы
Основные понятия, связанные с обработкой данных
Начнем с того, что в современном мире роль информации значительно увеличилась, и сегодня о ней говорят, как о стратегическом ресурсе общества, определяющем уровень развития государства, его экономический потенциал и положение в мировом сообществе.
Сам термин «информационное общество» возник уже во второй половине 60-х годов ХХ столетия, когда человечество впервые осознало наличие «информационного взрыва», в результате которого производство и другие сферы деятельности стали нуждаться в информационном обслуживании, переработке огромного количества информации.
Информационное общество – общество, в котором большинство работающих занято производством, хранением, переработкой и реализацией информации, особенно высшей ее формы – знаний. Соответственно под информационным обществом сегодня понимается общество, в котором информация является ключевым компонентом экономической и социальной жизни. При информатизации общества возникает производство информационного продукта, а не продукта материального, что служит движущей силой развития общества. Информацияприобретает статус товара и по значимости для общества становится даже выше других материальных ресурсов. Так, в себестоимости современного автомобиля более половины составляет стоимость информации. Рассмотрим понятия, связанные с информационным обществом, более подробно.
Соответственно информатизация – это организованный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав граждан, органов государственной власти, органов местного самоуправления, организаций, общественных объединений на основе формирования и использования информационных ресурсов.
В понятии «информатизация общества» следует сделать акцент не столько на технических средствах, сколько на сущности и цели социально-технического прогресса – обеспечении полного использования достоверного, исчерпывающего и своевременного знания во всех видах человеческой деятельности.
Информационные ресурсы – отдельные документы и отдельные массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).
Информационные продукты – документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара. Информационными продуктами являются программные продукты, базы и банки данных и другая информация.
В этой связи данные будем рассматривать как формализованную (структуированную) информацию, представленную на каком-то физическом носителе.
Информационные процессы – процессы сбора, обработки, накопления, поиска и распространения информации.
Каналы связи (информационные коммуникации) – пути и процессы, обеспечивающие передачу информации от источника к потребителю.
Телекоммуникации – дистанционная передача данных на базе компьютерных сетей и современных средств связи.
Технологияпри переводе с греческого (techne) означает искусство, мастерство, умение. Но в информатике и экономике понятие технологии больше связано с понятием процесса. Причем, под процессом имеется в виду определенная совокупность действий, направленных на достижение поставленной цели. Процесс определяется выбранной человеком стратегией и реализовывается с помощью совокупности различных средств и методов.
Технологияматериального производства – процесс, определяемый совокупностью средств и методов обработки, изготовления, изменения состояния, свойств, формы сырья или материала. Технологияизменяет качество или первоначальное состояние материи в целях получения материального продукта.
Поскольку информация один из наиболее ценных ресурсов общества, то процесс ее переработки можно, по аналогии, воспринимать как технологии. Тогда, справедливо следующее определение.
Информационная технология (ИТ) – это процесс, использующий совокупность методов и программно-технических средств, для сбора, обработки, хранения, передачи и представления информации с целью получения информации нового качества, снижения трудоемкости и повышения эффективности процессов использования информационных ресурсов.
Соответственно основным назначением информационных технологий является производство информационных продуктов для их дальнейшего анализа и принятия управленческих решений (см. рис.1).
Рисунок 1. Понятие информационных технологий
Технология обработки данных – это информационная технология, направленная на процесс стандартизации, очистки и обогащения информации, что позволяет ее представлять и хранить в наиболее оптимальном виде.
Стандартизация данных – это унификация представления и приведение к единому формату данных.
Методы стандартизации: парсинг – грамматический или лексический анализ текста, использование машинных словарей (кодификаторов), использование регулярных выражений.
Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Как правило, очистка сводится к исправлению синтаксических, семантических и прагматических ошибок, допущенных в процессе сбора информации из разных источников.
Методы очистки: частотный анализ, использование контрольных чисел, схожесть строк, дедубликация.
Обогащение информации – это процесс насыщения данных новой информацией, которая позволяет сделать их более ценными и значимыми с точки зрения решения той или иной аналитической задачи.
Существует два основных типа обогащения данных – внешнее и внутреннее. Внешнее обогащение предполагает привлечение дополнительной информации из источников, которые находятся вне информационной системы. Практически источником информации для обогащения данных могут быть любые организации, которые в процессе своей деятельности собирают, структурируют и хранят сведения, связанные с их деятельностью. Внешнее обогащение особенно эффективно при проведении стратегического анализа, когда необходимо учесть все факторы и тенденции, действующие при решении определенной задачи.
Внутренне обогащение не предполагает привлечения какой-либо внешней информации. Оно обычно связано с получением и включением в набор данных полезной информации, которая отсутствует в явном виде, но может быть тем или иным способом получена с помощью манипуляций с имеющимися данными. Затем, эта информация встраивается в виде новых полей или даже таблиц в хранилище данных и может быть использована для дальнейшего анализа. Для обогащения данных может использоваться также информация, полученная в процессе их анализа. Внутреннее обогащение используется для повышения эффективности оперативного анализа.
Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.
Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.
При статистическом обогащении осуществляют накопление статистических данных и обработку выборок из генеральных совокупностей накопленных данных.
Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней.
Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.
Обобщающим понятием в информатизации является информационный рынок — система экономических, правовых и организационных отношений по торговле продуктами интеллектуального труда на коммерческой основе.
Он характеризуется определенной номенклатурой продуктов и услуг, ценами, спросом и предложением, поставщиками и потребителями. В отличие от торговли обычным товаром, информационные ресурсы, услуги и продукты могут копироваться в неограниченном количестве (см. рис. 2).