Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БД_1 / Лекции / Лекция 1_вводная.doc
Скачиваний:
45
Добавлен:
11.06.2015
Размер:
372.22 Кб
Скачать

Данные - это сведения, полученные путём измерения, наблюдения, логических или арифметических операций представленные в форме, пригодной для хранения, передачи и обработки.

Информация – это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний.

Передача данных - обмен данными любого характера между различными устройствами по каналам связи.

Формат данныххарактеристика данных, способствующая оптимальному их использованию и определяющая структуру и способ их хранения, диапазон возможных значений и допустимые операции, которые можно выполнять над этими данными. (графический документ, электронный формат и т.д.).

Структура данных – это организационная схема, в соответствии с которой данные упорядочены с тем, чтобы их можно было максимально эффективно интерпретировать или выполнять над ними различные операции.

Атрибуты – характеристики, которые должен содержать документ для хранения свойств его значений.

Документ – это материальный объект с зафиксированной на нем информацией, предназначенный для передачи во времени и пространстве в целях хранения и общественного использования, содержащий реквизит.

Документ в электронной форме – это документ, представленный в форме набора состояний элементов вычислительной техники или иных средств обработки, хранения, передачи информации, допускающий преобразования в форму, пригодную для однозначного восприятия человека.

Информационный продукт – это документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара. Основные особенности информационного продукта, отличающие информацию от других товаров [3]:

  • информация не исчезает при потреблении и может быть использована многократно;

  • информационный продукт в большинстве случаев со временем теряет актуальность (за исключением данных о погоде и климате) несмотря на появление более новых копий;

  • разным потребителям даются различные способы потребления (восприятия) информационного продукта (экран, распечатка, на которых может быть представлены таблица, график, карта, текст, мультимедиа) в зависимости от адресности информации;

  • производство информации в отличие от производства материальных товаров требует значительных затрат по сравнению с затратами на тиражирование;

  • информационная продукция быстро устаревает и дорого стоит.

Метаданные – данные о данных – сведения о наборах данных, организациях, приборах, платформах, рейсах, проектах, ученых, др. Собственные свойства информации [3]:

  • неаддитивность - прибавление информации к уже имеющейся не увеличивает ее суммарное количество на величину прибавленной информации;

  • независимость содержания информации от формы и способов ее представления;

  • устаревание во времени.

Потребительские свойства информации:

  • неэквивалентность количества и качества информации - ценность полученной человеком информации определяется не количеством снимаемой ею неопределенности, а потребностью человека в данной информации, подготовленностью человека к восприятию информации и ее использованию.

  • неисчезаемость информации после ее использования (потребления).

  • независимость ценности информации от количества затрат на ее получение.

Информационная инфраструктура – это информационные технологии в виде вычислительных комплексов, оргтехники, средств и каналов связи, управляемая и поддерживаемая в рабочем состоянии с помощью программных средств и определенных организационных мероприятий. Основными частями информационной инфраструктуры являются:

  • вычислительная техника;

  • организационная техника;

  • носители для хранения информации (жесткий диск, магнитная лента);

  • средства связи (радио и телевещание);

  • системы передачи данных (коммутаторы, маршрутизаторы, каналы связи).

Краткая история развития технических средств для хранения и ввода данных в ЭВМ

Эволюция компьютерных систем представлена на рис.1. Предшествующие годы компьютерной истории можно разделить на пять этапов [9]. Сначала был централизованный период (мэйнфреймы и мини-ЭВМ), его сменил распределенный (персональный компьютер, клиент-сервер), далее началась эпоха Интернет, на ее основе получили развитие мобильные устройства, и предпоследний период, когда компьютеризация проникла во все области человеческой деятельности. А далее шестой этап — «революция встроенных систем», которая дает возможность для объединения независимых устройств в единые физические инфраструктуры.

Компьютерная техника быстро развивается, каждые два – три года происходит удвоение мощностей компьютера, табл.1.

1960

1970

1980

1990

2000

2010

Мэйнфреймы

Миникомпьютеры

Сервера

Персональные компьютеры

DOS

Windows

Пакетный режим

Режим разделения времени

Распределенные вычисления

Клиент-серверные системы

Сервисно – ориентированные системы, ГРИД системы

Централизованные системы

Децентрализованные системы

Глобальные системы -Интернет системы

Рисунок 1 - Эволюция компьютерных систем

Производительность микропроцессоров Intel до сих пор возрастала за счет частоты. За 25 лет тактовая частота процессоров Intel возросла с 5 МГц до примерно 4 ГГц — то есть в 1000 раз. Надежды на продолжение этой закономерности в будущем не оправдываются. В Intel указывают на следующее - экспоненциальное повышение производительности связано с неэффективностью самого наращивания тактовой частоты; кроме того, нарастает проблема задержек в иерархии памяти.

Таблица 1 – Характеристики персональных ЭВМ

Год

Тип процессра

Тактовая частота, МГц

RAM, Мб

Диск, Мб

Внешняя память, Мб

Примечание

1971

Intel 4004 (8/8 Bit)

0.1

0.64

1

0.3

FD 8»

1974

Intel 8080 (8/8 Bit)

0.2

0.64

2

0.3

FD 8»

1978

Intel 8086 (16/8 Bit)

4-10

0.64

5

0.6

FD 5»

1982

Intel 286 (16/16 Bit)

10

0.64

10

1.2

FD 5»

1985

Intel 386 (32/16 Bit)

15

1.5

50

1.4

FD 3»

1989

Intel 486 (32/32 Bit)

16

16

100

640

CD

1993

Pentium (32/32 Bit)

200

32

500

100

Iomega ZIP

1995

Pentium Pro (32/32 Bit)

300

64

1000

1000

Iomega JAZ

1997

Pentium 2 (32/32 Bit)

500

128

6000

7000

Exabyte

2000

Pentium 3 (32/32 Bit)

1000

256

105

20000

DLT

2003

Pentium 4 (64/64 Bit)

3200

512

5*105

107

Сервер Variant V35

2010

Intel Core2

4000

104

106

107

Сменные диски

2015

Intel Core 2

10000

105

108

108

Сменные диски

Повсеместность коммуникаций и активность компьютерных систем способствуют общей тенденции увеличения объема данных, используемых как организациями, так и отдельными людьми. Данные надо передавать, хранить, структурировать и обрабатывать в реальном времени. Сегодня это — гигабайты фотографий, музыкальных записей, текста и видео. Скоро компьютер будет содержать терабайты данных и требовать производительности, измеряемой в Терафлопах. Для достижения такого уровня производительности быстродействие современного процессора персонального компьютера надо поднять более чем в 100 раз.

Обработка огромных потоков данных требует суперкомпьютерного уровня производительности от отдельных серверов, компьютеров и даже мобильных устройств и встроенных систем [5]. Основными приложениями будут системы поддержки решений, работающие в реальном времени, обработка изображений в реальном времени, интеллектуальный поиск, игры и др.

Необходимы меры по активизации исследований и разработке параллельных систем. Создатели компьютеров увеличивают производительность за счет мультиядерности, но для этого надо уметь распараллеливать код, и если новые системы худо-бедно создаются с прицелом на несколько ядер, то огромные объемы унаследованного кода перевести в параллельную архитектуру очень сложно. Но, тем не менее, это направление названо на сегодня единственным, которое позволит наращивать производительность без заметного увеличения стоимости и энергопотребления. Для этого требуются новые алгоритмы, программные модели, ОС и компьютерные архитектуры. Необходимо развивать программную инженерию применительно к параллельным задачам, открытым интерфейсам, средств и методов переноса нынешних последовательных систем на параллельные рельсы.

Web-технологии получат дальнейшее развитие. Регулярный доступ к данным становится насущной потребностью каждого индивидуума. БД и связанные с ними технологии здесь играют ключевую роль. Уже сегодня Web-мастера осознают себя фактически администраторами БД. На многих интернет-узлах начинают применять технологии БД, не видя другой возможности держать под контролем растущее число хранимых объектов. Многие вновь возникающие узлы представляют собой, в сущности, аналоги приложений БД по типу электронных каталогов, где Интернет играет роль инфраструктуры. Архитектура организации доступа к БД в интернет среде показана на рис.2.

Рисунок 2 - Архитектура современной организации доступа к БД

Развитие средств хранения

Данные стремительно стареют. По окончании жизненного цикла данные следует архивировать, а затем поддерживать в архивном формате. Данные могут быть востребованы через многие десятки лет, о чем свидетельствует действующая система бумажных архивов. Вероятность их повторного использования чрезвычайно низка, в определенных критических ситуациях они могут быть востребованы. Не важно, будут ли данные когда-либо использованы, важно, чтобы они были сохранены. Вечное хранение данных соответствующим образом меняет управление жизненным циклом данных, очевидно, они должны по мере старения мигрировать с устройств, обеспечивающих быстрый доступ, на устройства, обеспечивающие низкую удельную стоимость хранения (рис.3), но не могут быть потеряны или уничтожены.

Рисунок 3 – Вероятность повторного использования данных с зависимости от времени хранения данных [9]

Для хранения данных используются следующие носители: бумага, кинопленка, перфокарты, перфоленты, магнитные (видео, аудио, цифровые) и оптические (CD-ROM, DVD). Для физического хранения применяют шкафы, стеллажи, жесткие дисковые системы - винчестеры, флоппи диски, накопители типа Zip, флэш – память, сетевые системы файл-сервер, сервер БД, grid системы.

Перспективные технологии хранения данных, автоматические хранилища лент, устройства хранения прямого доступа, виртуальные ленточные библиотеки, программные средства управления ресурсами хранения, виртуализация памяти, сети хранения на базе IP, твердотельные диски, гибридные жесткие диски, диски на голографических носителях

Компания TDK достигла нового рекорда в плотности записи информации на носитель формата Blu-Ray — теперь компактные диски способны вмещать 200 Гбайт информации.

Магнитные ленты остаются самыми экономичным в плане энергопотребления решением хранения данных, не требующим питания и охлаждения. НМЛ отличаются невысокой стоимостью за терабайт данных и способны выдерживать экстремальные условия. НМЛ HP StorageWorks LTO4 Ultrium1840 для крупных и средних предприятий предлагает максимальный объем, высокую производительность и наибольшую защиту резервных копий, потребляя меньше ватт на гигабайт. Встроенные аппаратные технологии гарантируют защиту данных при утере картриджа. Программное обеспечение НP Data Protector Express Single Server Edition поддерживает аппаратную защиту данных.

Программное обеспечение, разработанное компанией NEC и японским институтом науки и технологий Нара (NAIST, Nara Institute of Science and Technology), позволяет с помощью мобильников с цифровыми камерами (камерофонов) сканировать текст газет и журналов «на ходу», просто проводя им над страницей, а затем распознать весь документ целиком. Программа автоматически отделяет картинки от текста и распознает последний, сохраняя цифровой текст и все содержащиеся в документе изображения.

Хранилища данных. В хранилище данных накапливаются данные из одной или более БД. Существует множество потенциальных применений, а также подходов к организации хранилищ данных. Так, крупный магазин может поддерживать хранилище данных о кассовых операциях для целей добычи данных. Хранилища создаются также для защиты от потерь. Некоторые задачи, касающиеся хранилищ данных, совпадают с теми, которые характерны для интеграции данных в целом, но есть и некоторые специфические проблемы, касающиеся разработки:

  • инструментов для создания насосов данных, т.е. модулей, функционирующих над средой источников данных и поставляющих в хранилище те изменения, которые существенны с точки зрения хранилища; при этом данные должны транслироваться в соответствии с глобальной моделью и схемой хранилища.

  • методов "чистки данных", которые обеспечивают согласование данных, удаление элементов, соответствующих разным представлениям одного и того же объекта, а также удаление неправдоподобных значений.

  • средств для создания и поддержания словарей, информирование пользователей о способах получения данных.

Репозитарии. Класс приложений, называемых репозитариями, можно охарактеризовать как класс систем для хранения и обработки данных и метаданных, т. е. информации о структуре данных. Примеры репозитариев - БД для поддержки компьютерного проектирования, включая CASE (системы проектирования программного обеспечения), а также системы управления документами. Отличительная черта этих систем - изменения метаданных, характерные для любой среды проектирования. В репозитарии необходимо поддерживать множество представлений одной и той же или схожей информации. Например, программный модуль имеет представление в виде исходного кода, объектного кода, промежуточного кода, готовой программы, таблиц использований/определений, документации. Связи между всеми этими представлениями должны отслеживаться репозитарием так, чтобы изменения в одном из них автоматически распространялись на остальные представления того же объекта. Репозитарий должен поддерживать понятие версий (состояний объекта в разные моменты времени) и конфигураций (согласованных коллекций версий). Так, различные релизы программной системы будут формироваться как конфигурации из определенных версий файлов исходного кода. Репозитарий должен поддерживать эволюцию структуры информации и ее метаданных таким образом, чтобы при добавлении новых свойств данных или новых связей не требовалась полная перекомпиляция.

Устройства массовой памяти: В течение 50 лет развития компьютерной техники использовались следующие носители: перфокарты, киноленты, перфоленты, магнитные ленты, дискеты, магнитные картриджи, СD-ROM (увеличение ёмкости носителя до 1,2 Гб против 640 Мб и повышение скорости записи в12 раз), CD-RW, DVD диски, съемные винчестеры, серверы БД. В настоящее время наблюдается устойчивая тенденция роста ёмкости винчестеров, а также снижение удельной стоимости хранения единицы информации. Плотность записи постоянно увеличивается и на настоящий момент составляет более 1 Тб/дюйм2. Цена хранения одного Мб информации продолжает снижаться и в настоящее время составляет менее 0,1 доллара.

Флэш-память – переносное устройство от 32 Гбайт.

Компания Audavi предлагает систему хранения HardTape, в качестве носителей в которой используются 2,5-дюймовые жесткие диски, заключенные в специальные картриджи размером 30x80x17 мм. Картриджи с жесткими дисками выдерживают падение на твердую поверхность с высоты 60 см. Картриджи предлагаются в модификациях емкостью 20, 30, 40, 60 и 80 Гбайт; они устанавливаются в шасси HardTape Bay, которое можно подключить к компьютеру по интерфейсам FireWire, USB или PCMCIA. Система хранения предлагается в качестве альтернативы ленточным накопителям для резервирования информации на случай бедствия, а также для хранения медицинских данных и записей с камер видеонаблюдения [6].

В настоящее время ленты формата 3580 могут хранить до 400 Гбайт несжатой информации. Исследователи полагают, что с помощью так называемых «наношаблонов», предложенных инженерами подразделения микропроцессоров, им удастся создать картриджи, в которых можно будет хранить до 100 терабайт данных.

В компании Iomega разработан накопитель на магнитных дисках величиной с большую монету (около 5 см2), емкость 1,5 Гбайт. Система Digital Capture Technology (DCT) находится в стадии прототипа. Накопитель предназначен для применения в портативных мультимедиа-устройствах.