Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинары 1234 АБИС.doc
Скачиваний:
2
Добавлен:
23.12.2018
Размер:
213.5 Кб
Скачать

5. Стратегия и тактика поиска информации в бд

Стратегия поиска - определение последовательности операций, осуществляемых а процессе поиска, с целью повышения эффективности поиска. ГОСТ 7.73-96.

Если пользователь исследует новую проблему в бизнесе, ищет информацию среди ресурсов, которые он еще не освоил, одним из основных методов является использование поисковых машин и каталогов. В этом случае может быть предложена следующая технология подготовки и проведения поиска:

1. определение общей направленности запроса, т.е. его содержания;

2. определение географических регионов поиска (т.к. для практических задач ценность информационного ресурса может зависеть от его географического положения);

3. отбор поисковых машин – качество выполнения этого этапа будет зависеть от опыта работы пользователя с поисковыми машинами;

4. составление запросов – наиболее сложный этап и для эффективного использования поисковых машин запрос составляется таким образом, чтобы область поиска была сужена в максимальной степени. Предпочтение должно отдаваться не одному расширенному запросу, а нескольким узким. Необходимо по ключевым словам составить тезаурус запроса, для чего необходимо хорошее знание предметной области, по которой выдается запрос;

5. выполнение запроса и его уточнение – анализ полученных результатов позволяет корректировать запрос с целью сужения области поиска.

6. Получение и обработка результата.

При выполнении сложного запроса рекомендуется обращаться к специалистам в виртуальную справочную службу.

Опытный специалист в области информации всегда должен иметь список интересующих его сайтов. В этом случае ему придется только отслеживать появление новых интересующих его сайтов.

Семинар № 4. «Внутренние бд»

1 Определение понятия Внутренняя бд абис. Состав и назначение. Основные и служебные бд.

Внутренние базы данных так называются потому, что они обрабатываются исключительно в оперативной памяти компьютера.

Так как внутренние базы данных размещаются в оперативной памяти компьютера, работать с ними существенно быстрее, чем с внешними.

Внутренняя база данных состоит из фактов, которые можно динамически, в процессе выполнения программы, добавлять в базу данных и удалять из нее, сохранять в файле, загружать факты из файла в базу данных.

Сохраненная внутренняя база данных представляет собой обычный текстовый файл, который может быть просмотрен и/или изменен в любом текстовом редакторе.

2 Объективные предпосылки создания бд. Требования к ним.

Индустрия программного обеспечения (ПО) предназначена для создания информационного пространства России как совокупности информационных ресурсов и средств доступа к ним их пользователей, а также организационных структур поддержки этого пространства. Современное представление об индустрии программного обеспечения характеризуется индустриальными методами разработки и тиражирования не только отдельных программных средств (системных и прикладных программ определенного назначения, реализованных на различных аппаратных платформах), но также и информационных и вычислительных систем, вплоть до поставок систем "под ключ" путем интеграции различных компонент в целевые проблемно-ориентированные системы. Продукцию индустрии программного обеспечения составляют программные системы, программные комплексы и отдельные программные средства (ПС), базы данных (БД) и базы знаний, которые предназначены для использования в информационных, вычислительных и управляющих системах у пользователей. Предпосылками и стимулами для появления и развития современной программной индустрии, базирующейся на высокоавтоматизированных технологиях и инструментальных системах для создания программных средств и баз данных, явились коренные реальные изменения объектов проектирования. Большое значение и массовость приобретают разработки особо сложных ПС и БД для информационных систем административного управления в государственных и региональных структурах, в банках и финансовых учреждениях, для управления динамическими объектами и сложными производственными процессами и т. п. Значительно возросли доступные ресурсы ЭВМ, которые можно использовать для повышения уровня автоматизации проектирования с тем, чтобы уменьшить его трудоемкость и длительность.

Эффективность индустрии ПО отражается непосредственно на затратах совокупного общественного труда на создание информационных систем со средствами вычислительной техники. Освоение основ экономики создания и применения ПО позволяет рационализировать капиталовложения в средства автоматизации, прогнозировать затраты и длительность разработки систем, использующих средства вычислительной техники, научно планировать создание и производство крупных программных комплексов. Выявление назначения, объемов, качества, реальной эффективности применения системных и прикладных программ в различных областях и других обобщенных характеристик существующих ПС и БД и технологий их создания позволяет иметь базу для целенаправленного рационального распределения инвестиций на их разработку и производство. Концентрация затрат на программных средствах и информации баз данных при создании информационных систем способствовала повышению актуальности развития и применения эффективных базовых технологий и инструментальных средств автоматизации разработки как базовых компонент индустрии ПО.

Процесс решения любой задачи на компьютере представляет собой обработку дан¬ных по заданному алгоритму. Данными могут быть: числа, буквы, слова, фа¬милии и телефоны, показатели работы предприятия и др.

Продолжительное время для решения каждой задачи использовалась только своя совокупность данных, которая оформлялась в виде так называемых наборов данных или файлов данных.

Такой метод использования данных обладает определенными недостатками, в ча¬стности, избыточностью и дублированием данных.

Эти обстоятельства и послужили основной причиной появления в конце 60-х годов баз данных (БД).

База данных – это единое, централизованное хранилище данных определен¬ной предметной области (под предметной областью здесь понимается, например, пред¬приятие, район и др.), к которой имеют доступ многие программы. Каждая программа имеет доступ к конкретным данным базы данных с помощью специальных программ, ко¬торые получили название системы управления базами данных (СУБД).

Базы данных имеют несколько уровней представления. Самый низкий уровень – это физический, на котором данные представляются байтами на определенных типах запоминающих устройств. Физический уровень представления баз данных доступен только узкому кругу специалистов.

К современным базам данных предъявляются следующие основные требования:

1. Высокое быстродействие (малое время отклика на запрос). Время отклика - промежуток времени от момента запроса к БД до фактического получения данных. Похожим является термин время доступа - промежуток времени между выдачей команды записи (считывания) и фактическим получением данных. Под доступом понимается операция поиска, чтения данных или записи их. Часто операции записи, удаления и модификации данных называют операцией обновления.

2. Простота обновления данных.

3. Независимость данных.

4. Совместное использование данных многими пользователями.

5. Безопасность данных - защита данных от преднамеренного или непреднамеренного нарушения секретности, искажения или разрушения.

6. Стандартизация построения и эксплуатации БД (фактически СУБД).

7. Адекватность отображения данных соответствующей предметной области.

8. Дружелюбный интерфейс пользователя.

3 Принципы создания служебных БД, их организация. Локальные, централизованные и распределенные БД.

Совокупность процедур проектирования централизованной БД можно объединить в четыре этапа.

На этапе формулирования и анализа требований устанавливаются цели организации, определяются требования к БД. Они состоят из общих требований и специфических требований. Для формирования специфических требований обычно используется методика интервьюирования персонала различных уровней управления. Все требования документируются в форме, доступной конечному пользователю и проектировщику БД.

Этап концептуального проектирования заключается в описании и синтезе информационных требований пользователей в первоначальный проект БД. Исходными данными могут быть совокупность документов пользователя при классическом подходе или алгоритмы приложений (алгоритмы бизнеса) при современном подходе. Результатом этого этапа является высокоуровневое представление (в виде системы таблиц БД) информационных требований пользователей на основе различных подходов.

Сначала выбирается модель БД. Затем с помощью создается структура БД, которая заполняется данными с помощью команд ЯМД, систем меню, экранных форм или в режиме просмотра таблиц БД. Здесь же обеспечивается защита и целостность (в том числе ссылочная) данных с помощью СУБД или путем построения триггеров.

В процессе логического проектирования высокоуровневое представление данных преобразуется в структуру используемой СУБД. Основной целью этапа является устранение избыточности данных с использованием специальных правил нормализации. Цель нормализации - минимизировать повторения данных и возможные структурные изменения БД при процедурах обновления. Это достигается разделением (декомпозицией) одной таблицы в две или несколько с последующим использованием при запросах операции навигации. Заметим, что навигационный поиск снижает быстродействие БД, т.е. увеличивает время отклика на запрос. Полученная логическая структура БД может быть оценена количественно с помощью различных характеристик (число обращений к логическим записям, объем данных в каждом приложении, общий объем данных). На основе этих оценок логическая структура может быть усовершенствована с целью достижения большей эффективности.

Специального обсуждения заслуживает процедура управления БД. Она наиболее проста в однопользовательском режиме. В многопользовательском режиме и в распределенных БД процедура сильно усложняется. При одновременном доступе нескольких пользователей без принятия специальных мер возможно нарушение целостности. Для устранения этого явления используют систему транзакций и режим блокировки таблиц или отдельных записей.

Транзакция - процесс изменения файла, записи или базы данных, вызванный передачей одного входного сообщения. Особенности блокирования и варианты блокировки далее будут рассмотрены отдельно.

На этапе физического проектирования решаются вопросы, связанные с производительностью системы, определяются структуры хранения данных и методы доступа.

Взаимодействие между этапами проектирования и словарной системой необходимо рассматривать отдельно. Процедуры проектирования могут использоваться независимо в случае отсутствия словарной системы. Сама словарная система может рассматриваться как элемент автоматизации проектирования.

Средства проектирования и оценочные критерии используются на всех стадиях разработки. В настоящее время неопределенность при выборе критериев является наиболее слабым местом в проектировании БД. Это связано с трудностью описания и идентификации большого числа альтернативных решений.

Проще обстоит дело при работе с количественными критериями, к которым относятся время ответа на запрос, стоимость модификации, стоимость памяти, время на создание, стоимость на реорганизацию. Затруднение может вызывать противоречие критериев друг другу.

В то же время существует много критериев оптимальности, являющихся неизмеримыми свойствами, трудно выразимыми в количественном представлении или в виде целевой функции.

К качественным критериям могут относиться гибкость, адаптивность, доступность для новых пользователей, совместимость с другими системами, возможность конвертирования в другую вычислительную среду, возможность восстановления, возможность распределения и расширения.

Процесс проектирования является длительным и трудоемким и обычно продолжается несколько месяцев. Основными ресурсами проектировщика БД являются его собственная интуиция и опыт, поэтому качество решения во многих случаях может оказаться низким.

Локальная база данных - база данных, размещенная на одном или нескольких носителях на одном компьютере.

Данные локальной базы данных (файлы данных) находятся на одном (локальном) устройстве, в качестве которого может выступать диск компьютера или сетевой диск (диск другого компьютера, работающего в сети).

Для обеспечения разделения данных (доступа к данным) между несколькими пользователями, в качестве которых выступают программы, работающие на одном или нескольких компьютерах, в локальных базах данных применяется метод, получивший название блокировка файлов. Суть этого метода заключается в том, что пока данные используются одним пользователем, другой пользователь не может работать с этими данными, т. е. данные для него закрыты, заблокированы.

Paradox, dBase, FoxPro и Access — это локальные базы данных

Централизованная БД подразумевает, что работа с БД возможна только локально. Если компьютер работает в сети, то доступ к информации может осуществляться удаленно с других компьютеров сети. Централизованные БД наиболее распространены в настоящее время.

Распределенная база данных (РБД) - система логически интегрированных и территориально распределенных БД, языковых, программных, технических и организационных средств, предназначенных для создания, ведения и обработки информации.

Это означает, что информация физически хранится на разных ЭВМ, связанных сетью передачи данных. Любой узел (участок) может выполнять приложение и участвовать в работе по крайней мере одного приложения. В РБД иногда полезна избыточность.

Специфическими требованиями к РБД являются:

1) ЯОД в рамках схемы должен быть один для всех локальных БД;

2) доступ должен быть коллективным к любой области РБД с соответствующей защитой информации;

3) подсхемы должны быть определены в месте сосредоточения алгоритмов (приложений, процессов) пользователя;

4) степень централизации должна быть разумной;

5) необходимы сбор и обработка информации об эффективности функционирования РБД

К достоинствам РБД относятся:

1) соответствие структуры РБД структуре организаций;

2) гибкое взаимодействие локальных БД;

3) широкие возможности централизации узлов;

4) непосредственный доступ к информации, снижение стоимости передач (за счет уплотнения и концентрации данных);

5) высокие системные характеристики (малое время отклика за счет распараллеливания процессов, высокая надежность);

6) модульная реализация взаимодействия, расширения аппаратных средств, возможность использования объектно-ориентированного подхода в программировании;

7) возможность распределения файлов в соответствии с их активностью;

8) независимые разработки локальных БД через стандартный интерфейс.

Вместе с тем РБД обладают более сложной структурой, что вызывает появление дополнительных проблем (избыточность, несогласованность данных по времени, согласование процессов обновления и запросов, использования телекоммуникационных ресурсов, учет работы дополнительно подсоединенных локальных БД, стандартизация общего интерфейса) согласования работы элементов.

Серьезные проблемы возникают при интеграции в рамках РБД однородных (гомогенных) локальных БД с одинаковыми, чаще всего реляционными, моделями данных.

Проблемы значительно усложняются, если локальные БД построены с использованием различных моделей данных (неоднородные, гетерогенные РБД).