Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
72
Добавлен:
10.02.2015
Размер:
3.92 Mб
Скачать

1.3. Основные требования к средствам преобразования информации табличного вида в реляционные таблицы

Для того, чтобы обеспечить возможность преобразования информации таблич­ного вида в таблицы реляционных БД, ее, прежде всего, необходимо привести к реля­ционному представлению данных. Реляционная таблица представляет собой двумер­ный массив и обладает следующими свойствами:

  • каждый элемент таблицы - один элемент данных;

  • все столбцы таблицы однородные, т.е. все элементы в столбце имеют одинако­вый тип;

  • каждый столбец имеет уникальное имя;

  • одинаковые строки в таблице отсутствуют;

  • порядок следования столбцов и строк может быть произвольным [1].

Из сказанного выше об информации табличного вида следует, что этими свойствами она в общем случае не обладает. Более того, заголовки столбцов исходных таблиц могут располагаться на нескольких строках, в заголовках столбцов могут присутствовать недопустимые с точки зрения БД символы (".","!" и др.), элементы данных могут располагаться на нескольких строках. Все это недопустимо для реля­ционных таблиц. В связи с этим первым необходимым шагом методики преобразова­ния в файлы реляционных баз данных является генерация таблиц, обладающих пере­численными свойствами на основе исходных таблиц. Для решения этой проблемы необходимо разработать формальную модель информации табличного вида, фор­мальную модель реляционных таблиц и на основе их использования разработать средства, обеспечивающие преобразование формы представления данных от одного вида к другому. Естественное пожелание, чтобы эти средства были автоматиче­скими, в крайнем случае, автоматизированными.

В качестве исходного вида информации оправданно принять текстовые файлы или электронные таблицы. Если информация представлена на бумаге, ее можно отсканировать и распознать в каком-либо текстовом редакторе и получить текстовые файлы. Если информация представлена в виде электронных таблиц, проблемы преобразования не снимаются, и поэтому иногда имеет смысл электронные таблицы преобразо­вать в текстовые файлы. Конечно, проблема преобразования информации табличного вида, которая представлена в формате электронных таблиц, в файлы БД имеет свою специфику, поэтому средства преобразования информа­ции должны ее учитывать эту специфику.

Программа-обработчик текстового файла должна в первую очередь выделить заголовки таблицы. При этом необходимо:

  • выделить строки текста, содержащие заголовки;

  • исключить подзаголовки (если они есть) и преобразовать их в заголовки или дать возможность сделать это пользователю;

  • преобразовать многострочные заголовки в однострочные заголовки;

  • обнаружить недопустимые с точки зрения БД символы;

  • сформировать строку из заголовков таблицы;

  • запомнить позиции столбцов для использования их в дальнейшем при выделе­нии данных.

Далее программа должна выделять данные из информации табличного вида. При этом необходимо:

  • определять символы разделения строк таблицы или дать возможность сделать это пользователю;

  • преобразовывать многострочные данные в однострочные данные;

  • обнаруживать несоответствия типов данных, относящихся к одному столбцу, и давать возможность пользователю редактировать данные или откладывать записи в отдельный файл для последующей обработки;

  • располагать данные, относящиеся к одной записи таблицы, в одну строку в по­зиции, соответствующие запомненным ранее позициям заголовков столб­цов;

В процессе формирования целевого текстового файла необходимо обеспечить вклю­чение символов-разделителей столбцов, которые впоследствии будут использованы при распознавании таблиц в БД. Для организации этого процесса, вероятно, потре­буются несложные лингвистические средства для управления заданием. Кроме того, потребуются интерактивные средства для разрешения проблем преобразования поль­зователем, в случае если решение их не очевидно. В программе необходимо преду­смотреть интерактивное средство обработки отложенных записей.

Соседние файлы в папке Книги