Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный физико-технический университет (МФТИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

SQL (от Сани Сафронова).doc

Скачиваний:

Добавлен:

03.06.2015

Размер:

969.22 Кб

Скачать

☆

<<< < Предыдущая 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3029 30 > Следующая >>>

Как удалить дубликаты строк при наличии первичного ключа?

Моисеенко С.И. (25-07-2009)

В предыдущей статьемы рассмотрели решение проблемы с дубликатами, вызванной отсутствием первичного ключа. Рассмотрим теперь более тяжелый случай, когда ключ вроде бы есть, но он является синтетическим, что при неправильном проектировании тоже может привести к появлению дубликатов с точки зрения предметной области.

Странное дело, но, рассказывая на лекциях о недостатках синтетических ключей, я, тем не менее, постоянно сталкиваюсь с тем, что студенты в своих первых проектах с базами данных их неизменно используют. Видимо, в человеке заложена генетическая потребность все перенумеровывать, и помочь здесь может только психотерапевт. :-)

Я не хочу обсуждать здесь избитую проблему синтетических ключей. Скажу лишь, что если вы решили использовать их в качестве первичного ключа, то следует также создавать естественный уникальный ключ, чтобы избежать описанной ниже ситуации.

Итак, пусть имеется таблица с первичным ключом id и столбцом name, который в соответствии с ограничениями предметной области должен содержать уникальные значения. Однако если определить структуру таблицы следующим образом

CREATE TABLE T_pk (id INT IDENTITY PRIMARY KEY,

name VARCHAR(50));

то появлению дубликатов ничто не препятствует. Следовало бы использовать следующую структуру таблицы:

CREATE TABLE T_pk (id INT IDENTITY PRIMARY KEY,

name VARCHAR(50) UNIQUE);

Все знают, как нужно правильно поступить, однако зачастую приходится иметь с "унаследованной" структурой и данными, которые нарушают ограничения предметной области. Вот пример:

Id name

1 John

2 Smith

3 John

4 Smith

5 Smith

6 Tom

Вы можете спросить: "А чем эта проблема отличается от предыдущей? Ведь здесь есть даже более простое решение - просто удалить все строки из каждой группы с одинаковыми значениями в столбце name, оставив лишь строку с минимальным/максимальным значением id. Например, так:"

DELETE

FROM T_pk

WHERE id > (SELECT MIN(id) FROM T_pk X WHERE X.name = T_pk.name);

Правильно, но я вам еще не все рассказал. :-) Представьте, что у нас имеется дочерняя таблица T_details, связанная с таблицей T_pk по внешнему ключу:

CREATE TABLE T_details (id_pk INT FOREIGN KEY REFERENCES

T_pk ON DELETE CASCADE,

color VARCHAR(10),

PRIMARY KEY (id_pk, color);

Эта таблица может содержать такие данные:

Id_pk color

1 blue

1 red

2 green

2 red

3 red

4 blue

6 red

Для большей наглядности воспользуемся запросом

SELECT id, name, color FROM T_pk JOIN T_details ON id= id_pk;

чтобы увидеть имена:

Id name color

1 John blue

1 John red

2 Smith green

2 Smith red

3 John red

4 Smith blue

6 Tom red

Таким образом, оказывается, что данные, фактически относящиеся к одному лицу, ошибочно оказались разнесенными по разным родительским записям. Кроме того, дубликаты оказались и в этой таблице:

1 John red

3 John red

Очевидно, что подобные данные приведут к ошибочному анализу и отчетам. Более того, каскадное удаление приведет к потере данных. Например, если мы оставим только строки с минимальным идентификатором в каждой группе в таблице T_pk, то потеряем строку

4 Smith blue

в таблице T_details. Следовательно, мы должны при устранении дубликатов учитывать обе таблицы.

Процедуру "очистки" данных можно провести в два этапа:

Выполнить обновление таблицы T_details, приписав данные, относящиеся к одному имени, к id с минимальным номером в группе.
Удалить дубликаты из таблицы T_pk, оставив только строки с минимальным id в каждой группе с одинаковым значением в столбце name.

<<< < Предыдущая 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3029 30 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.06.201512.57 Mб177Sivuhin-DV-Obschii-kurs-fiziki-Tom-1-Mehanika.pdf
#
03.06.201527.52 Mб12sivuhin_1.pdf
#
03.06.20151.02 Mб5sn74ahc595.pdf
#
03.06.20151.96 Mб49softmatter.pdf
#
03.06.2015488.45 Кб9Spisok tem 2012.doc
#
03.06.2015969.22 Кб75SQL (от Сани Сафронова).doc
#
03.06.20152.55 Mб10SSGersht-Qmec-L070-1310150100131105.pdf
#
03.06.20152.57 Mб27Stack +++.pdf
#
03.06.2015172.12 Кб9stat-mech-intro13.pdf
#
03.06.201510.48 Mб31Straustrup-B-Yazyk-programmirovaniya-S.djvu
#
27.03.201633.53 Mб48Straustrup_B_-_Programmirovanie_Printsipy_i_praktika_ispolzovania_C__-_2011.pdf