НОУ ИНТУИТ | Введение в модель данных SQL. Лекция 6: Средства формулировки аналитических и рекурсивных запросов

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Твой путь к знаниям!

Опубликован: 10.10.2005 | Уровень: специалист | Доступ: свободно | ВУЗ: Московский государственный университет имени М.В.Ломоносова

Вам нравится? Нравится 64 студентам

| Поделиться |

Поддержать программу

Возможности формулирования аналитических запросов

Аналитическими запросами к базе данных принято называть запросы, сводные (агрегатные) результаты которых вычисляются над детальными данными, хранящимися в таблицах базы данных. В этом смысле любой запрос на языке SQL, результат которого основан на вычислении агрегатных функций, можно назвать аналитическим. Характерная особенность аналитических запросов состоит в том, что, как правило, они применяются к большим по объему базам данных, и выполнение таких запросов вызывает существенные накладные расходы СУБД.

В этом курсе мы не будем подробно обсуждать возможности языка SQL, предназначенные для поддержки оперативной аналитической обработки баз данных ( OLAP - on-line analytical processing ). Рассмотрим только самые основные средства, опираясь на простые примеры. Для этих примеров предположим, что таблица EMP содержит следующий набор строк (покажем содержимое только тех столбцов, которые потребуются в примерах, причем для простоты будем считать, что в столбце EMP_DATE содержится не полная дата, а только год рождения служащего):

EMP
EMP_NO	DEPT_NO	EMP_BDATE	EMP_SAL
2440	1	1950	15000.00
2441	1	1950	16000.00
2442	1	1960	14000.00
2443	1	1960	19000.00
2444	2	1950	17000.00
2445	2	1950	16000.00
2446	2	1960	14000.00
2447	2	1960	20000.00
2448	3	1950	18000.00
2449	3	1950	13000.00
2450	3	1960	21000.00
2451	3	1960	22000.00

Представим себе, что для проведения анализа требуется узнать максимальный размер зарплаты на всем предприятии, максимальный размер зарплаты в каждом отделе и максимальный размер зарплаты служащих каждой возрастной категории каждого отдела. Если пользоваться стандартными средствами языка SQL, обсуждавшимися ранее в предложенном курсе, то для получения этих данных потребуется три запроса:

SELECT MAX (EMP_SAL) AS MAX_ENT_SAL
    FROM EMP;
SELECT DEPT_NO, MAX (EMP_SAL) AS MAX_DEP_SAL
    FROM EMP
    GROUP BY DEPT_NO;
SELECT DEPT_NO, EMP_BDATE, MAX (EMP_SAL) 
    AS MAX_DEP_BDATE_SAL
    FROM EMP
    GROUP BY DEPT_NO, EMP_BDATE;

При выполнении запросов будут получены следующие результирующие таблицы:

MAX_ENT_SAL
22000.00

DEPT_NO	MAX_DEP_SAL
1	19000.00
2	20000.00
3	22000.00

DEPT_NO	EMP_BDATE	MAX_DEP_BDATE_SAL
1	1950	16000.00
1	1960	19000.00
2	1950	17000.00
2	1960	20000.00
3	1950	18000.00
3	1960	22000.00

Раздел GROUP BY ROLLUP

Эти же результаты можно получить при выполнении единственного запроса, если в его формулировке использовать специальный вид группировки ROLLUP (пример 16.1):

SELECT DEPT_NO, EMP_BDATE, MAX (EMP_SAL) AS MAX_SAL
    FROM EMP
    GROUP BY ROLLUP (DEPT_NO, EMP_BDATE);

Пример 16.1.

Сначала покажем, как будет выглядеть результирующая таблица этого запроса, а потом приведем развернутое пояснение действия новой конструкции. В результате выполнения запроса будет получена таблица, показанная на рис.16.1.

Как видно, в столбце MAX_SAL первой строки^{1Конечно, мы показали строки результирующей таблицы, расположенные в удобном для нас порядке только для упрощения объяснений. В действительности, строки результирующей таблицы (как обычно) будут расположены в порядке, определяемом системой. Чтобы добиться в точности такого порядка расположения строк, как это показано на рис.16.1, к формулировке запроса из примера 16.1 нужно добавить раздел ORDER BY DEPT_NO, EMP_BDATE .} результирующей таблицы находится максимальное значение зарплаты служащих на всем предприятии. Столбцы DEPT_NO и EMP_BDATE в этой строке содержат неопределенное значение, поскольку значение MAX_SAL не привязано к каким-либо отделу и возрастной категории. В столбце MAX_SAL следующих трех строк находятся максимальные значения зарплаты служащих отделов с номерами 1, 2 и 3 соответственно, что показывают значения столбца DEPT_NO. Столбец EMP_BDATE в этих строках содержит неопределенное значение, поскольку значение MAX_SAL не привязано к какой-либо возрастной категории. Наконец, в столбце MAX_SAL в последних шести строках содержатся максимальные значения зарплаты служащих каждой возрастной категории каждого отдела, что показывают значения столбцов DEPT_NO и EMP_BDATE, которые теперь содержат соответствующий номер отдела и год рождения служащих.

Рис. 16.1. Результат запроса с разделом GROUP BY ROLLUP

В общем случае пусть раздел группировки запроса имеет вид GROUP BY ROLLUP ( cname₁, cname₂, ... , cname_n ), где cname_i ( i = 1, 2, ... , n ) - имя столбца таблицы-результата раздела FROM запроса. Пусть в списке выборки используются вызовы агрегатных функций AGG₁, AGG₂, ... , AGG_m над значениями столбцов, не входящих в список группировки, а также имена столбцов cname₁, cname₂, ... , cname_n. Тогда запрос выполняется следующим образом. Первая строка результата (первый набор строк результирующей таблицы) производится таким образом, как если бы в запросе вообще отсутствовал раздел GROUP BY, т.е. агрегатные функции AGG₁, AGG₂, ... , AGG_m вычисляются над значениями всех строк таблицы. Значением столбцов cname₁, cname₂, ... , cname_n в этой строке является NULL. ( i+1 )-й набор строк результата формируется так, как если бы раздел группировки запроса имел вид GROUP BY ( cname₁, cname₂, ... , cname_i ) ( 1<=i<n ). Во всех этих строках значением столбцов cname_(i+1), ... , cname_n является NULL. Наконец, ( n+1 )-й набор строк результата формируется так, как если бы раздел группировки запроса имел вид GROUP BY ( cname₁, cname₂, ... , cname_n ).

Может показаться, что запросы, содержащие раздел GROUP BY ROLLUP , настолько сложны, что их выполнение будет занимать чрезмерно большое время. Это ощущение является ложным. В действительности, при выполнении запросов с обычной группировкой вида GROUP BY cname₁, cname₂, ... , cname_n, как правило, последовательно выполняется сортировка строк таблицы-результата раздела FROM в соответствии со значениями столбца cname₁, затем - в соответствии со значениями столбца cname₂ и т. д., и в заключение - сортировка в соответствии со значениями столбца cname_n. Во время выполнения каждой сортировки можно заодно вычислять значения агрегатных функций. Так что стоимость выполнения запроса, содержащего раздел GROUP BY ROLLUP , лишь незначительно отличается от стоимости выполнения запроса с обычной группировкой.

Дальше >>

Введение в модель данных SQL

Средства формулировки аналитических и рекурсивных запросов

Возможности формулирования аналитических запросов

Раздел GROUP BY ROLLUP

Вопросы и ответы

Студенты

Авторизоваться

Введение в модель данных SQL

Средства формулировки аналитических и рекурсивных запросов

Возможности формулирования аналитических запросов

Раздел GROUP BY ROLLUP

Вопросы и ответы

Студенты