Опубликован: 02.08.2007 | Уровень: специалист | Доступ: свободно
Лекция 15:

Введение в оптимизацию запросов

Аннотация: В настоящей лекции рассматриваются основы оптимизации обработки запросов в реляционных базах данных. Здесь мы кратко рассмотрим эволюцию языков обработки запросов и различные подходы к оптимизации запросов в реляционных СУБД.
Ключевые слова: оптимизатор запросов, статистическая информация, оценка стоимости, процессор памяти, оптимизация запросов, языки обработки данных, IDM, IMS, физическая структура, администратор БД, логическая схема, preparation, access path, путь доступа, план выполнения, тип команды, DML, improvement, vendor, условия поиска, операция проекции, синтаксическая оптимизация, тождественное преобразование, автоматическое преобразование, последовательным доступом, nested loops join, outer, merge join, rule-based, оптимизация, основанная на правилах, эвристика, физическая страница, leaf, оптимизация, основанная на вычислении стоимости запроса, синтаксический разбор, parsing, conversation, стоимостная оценка, реляционные операции, физические операторы, реляционная алгебра, логический оператор, операции реляционной алгебры, теоретико-множественные операции, реляционные операторы, cartesian product, критерии поиска, селекция, predicate, conjunction, disjunction, оценивание, correlation, эквисоединение, родительская таблица, естественное соединение, natural, полусоединение, внешнее соединение, aggregation, агрегация, агрегатные функции, ключ сортировки, входная строка, scan, лист дерева, фактор селективности, таблицы хэширования, соединение отношений, высота дерева, соединение строк, CHI, хэш-таблица, probing, хэш-функция, SQL, query plan, аналогия, селективность

В этой лекции мы рассмотрим:

  • как оптимизатор запросов SQLBase выполняет анализ плана доступа к данным;
  • как оптимизатор запросов использует статистическую информацию из системного каталога для выполнения оценок стоимости плана доступа;
  • как оптимизатор идентифицирует возможные планы доступа для обработки предложений SQL;
  • как оптимизатор запросов использует две компоненты оценки стоимости запроса для каждого плана доступа: общее число операций ввода/вывода и общее использованное время CPU.

Языки обработки данных и задача оптимизации обработки данных

Базы данных (БД) можно рассматривать как коллекции данных, предназначенных для совместного, коллективного использования в организации. Это предполагает, что БД представляет собой именованную, структурированную и интерпретируемую совокупность данных пользователей. Физически данные в базах данных представляются в машиночитаемой форме. Логическая структура данных и доступ к ним поддерживаются СУБД. Доступ к данным посредством СУБД осуществляется с помощью языков обработки (манипулирования) данными. Язык манипулирования данными используется для обеспечения доступа к данным при их сохранении в БД или выборки из нее.

Независимо от того, является ли БД распределенной или централизованной, данные размещаются в файлах операционной системы компьютера (компьютеров). Ввод/вывод и актуализация данных в БД, поиск данных, требуемых при чтении, добавление новых, модификация существующих и удаление потерявших актуальность осуществляется СУБД и требует разделения используемых ресурсов процессоров, памяти и средств связи. Производительность информационной системы с базами данных определяется через среднее время реакции системы на выполнение операции поиска и предоставления требуемой информации. Время реакции системы зависит от множества факторов, таких как пропускная способность сети, пропускная способность СУБД, мощности процессоров используемых компьютеров, скорости чтения / записи на физические носители и т.д. Она также зависит от логической структуры БД и языковых средств доступа к данным.

Поэтому, для того чтобы лучше понять суть процессов оптимизации запросов в реляционных БД, необходимо сначала обсудить основные типы языков манипулирования данными. В настоящее время различают два основных типа таких языков: процедурные и декларативные.

Процедурные языки обработки данных

Большинство систем БД до начала использования SQL-технологии основывались на процедурных или навигационных языках обработки данных. Примерами таких систем БД могут служить ADABAS (Software Ag.), IDMS, IMS (IBM Corp.) и dBase. Процедурные языки обработки данных требуют от программиста кодирования программной логики, необходимой для навигации по физической структуре данных для идентификации и доступа к требуемым данным. Например, при использовании ADABAS программист должен написать код для спецификации записей данных (FIND), получить специфицированное множество данных и организовать цикл его просмотра (GET), а также предоставить код для актуализации полученных данных для пользователя.

Если прикладная программа ссылается на физические структуры данных, то она естественно становится зависимой от них. Такие прикладные программы требуют модификации кода, если изменяется физическая структура данных. Например, если индекс в dBase удаляется, то все прикладные программы, которые его используют, должны быть модифицированы.

Зависимость между прикладной программой и физической структурой данных значительно увеличивает стоимость разработки и сопровождения таких программ. Во время разработки больших, сложных компьютерных систем очень часто обнаруживается несоответствие в спроектированной физической структуре БД и реализации в программах функциональности предметной области на различных этапах выполнения проекта. Для устранения таких несоответствий администратор БД должен осуществлять изменения физической структуры.

Такие изменения физической и логической схем БД вступают в противоречия со всеми существующими программами, которые ссылаются на эти измененные физические структуры. Эти программы должны быть модифицированы для того, чтобы отразить изменения в схеме БД. Если прикладная программа в значительной мере использует эту измененную физическую структуру для навигации по БД и программная логика основывается на этой навигации, то может потребоваться значительное перекодирование программы. С другой стороны, сопровождение существующих систем часто приводит к изменениям схемы БД, и, следовательно, такая зависимость приводит к увеличению стоимости сопровождения пользовательских приложений.

В дополнение к сказанному, процедурные языки обработки данных обычно являются контекстно-зависимыми в реализации. Следовательно, прикладные программы становятся полностью привязанными к конкретной системе БД, для которой они и были разработаны. Такая привязка прикладных программ к конкретным системам БД значительно ограничивает их мобильность.

Декларативные языки обработки данных

С началом использования SQL-технологии и систем реляционных БД стало возможным разрушить взаимосвязь между прикладными программами и физическими структурами данных. Декларативные языки обработки данных только специфицируют, какие данные необходимы прикладной программе, оставляя за СУБД привилегию определять, как осуществлять навигацию по физической структуре данных для доступа к требуемым данным. SQL есть пример декларативного языка обработки данных.

Концепция независимости прикладных программ от физической структуры данных дает несколько значительных преимуществ.

  • Отражение требований к изменению в структурах данных незначительно влияет на существующие прикладные программы. Например, если существующий индекс становится устаревшим, то его можно свободно удалить и создать новый индекс (в том числе и на других атрибутах) без влияния на существующие программы. Созданный новый индекс может либо улучшить производительность программы, либо ухудшить ее. Однако можно быть уверенным в том, что существующие программы будут выполняться без ошибок. Предполагается, что команда SQL будет подготовлена до выполнения (PREPARE), хотя некоторые реляционные СУБД, такие как SQLBase, могут автоматически перекомпилировать сохраняемый план доступа команды SQL (SQL access plan). В процедурных языках обработки данных не всегда является очевидным, что привело к аварийному завершению программы - изменения в физической структуре или ее несоответствие программной логике.
  • Уменьшается сложность прикладной программы. СУБД, а не программист, определяет, как осуществлять навигацию по физической структуре данных. Такое решение освобождает программиста для решения других задач, так как этот аспект программирования является часто наиболее сложным аспектом программной логики.
  • Снижается число ошибок в прикладных программах. Сложность доступа к данным часто приводит к программным ошибкам, если программист не обладает высокой квалификацией или не очень тщательно кодирует. Главное преимущество компьютера состоит в способность выполнять простые инструкции с высокой скоростью и без ошибок. Следовательно, СУБД в целом заменяют программиста, когда определяют, как осуществлять навигацию по физической структуре данных для доступа к требуемым данным.
Александра Каева
Александра Каева
Михаил Забелкин
Михаил Забелкин