Опубликован: 01.03.2007 | Доступ: свободный | Студентов: 1591 / 212 | Оценка: 4.58 / 4.39 | Длительность: 20:15:00
Специальности: Программист
Лекция 7:

Скрытые параметры и транспонированная регрессия

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >

Теорема о скрытых параметрах

Ряд алгоритмов решения проблемы скрытых параметров можно построить на основе следующей теоремы. Пусть n - число свойств, N - количество объектов, \{x^i \}_{i = 1}^N - множество векторов значений признаков. Скажем, что в данной группе объектов выполняется уравнения регрессии ранга r, если все векторы \{x^i \}_{i = 1}^N принадлежат n-r -мерному линейному многообразию. Как правило, в реальных задачах выполняется условие N>n. Если же {\rm{n}}\ge {\rm{N}}, то векторы \{x^i \}_{i = 1}^N принадлежат N-1 -мерному линейному многообразию и нетривиальные регрессионные связи возникают лишь при ранге r>n-N+1. Ранг регрессии r измеряет, сколько независимых линейных связей допускают исследуемые свойства объектов. Число r является коразмерностью того линейного подпространства в пространстве векторов признаков, которому принадлежат наблюдаемы векторы признаков объектов. Разумеется, при обработке реальных экспериментальных данных необходимо всюду добавлять "с заданной точностью", однако пока будем вести речь о точных связях.

Следующая теорема о скрытых параметрах позволяет превращать вопрос о связях между различными свойствами одного объекта (одной и той же для разных объектов) в вопрос о связи между одним и тем же свойством различных объектов (одинаковой связи для различных свойств) - транспонировать задачу регрессии. При этом вопрос о качественной неоднородности выборки "транспонируется" в задачу поиска для каждого объекта такой группы объектов (опорной группы), через свойства которых различные свойства данного объекта выражаются одинаково и наилучшим образом.

Теорема. Пусть для некоторого r>0 существует такое разбиение \{x^i \}_{i = 1}^N на группы

\{x^i \}_{i = 1}^N = \mathop \cup \limits_{j = 1}^k Y_j .
что r>n-Nj+1 (где Nj - число элементов в Yj ), и для каждого класса Yj выполняются уравнения регрессии ранга r. Тогда для каждого объекта xi из \{x^i \}_{i = 1}^N найдется такое множество Wi (опорная группа объекта xi ) из k объектов, что {\rm{n - r + 1}}\ge {\rm{k}} и для некоторого набора коэффициентов \lambda_y

x^i = \sum\limits_{y \in W_i }{\lambda_y y,}\sum\limits_{y \in W_i }{\lambda_y }= 1 
. ( 1)

Последнее означает, что значение каждого признака объекта xi является линейной функцией от значений этого признака для объектов опорной группы. Эта линейная функция одна и та же для всех признаков.

Линейная зависимость (1) отличается тем, что она инвариантна к изменениям единиц измерения свойств и сдвигам начала отсчета. Действительно, пусть координаты всех векторов признаков подвергнуты неоднородным линейным преобразованиям: x_j \mapsto a_j x_j + b_j , где j - номер координаты. Нетрудно убедиться, что при этом линейная связь (1) сохранится. Инвариантность относительно преобразования масштаба обеспечивается линейностью и однородностью связи, а инвариантность относительно сдвига начала отсчета - еще и тем, что сумма коэффициентов \lambda_y равна 1.

Сформулированная теорема позволяет переходить от обычной задачи регрессии (поиска зависимостей значения признака от значений других признаков того же объекта) к транспонированной задаче регрессии - поиску линейной зависимости признаков объекта от признаков других объектов и отысканию опорных групп, для которых эта зависимость является наилучшей.

Доказательство основано на том, что на каждом k -мерном линейном многообразии для любого набора из q точек y1, y2, ..., yq при q>k+1 выполнено соотношение

\sum\limits_{j = 1}^q {\lambda_j y_j }= 0
для некоторого набора \lambda_j {\rm{,}}\sum\limits_{j = 1}^q {\lambda_j }= 0 и некоторые \lambda_j \ne 0.

С математической точки зрения теорема о скрытых параметрах представляет собой вариант утверждения о равенстве ранга матрицы, вычисляемого по строкам, рангу, вычисляемому по столбцам.

< Лекция 6 || Лекция 7: 123456 || Лекция 8 >