Коэффициент множественной корреляции изменяется в пределах. Коэффициенты корреляции

До сих пор мы рассматривали корреляционные связи между двумя признаками: результативным (у ) и фактор­ным (х). Например, выпуск продукции зависит не только от размера основного капитала, но и от уровня квалифи­кации рабочих, состояния оборудования, обеспеченности и качества сырья и материалов, организации труда и т.д. В связи с этим возникает необходимость в изучении, из­мерении связи между результативным признаком, двумя и более факторными. Этим занимается множественная корреляция.

Множественная корреляция решает три задачи. Она определяет:

1) форму связи;

2) тесноту связи;

3) влияние отдельных факторов на общий результат.

Определение формы свя­зи сводится обычно к отысканию уравнения связи у с фак­торами x,z,w,...у. Так, линейное уравнение зависимости результативного признака от двух факторных определяет­ся по формуле

Для определения параметров а 0 , а } и а 2 , по способу наименьших квадратов необходимо решить следующую систему трех нормальных уравнений:

(8.29.)

При определении тесноты связи для множественной зависимости пользуются коэф­фициентом множественной (совокупной) корреляции, предварительно исчислив коэффициенты парной корреля­ции. Так, при изучении связи между результативным признаком у и двумя факторными признаками - х и z, нужно предварительно определить тесноту связи между у и х, между у и z, т.е. вычислить коэффициенты парной кор­реляции, а затем для определения тесноты связи резуль­тативного признака от двух факторных исчислить коэф­фициент множественной корреляции по следующей фор­муле:

(8.30.)

где r xy , r zy , r xz - парные коэффициенты корреляции.

Коэффициент множественной корреляции колеблется в пределах от 0 до 1. Чем он ближе к 1, тем в большей мере учтены факторы, определяющие конечный резуль­тат.

Если коэффициент множественной корреляции возве­сти в квадрат, то получим совокупный коэффициент де­терминации, который характеризует долю вариации резуль­тативного признака у под воздействием всех изучаемых факторных признаков.

Совокупный коэффициент детерминации, как и при парной корреляции, можно исчислить по следующей фор­муле:

где - дисперсия факторных признаков, - диспер­сия результативного признака. Однако вычисление теоретических значений Y при множественной корреляции и сложно, и громоздко. Поэтому факторную дисперсию исчисляют по следующей формуле.

Коэффициент множественной корреляции (R ) характеризует тесноту связи между результативным показателем и набором фактор­ных показателей:

где σ 2 - общая дисперсия эмпирического ряда, характеризующая общую вариацию результативного показателя (у) за счет факторов;

σ ост 2 - остаточная дисперсия в ряду у, отражающая влияния всех факто­ров, кроме х;

у - среднее значение результативного показателя, вычисленное по ис­ходным наблюдениям;

s - среднее значение результативного показателя, вычисленное по уравнению регрессии.

Коэффициент множественной корреляции принимает только поло­жительные значения в пределах от 0 до 1. Чем ближе значение коэффи­циента к 1, тем больше теснота связи. И, наоборот, чем ближе к 0, тем за­висимость меньше. При значении R < 0,3 говорят о малой зависимости между величинами. При значении 0,3 < R < 0,6 говорят о средней тесноте связи. При R > 0,6 говорят о наличии существенной связи.

Квадрат коэффициента множественной корреляции называется коэффициентом детерминации (D ): D = R 2 . Коэффициент детермина­ции показывает, какая доля вариации результативного показателя свя­зана с вариацией факторных показателей. В основе расчета коэффици­ента детерминации и коэффициента множественной корреляции лежит правило сложения дисперсий, согласно которому общая дисперсия (σ 2) равна сумме межгрупповой дисперсии (δ 2) и средней из групповых дис­персий σ i 2):

σ 2 = δ 2 + σ i 2 .

Межгрупповая дисперсия характеризует колеблемость результа­тивного показателя за счет изучаемого фактора, а средняя из групповых дисперсий отражает колеблемость результативного показателя за счет всех прочих факторов, кроме изучаемого.

Математические модели корреляционного анализа в форме коэф­фициентов имеют ограниченные аналитические возможности. Зная лишь направление ковариации показателей и тесноту связи, невозмож­но определить закономерности формирования уровня результативного показателя под влиянием исследуемых факторов, оценить интенсив­ность их влияния, классифицировать факторы на основные и второсте­пенные. Для этих целей используются модели регрессионного анализа. Линейная модель (уравнение) регрессионного анализа может быть пред­ставлена в виде

у = bo + b 1 x 1 + b 2 x 2 +... + b n x n ,

где у - результативный показатель;

x 1 , x 2 , ..., x n - факторные модели;

b 0 , b 1 , b 2 , ..., b n - коэффициенты регрессии.

Смотрите также:

Практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата – коэффициента детерминации.

Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

где – общая дисперсия результативного признака;

–остаточная дисперсия для уравнения
.

Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

.

При правильном включении факторов в регрессионный анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции (различия в третьем, четвертом знаках). Отсюда ясно, что, сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного фактора. Так, если рассматривается как функцияии получен индекс множественной корреляции
, а индексы парной корреляции при этом были
и
, то совершенно ясно, что уравнение парной регрессии
охватывало 67,2 % колеблемости результативного признака под влиянием фактора, а дополнительное включение в анализ фактораувеличило долю объясненной вариации до 72,3,%, т. е. уменьшилась доля остаточной вариации на 5,1 проц. пункта (с 32,8 до 27,7%).

Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:

.

Можно пользоваться следующей формулой индекса множественной корреляции:

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

,

где – стандартизованные коэффициенты регрессии;

– парные коэффициенты корреляции результата с каждым фактором.

Или, по-другому:

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции , или, что то же самое, совокупного коэффициента корреляции .

Возможно также при линейной зависимости определение совокупного коэффициента корреляции через матрицу парных коэффициентов корреляции:

где
– определитель матрицы парных коэффициентов корреляции;

–определитель матрицы межфакторной корреляции.

Для уравнения определитель матрицы коэффициентов парной корреляции примет вид:

Определитель более низкого порядка
остается, когда вычеркиваются из матрицы коэффициентов парной корреляции первый столбец и первая строка, что и соответствует матрице коэффициентов парной корреляции между факторами:

Как видим, величина множественного коэффициента корреляции зависит не только от корреляции результата с каждым из факторов, но и от межфакторной корреляции. Рассмотренная формула позволяет определять совокупный коэффициент корреляции, не обращаясь при этом к уравнению множественной регрессии, а используя лишь парные коэффициенты корреляции.

При трех переменных для двухфакторного уравнения регрессии данная формула совокупного коэффициента корреляции легко приводится к следующему виду:

Индекс множественной корреляции равен совокупному коэффициенту корреляции не только при линейной зависимости рассматриваемых признаков. Тождественность этих показателей, как и в парной регрессии, имеет место и для криволинейной зависимости, нелинейной по переменным.

В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения. Эта ошибка тем более значительна, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений . Если число параметров приравно
и приближается к объему наблюдений, то остаточная дисперсия будет близка к нулю, и коэффициент (индекс) корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используетсяскорректированный индекс (коэффициент) множественной корреляции .

Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно остаточная сумма квадратов
делится на число степеней свободы остаточной вариации
, а общая сумма квадратов отклонений
– на число степеней свободы в целом по совокупности
.

Формула скорректированного индекса множественной детерминации имеет вид:

где
– число параметров при переменных;

–число наблюдений.

Поскольку
, то величину скорректированного индекса детерминации можно представить в виде

Чем больше величина
, тем сильнее различия
и
.

Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется по той же формуле, что и индекс множественной корреляции, т.е. как корень квадратный из
. Отличие состоит лишь в том, что в линейной зависимости под
подразумевается число факторов, включенных в регрессионную модель, а в криволинейной зависимости
– число параметров прии их преобразованиях (,
и др.), которое может быть больше числа факторов как экономических переменных.

Пример . Предположим, что при
для линейного уравнения регрессии с четырьмя факторами
, а с учетом корректировки на число степеней свободы

Чем больше объем совокупности, по которой исчислена регрессия, тем меньше различаются показатели
и
. Так, уже при
при том же значении
и т величина
составит 0,673.

В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) множественной корреляции (детерминации). Величина коэффициента множественной детерминации используется для оценки качества регрессионной модели. Низкое значение коэффициента (индекса) множественной корреляции означает, что в регрессионную модель не включены существенные факторы – с одной стороны, а с другой стороны – рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости.

Коэффициент обладает следующими свойствами:

1) не имеет размерности, следовательно, сопоставим для величин различных порядков;

2) изменяется в диапазоне от –1 до +1. Положительное значение свидетельствует о прямой линейной связи, отрицательное – об обратной. Чем ближе абсолютное значение коэффициента к единице, тем теснее связь. Считается, что связь достаточно сильная, если коэффициент по абсолютной величине превышает 0,7, и слабая, если он менее 0,3.

Значение коэффициента легко вычисляется при помощи MS Excel (функция КОРРЕЛ).

Величина r 2 называется коэффициентом детерминации . Он определяет долю вариации одной из переменных, которая объясняется вариацией другой переменной.

6. Коэффициент множественной корреляции

Экономические явления чаще всего адекватно описываются именно многофакторными моделями. Поэтому возникает необходимость обобщить рассмотренное выше корреляционное отношение (6.4) на случай нескольких переменных.

Теснота линейной взаимосвязи между переменной y и рядом переменных x j , рассматриваемых в целом, может быть определена с помощью коэффициента множественной корреляции .

Предположим, что переменная y испытывает влияние двух переменных - x и z . В этом случае коэффициент множественной корреляции может быть определен по формуле:

. (6.9)

где r yx , r yz , r xz - простые коэффициенты линейной парной корреляции, определенные из соотношения (6.4).

Коэффициент множественной корреляции заключен в пределах 0 ≤ R ≤ 1. Он не меньше, чем абсолютная величина любого парного или частного коэффициента корреляции с таким же первичным индексом.

С помощью множественного коэффициента (по мере приближения R к 1) делается вывод о тесноте взаимосвязи, но не о ее направлении. Величина R 2 , называемая множественным коэффициентом детерминации , показывает, какую долю вариации исследуемой переменной (y ) объясняет вариация остальных учтенных переменных (x , z ).

7. Коэффициент частной корреляции

Иногда представляет интерес измерение частных зависимостей (между y и x j ) при условии, что воздействие других факторов, принимаемых во внимание, устранено. В качестве соответствующих измерителей приняты коэффициенты частной корреляции .

Рассмотрим порядок расчета коэффициента частной корреляции для случая, когда во взаимосвязи находятся три случайные переменные – x , y , z . Для них могут быть получены простые коэффициенты линейной парной корреляции – r yx , r yz , r xz . Однако большая величина этого коэффициента может быть обусловлена не только тем, что y и x действительно связаны между собой, но и в силу того, что обе переменные испытывают сильное действие третьего фактора – z .

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x ) при условии, что влияние на них третьего фактора (z ) устранено.

Соответствующая расчетная формула:

. (6.10)

Частный коэффициент корреляции, так же как и парный коэффициент корреляции r (рассчитанный по формуле (6.4)), может принимать значения от -1 до 1.

Общее качество уравнения множественной регрессии оценивается с помощью коэффициента множественной корреляции и его квадрата – коэффициента множественной детерминации.

По аналогии с парной регрессией коэффициент множественной детерминации можно определить как долю дисперсии результата, объясненную вариацией включенных в модель факторов, в его общей дисперсии:

Значения коэффициента множественной детерминации изменяются от нуля до единицы (0≤R 2 y x 1 x 2… x p ≤1). Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение результата.

характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком или, иными словами, оценивает тесноту связи совместного влияния факторов на результат.

Коэффициент множественной корреляции может быть найден как корень квадратный из коэффициента множественной детерминации:

Значения коэффициентов множественной корреляции изменяются от нуля до единицы (0≤R yx 1 x 2… x p ≤1). Чем ближе коэффициент единице, тем теснее связь между результатом и всеми факторами в совокупности и уравнение регрессии лучше описывает фактические данные. Если множественный коэффициент корреляции R yx 1 x 2… x p близок к нулю, то уравнение регрессии плохо описывает фактические данные, и факторы оказывают слабое влияние на результат.

Значение коэффициента множественной корреляции больше или равно величине максимального коэффициента парной корреляции:

R y x1x2…x p ≥ І r y x i (max) І , где i = 1,р.

Если в уравнении регрессии учитывается какой-либо фактор, оказывающий наиболее сильное воздействие на результативный признак, то частный коэффициент корреляции будет достаточно близок к коэффициенту множественной корреляции, но ни в коем случае не больше него.

Иногда для расчета коэффициента множественной корреляции используется еще одна формула (она применима только для линейной множественной регрессии):

где Det ІR + І, Det ІR І - определители матриц соответственно парных коэффициентов корреляции и межфакторной корреляции.

Эти определители будут иметь следующий вид для уравнения линейной множественной регрессии с р числом факторов:

1 r yx1 r yx2 r yx p

r yx1 1 r x1x2 r x1x p

Det ІR + І = r yx2 r x1x2 1 … r x2x p ,

… … … … …

r yx p r x1x p r x2x p … 1

т.е. матрица включает все парные коэффициенты корреляции для уравнения регрессии;

1 r x1x2 r x1x p

Det ІR І = r x1x2 1 … r x 2 x p

… … … … ,

r x 1 x p r x 2 x p … 1

т.е. данная матрица получается из предыдущей матрицы путем исключения коэффициентов парной корреляции факторов с результатом (вычеркиваются первая строка и первый столбец).

Для того, чтобы не допустить возможного преувеличения тесноты связи, обычно применяется скорректированный коэффициент множественной корреляции . Он содержит поправку на число степеней свободы. Ocтaточная сумма квадратов отклонений делится на число степеней свободы остаточной вариации (п - т - 1), а общая сумма квадратов отклонений - на число степеней свободы в целом по совокупности (п - 1). Формула скорректированного коэффициента множественной корреляции имеет следующий вид:

где т - число параметров при переменных х (в линейной зависимости оно будет равно числу включаемых в модель факторов = p ); п - число наблюдений.