Корреляционное поле представляет собой. Регрессионный анализ в Excel

При постановке вопроса о корреляционной зависимости между двумя статистическими признаками Х и У проводят эксперимент с параллельной регистрацией их значений.

Пример 8.1.

Определить, зависит ли результат прыжка в длину с разбега (признак Х) от величины конечной скорости разбега (признак У). Для ответа на этот вопрос параллельно с регистрацией результата Х каждого прыжка спортсмена или группы спортсменов регистрируют и величину конечной скорости разбега Y . Пусть они таковы:

Таблица 5

I
xi (см)
yi (м/с) 10,7 10,5 10,1 9,8 10,1 10,5 9,1 9,6

Представим таблицу 5 в виде графика в прямоугольной системе координат, где на горизонтальной оси будем откладывать длину прыжка (Х), а на вертикальной - величину конечной скорости разбега в этом прыжке (Y).
function PlayMyFlash(cmd){ Corel_.TPlay(cmd); }

№1 !!! №2 !!! №3 !!! №4 !!! №5!!! №6 !!! №7 !!! №8!!!

Рис. 8. График корреляционного поля.

Будем называть корреляционным полем зону разброса таким образом полученных точек на графике. Визуально анализируя корреляционное поле на рисунке 8, можно заметить, что оно как бы вытянуто вдоль какой-либо прямой линии. Такая картина характерна для так называемой линейной корреляционной взаимосвязи между признаками. При этом можно в общем предположить, что с увеличением конечной скорости разбега увеличивается и длина прыжка, и наоборот. Т.е. между рассматриваемыми признаками наблюдается прямая (положительная) взаимосвязь.

Наряду с этим примером из множества других возможных корреляционных полей можно выделить следующие (рис.9-11):

На рисунке 9 тоже просматривается линейная взаимосвязь, но с увеличением значений одного признака, уменьшаются значения другого, и наоборот, т.е. связь обратная или отрицательная. Можно предположить, что на рисунке 11 точки корреляционного поля разбросаны около какой-то кривой линии. В таком случае говорят, что между признаками существует криволинейная корреляционная связь.

В отношении корреляционного поля, изображенного на рисунке 10, нельзя сказать, что точки располагаются вдоль какой-то прямой или кривой линии, оно имеет сферическую форму. В этом случае говорят, что признаки Х и Y не зависят друг от друга.

Кроме этого по корреляционному полю можно примерно судить о тесноте корреляционной связи, если эта связь существует. Здесь говорят: чем меньше точки разбросаны около воображаемой усредненной линии, тем теснее корреляционная связь между рассматриваемыми признаками.

Визуальный анализ корреляционных полей помогает разобраться в сущности корреляционной взаимосвязи, позволяет высказать предположение о наличии, направленности и тесноте связи. Но точно сказать, имеется связь между признаками или нет, линейная связь или криволинейная, тесная связь (достоверная) или слабая (недостоверная), с помощью этого метода нельзя. Наиболее точным методом выявления и оценки линейной взаимосвязи между признаками является метод определения различных корреляционных показателей по статистическим данным.

3. Коэффициенты корреляции и их свойства

Часто для определения достоверности взаимосвязи между двумя признаками(Х, У) используютнепараметрический (ранговый) коэффициент корреляции Спирмена и параметрический коэффициент корреляции Пирсона . Величина этих показателей корреляционной связи определяется по следующим формулам:

(1)

Где: dx - ранги статистических данных признака х;

dy - ранги статистических данных признака у.

(2)

Где: - статистические данные признака х,

Статистические данные признака у.

Эти коэффициенты обладают такими мощными признаками:

1. На основании коэффициентов корреляции можно судить только о прямолинейной корреляционной взаимосвязи между признаками. О криволинейной связи с их помощью ничего сказать нельзя.
2. Значения коэффициентов корреляции есть безразмерная величина, которая не может быть меньше -1 и больше +1, т.е.
3.
4. Если значения коэффициентов корреляции равны нулю, т.е. = 0 или = 0, то связь между признаками х, у отсутствует.
5. Если значения коэффициентов корреляции отрицательные, т.е. < 0 или < 0, то связь между признаками Х и Y обратная .
6. Если значения коэффициентов корреляции положительные, т.е. > 0 или y> 0 , то связь между признаками Х и Y прямая (положительная).
7. Если коэффициенты корреляции принимают значения +1 или -1, т.е. = ± 1 или = ± 1, то связь между признаками Х и Y линейная (функциональная) .
8. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Эта достоверность еще зависит от числа степеней свободы.

Где: n - число коррелируемых пар статистических данных признаков Х и Y.

Чем больше n , тем выше достоверность связи при одном и том же коэффициенте корреляции.

Кроме перечисленных общих свойств у рассматриваемых коэффициентов корреляции имеются и различия. Главное их отличие состоит в том, что коэффициент Пирсона ( может быть использован только в случае нормальности распределения признаков Х и Y , коэффициент Спирмена () может быть использован для признаков с любым видом распределения. Если рассматриваемые признаки имеют нормальное распределение, то целесообразнее определять наличие корреляционной связи с помощью коэффициента Пирсона (), т.к. в этом случае он будет иметь меньшую погрешность, чем коэффициент Спирмена ().

Пример 8.2.

Определить с помощью рангового коэффициента корреляции Спирмена существует ли взаимосвязь между результатами прыжка в длину с разбега (X) и конечной скоростью разбега (Y) группы спортсменов (данные примера 8.1, табл. 5).

В формуле (1) dx и dy ранги статистических данных, т.е. места вариант в их ранжированной совокупности. Если в совокупности несколько одинаковых данных, то их ранги равны и определяются как среднее значение от мест, занимаемых этими вариантами. Например,

Данные xi
Ранги dx 4,5 4,5 4,5 4,5 7,5 7,5
3 + 4 + 5 + 6 7 + 8

Пользуясь этим правилом, определим ранги данных таблицы 5. Для удобства все запишем в виде таблицы 6.

Таблица 6

dx dy dx - dy
9,1 1 - 1 = 0 02 = 0
9,6 2 - 2 = 0 02 = 0
9,8 3 - 3 = 0 02 = 0
10,1 4 - 4 = 0 02 = 0
10,5 6,5 5 - 6,5 = - 1,5 (- 1,5)2 = 2,25
10,5 6,5 6 - 6,5 = - 0,5 (- 0,5)2 = 0,25
10,3 7 - 5 = 2 22 = 4
10,7 8 - 8 = 0 02 = 0
(dx-dy) = 0

В данном случае имеем 8 пар значений, т.е. 8 коррелируемых пар. Значит n = 8. Подставив полученное в формулу (1), будем иметь:

Вывод:

(0,92 > 0) , то между признаками Х и У У Х ), и наоборот - с уменьшением скорости разбега уменьшается длина прыжка. Достоверность коэффициента корреляции Спирмена определяется по таблице критических значений рангового коэффициента корреляции .

б) т.к. полученное значение коэффициента корреляции = 0,9 больше табличного значений = 0,88, соответствующего уровню b = 99%, то уверенность в правильности вывода (а) больше 99%. Такая достоверность позволяет распространить вывод (а) на всю генеральную совокупность, т.е. на всех прыгунов в длину.

Если не производится предварительной проверки рассматриваемых совокупностей на нормальность распределения, то, в случае недостоверности коэффициента корреляции Пирсона, следует проверить наличие связи еще и по коэффициенту Спирмена.

Пример 8.3.

Ранговым коэффициентом корреляции можно выявлять взаимосвязи между переменными, имеющими любые статистические распределения. Но если эти переменные имеют нормальное распределение (Гаусса), то более точно связь можно установить с помощью нормированного (Бравэ-Пирсона) коэффициента корреляции.

Предположим, что в нашем примере и - отвечают закону нормального распределения, и проверим наличие связи между результатами тестаX и Y c помощью расчета нормированного коэффициента корреляции.

Из формулы (1) видно, что для вычисления необходимо найти средние значения признаковX, Y и отклонения каждого статистического данного от его среднего . Зная эти значения, можно найти суммы по которым не сложно вычислить

По данным таблице 5 заполним таблицу 7:

Таблица 7

962 = 9216 10,7 0,6 0,62 = 0,36 96 · 0,6 = 57,6
262 = 676 10,5 0,4 0,42 = 0,16 26 · 0,4 = 10,4
10,3 0,2 0,04 5,4
- 4 9,8 - 0,3 0,09 1,2
10,1 0,00 1,0
10,5 0,4 0,16 3,2
- 92 9,1 - 1,0 1,00 9,2
- 64 9,6 - 0,5 0,25 32,0
= 23262 = 2,06 = 201

Подставив сумму столбца 7 в числитель формулы (1), а суммы столбцов 3 и 6 в знаменатель, получим:

Вывод:

а) т.к. значение коэффициента корреляции положительное (0.92>0) , то между Х и Y наблюдается прямая связь, т.е. с увеличением скорости разбега (признакY ) увеличивается длина прыжка (признак Х ) и наоборот - с уменьшением скорости разбега уменьшается длина прыжка. Очень важно знать уверенность в правильности полученного вывода.

Корреляционный анализ

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: м x , м y - средние значения (математические ожидания); у x ,у y - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y - зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Динамическое программирование

В сельском хозяйстве непрерывно протекают разнообразные экономические процессы, в результате которых складываются определенные производственные результаты, формируются экономические явления...

Целью курсовой работы является: развитие умения разрабатывать имитационные модели организационных и технических объектов, а также получения практических навыков работы в среде GPSS World...

Имитационное моделирование работы билетной кассы железнодорожного вокзала

Исследование функционирования работы билетной кассы на железнодорожном вокзале и анализ влияния времени обслуживания в каждой кассе на очереди и количество обслуженных гражданских и военных пассажиров...

Исследование свойств случайных величин, планирование эксперимента и анализ данных

Корреляционное поле используется для выявления и демонстрации зависимостей между двумя связанными наборами данных и для подтверждения предполагаемых зависимостей между ними...

Корреляционно-регрессионный анализ однофакторной стохастической связи

Метод последовательных сравнений

Программно реализовать интерактивный метод последовательных...

Моделирование систем массового обслуживания

Развитие современного общества характеризуется повышением технического уровня, усложнением организационной структуры производства, углублением общественного разделения труда...

Обработка результатов полного факторного плана для получения математической модели результатов полного факторного плана

Основными целями и задачами планирования эксперимента являются: 1) Планирование эксперимента с целью математического описания объекта. Целью данного эксперимента является получение математической модели методом регрессионного анализа...

Определение рационального маршрута следования коммивояжера

Целью данной работы является определение рационального маршрута следования коммивояжера и выбора экономически целесообразного способа поездки. Задача - выбрать такой вид транспорта для объезда коммивояжером населенных пунктов...

Оценка инвестиционных проектов

Необходимо разработать имитационную модель финансово-экономической деятельности фирмы по реализации этого проекта, выбрать схему финансирования и оценить показатели экономической эффективности проекта...

Построение структурной схемы устройства станка 3Б722

Выбор объекта морфологического исследования. Приобретение практических навыков структурного анализа. 2. Общие сведения Шлифование - это процесс обработки заготовок абразивными материалами...

Разработка модели предприятия тепличного хозяйства, используя методологии проектирования IDEF0, DFD и IDEF3

Целями данной курсовой работы были: применение методов предпроектного обследования предприятия; анализ полученных материалов для последующего моделирования; разработка модели процесса в стандарте IDEF0; описание документооборота и...

Трендовые и корреляционные модели

Функциональное моделирование

Создаваемая IDEF0-модель имеет конкретное назначение, называемое целью модели. Цель моделирования можно понять из следующего формального определения модели : M есть модель системы S...

Эконометрические модели рентабельности собственного капитала (на примере СПК "Слава")

Так как в данной курсовой работе рассматривается рентабельность собственного капитала, то возьмем ее за результативный показатель. Одним из факторов, оказывающих влияние, является рентабельность продаж, %...

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μx, μy – средние значения (математические ожидания); σx,σy – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию.



Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Вам понадобится

  • - ряд распределения из зависимой и независимой переменной;
  • - бумага, карандаш;
  • - компьютер и программа для работы с электронными таблицами.

Инструкция

Выберите две , между которыми, как вы полагаете, есть взаимосвязь, обычно берут , которые изменяются со временем. Учтите, что одна из переменных должна быть независимой, она будет выступать в качестве причины. Вторая при этом должна изменяться с ней – уменьшаться, увеличиваться или меняться случайным образом.

Измерьте значение зависимой переменной для каждого независимой. Занесите результаты в таблицу, в две строки или два столбца. Для обнаружения наличия связи нужно не менее 30 показаний, но для получения более точного результата позаботьтесь о наличии не менее 100 точек.

Постройте координатную плоскость, при этом на оси ординат отложите значения зависимой переменной, а на оси абсцисс – независимой. Подпишите оси и укажите единицы измерения каждого показателя.

Отметьте на графике точки корреляционного поля. На оси абсцисс найдите первое значение независимой переменной, а на оси ординат – соответствующее ему значение зависимой. Постройте перпендикуляры к этим проекциям и найдите первую точку. Отметьте ее, обведите мягким карандашом или ручкой. Точно также постройте все остальные точки.

Полученная совокупность точек и называется корреляционным полем . Проанализируйте полученный график, сделайте выводы о наличии сильной или слабой причинно-следственной связи, либо ее отсутствии.

Обратите внимание на случайные отклонения от графика. Если в целом прослеживается линейная или другая зависимость, но всю «картину» портят одна-две точки, оказавшиеся в стороне от общей совокупности, их можно случайными ошибками и не учитывать при интерпретации графика.

Если вам необходимо построить и проанализировать поле корреляции для большого количества данных, воспользуйтесь программами, предназначенными для работы с электронными таблицами, например, Excel, или приобретите специальные программы.

Взаимосвязь нескольких величин, во время которой изменения одной приводит к изменению остальных, называется корреляцией. Она бывает простой, множественной или частичной. Это понятие принято не только в математике, но и в биологии.

Слово корреляция произошло от латинского correlatio, взаимосвязь. Все явления, события и предметы, а также характеризующие их величины связаны между собой. Корреляционная зависимость отличается от функциональной тем, что в этом типе зависимости, каких-либо могут быть измерены только в среднем, приближенно.Корреляционная зависимость предполагает, что переменная величина соответствует изменениям независимой величины лишь с определенной степенью вероятности. Степень зависимости носит название коэффициента корреляции.В понятие корреляции - это соотношение строения и функций отдельных частей организма.Довольно часто понятием корреляция пользуются статистики. В статистке это взаимоотношение между статистическими величинами, рядами и группами. Для определения наличия или отсутствия или наличия корреляции используют специальный метод. Метод корреляции применяется для определения прямого или обратного в изменениях чисел в рядах, которые сравнивают. Когда найден, то саму меру или степень параллелизма. Но внутренние причинно-следственные факторы таким путем не отыскиваются. Основная задача статистики как науки - обнаруживать такие причинные зависимости другим наукам.По форме корреляционная связь может быть линейной или нелинейной, положительной и отрицательной. Когда с увеличением или убыванием одной из переменных другая так же растет или убывает, то взаимосвязь линейна. Если же при изменении одной величины, характер изменений другой нелинеен, то это корреляция нелинейна.Положительной корреляция считается тогда, когда повышение уровня одной величины сопровождается повышением уровня другой. Например, когда усиление звука сопровождается ощущением повышения его тона.Корреляция, когда рост уровня одной переменной сопровождается снижением уровня другой, называется отрицательной. В сообществах повышенный уровень тревожности особи приводит к тому, что снижается вероятность занять этой особью главенствующей ниши среди собратьев.Когда связь переменных отсутствует, корреляция носит названий нулевой.

Видео по теме

Источники:

  • Нелинейная корреляция в 2019

Корреляцией называют взаимную зависимость двух случайных величин (чаще - двух групп величин), при которой изменение одной из них приводит и к изменению другой. Коэффициент корреляции показывает, насколько вероятно изменение второй величины при смене значений первой, т.е. степень ее зависимости. Самый простой способ вычисления этой величины - воспользоваться соответствующей функцией, встроенной в табличный редактор Microsoft Office Excel.

Вам понадобится

  • Табличный редактор Microsoft Office Excel.

Инструкция

Запустите Excel и откройте документ, содержащий группы данных, коэффициент корреляции между которыми требуется вычислить. Если такого документа еще не создано, то введите данные в - табличный редактор создает ее автоматически при запуске программы. Каждую из групп значений, корреляция между которыми вас интересует, вводите в отдельную колонку. Это не обязательно должны быть соседние колонки, вы свободны оформить таблицу наиболее удобным образом - добавить дополнительные столбцы с пояснениями к данным, заголовки колонок, итоговые ячейки с суммарными или средними значениями и т.д. Можно даже располагать данные не в вертикальном (в колонках), а в горизонтальном (в строках) направлении. Единственное требование, которое надо соблюдать - ячейки с данными каждой группы должны располагаться последовательно одна за другой, чтобы таким образом создавался непрерывный массив.

Перейдите в ячейку, которая должна будет содержать значение корреляции данных двух массивов, и кликните в меню Excel закладку «Формулы». В группе команд «Библиотека функций» щелкните по самой последней пиктограмме - «Другие функции». Раскроется выпадающий список, в котором вам следует перейти в раздел «Статистические» и выбрать функцию КОРРЕЛ. В результате откроется окно мастера функций с формой, предназначенной для заполнения. Это же окно можно вызвать и без вкладки «Формулы», просто щелкнув по пиктограмме вставки функции, размещенной левее строки формул.

Укажите первую группу коррелирующих данных в поле «Массив1» мастера формул. Чтобы ввести диапазон ячеек вручную наберите адрес первой и последней клеток, разделив их двоеточием (без пробелов). Другой вариант - просто выделите нужный диапазон мышкой, а нужную запись в это поле формы Excel поместит самостоятельно. Такую же операцию надо проделать и со второй группой данных в поле «Массив2».

Нажмите кнопку OK. Табличный редактор рассчитает и отобразит значение корреляции в ячейке с формулой. При необходимости вы можете сохранить этот документ для дальнейшего использования (сочетание клавиш Ctrl + S).