Построение корреляционного поля. Корреляционный и регрессионный анализ данных

Корреляционный анализ

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: м x , м y - средние значения (математические ожидания); у x ,у y - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y - зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Динамическое программирование

В сельском хозяйстве непрерывно протекают разнообразные экономические процессы, в результате которых складываются определенные производственные результаты, формируются экономические явления...

Целью курсовой работы является: развитие умения разрабатывать имитационные модели организационных и технических объектов, а также получения практических навыков работы в среде GPSS World...

Имитационное моделирование работы билетной кассы железнодорожного вокзала

Исследование функционирования работы билетной кассы на железнодорожном вокзале и анализ влияния времени обслуживания в каждой кассе на очереди и количество обслуженных гражданских и военных пассажиров...

Исследование свойств случайных величин, планирование эксперимента и анализ данных

Корреляционное поле используется для выявления и демонстрации зависимостей между двумя связанными наборами данных и для подтверждения предполагаемых зависимостей между ними...

Корреляционно-регрессионный анализ однофакторной стохастической связи

Метод последовательных сравнений

Программно реализовать интерактивный метод последовательных...

Моделирование систем массового обслуживания

Развитие современного общества характеризуется повышением технического уровня, усложнением организационной структуры производства, углублением общественного разделения труда...

Обработка результатов полного факторного плана для получения математической модели результатов полного факторного плана

Основными целями и задачами планирования эксперимента являются: 1) Планирование эксперимента с целью математического описания объекта. Целью данного эксперимента является получение математической модели методом регрессионного анализа...

Определение рационального маршрута следования коммивояжера

Целью данной работы является определение рационального маршрута следования коммивояжера и выбора экономически целесообразного способа поездки. Задача - выбрать такой вид транспорта для объезда коммивояжером населенных пунктов...

Оценка инвестиционных проектов

Необходимо разработать имитационную модель финансово-экономической деятельности фирмы по реализации этого проекта, выбрать схему финансирования и оценить показатели экономической эффективности проекта...

Построение структурной схемы устройства станка 3Б722

Выбор объекта морфологического исследования. Приобретение практических навыков структурного анализа. 2. Общие сведения Шлифование - это процесс обработки заготовок абразивными материалами...

Разработка модели предприятия тепличного хозяйства, используя методологии проектирования IDEF0, DFD и IDEF3

Целями данной курсовой работы были: применение методов предпроектного обследования предприятия; анализ полученных материалов для последующего моделирования; разработка модели процесса в стандарте IDEF0; описание документооборота и...

Трендовые и корреляционные модели

Функциональное моделирование

Создаваемая IDEF0-модель имеет конкретное назначение, называемое целью модели. Цель моделирования можно понять из следующего формального определения модели : M есть модель системы S...

Эконометрические модели рентабельности собственного капитала (на примере СПК "Слава")

Так как в данной курсовой работе рассматривается рентабельность собственного капитала, то возьмем ее за результативный показатель. Одним из факторов, оказывающих влияние, является рентабельность продаж, %...

Для экспериментального изучения зависимостей между случайными величинами х и у производят некоторое количество независимых опытов. Результат i -го опыта дает пару значений (х г, у г), i = 1, 2,..., п.

Величины, характеризующие различные свойства объектов, могут быть независимыми или взаимосвязанными. Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связь.

При функциональной зависимости двух величин значению одной -x h обязательно соответствует одно или несколько точно определенных значений другой величины -у { . Достаточно часто функциональная связь проявляется в физике, химии. В реальных ситуациях существует бесконечно большое количество свойств самого объекта и внешней среды, влияющих друг на друга, поэтому такого рода связи не существуют, иначе говоря, функциональные связи являются математическими абстракциями.

Воздействие общих факторов, наличие объективных закономерностей в поведении объектов приводят лишь к проявлению статистической зависимости. Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения других (другой), и эти другие величины принимают некоторые значения с определенными вероятностями. Функциональную зависимость в таком случае следует считать частным случаем статистической: значению одного фактора соответствуют значения других факторов с вероятностью, равной единице. Более важным частным случаем статистической зависимости является корреляционная зависимость, характеризующая взаимосвязь значений одних случайных величин со средним значением других, хотя в каждом отдельном случае любая взаимосвязанная величина может принимать различные значения.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение - сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, который вывел «закон корреляции частей и органов животных» (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто связь - relation, а «как бы связь» - corelation).

Корреляционные зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается - увеличение массы внесенных удобрений ведет к росту урожайности.

Простейшим приемом выявления связи между изучаемыми признаками является построение корреляционной таблицы; ее наглядным изображением служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладываются значения jq, по оси ординат у х. По расположению точек, их концентрации в определенном направлении можно качественно судить о наличии связи.

Рис. 7.3.

Положительная корреляция между случайными величинами, близкая к параболической функциональной, представлена на рис. 6.1, а. На рис. 6.1, б приведен пример слабой отрицательной корреляции, а на рис. 6.1, в - пример практически некоррелированных случайных величин. Корреляция высокая, если на графике зависимость «можно представить» прямой линией (с положительным или отрицательным углом наклона).

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака , а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике (рис. 11.1).  


Изобразим полученную зависимость графически точками координатной плоскости (рис. 3.1). Такое изображение статистической зависимости называется полем корреляции.  

Постройте поле корреляции и сформулируйте гипотезу о форме связи.  

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции. Основные типы кривых, используемые при количественной оценке связей, представлены на рис. 2.1.  

Поскольку не все точки поля корреляции лежат на линии регрессии , то всегда имеет место их разброс как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений , обусловленная регрессией, будет больше остаточной суммы квадратов , то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации г2 будет приближаться к единице.  

Соответственно для зависимости, изображенной на полях корреляции рис. 3,5 б) и в), гетероскедастичность остатков представлена на рис. 3.9 и 3.10.  

Если же величины независимы, то "поле корреляции" или па-  

Если поле корреляции может быть аппроксимировано прямой, которая называется линией регрессии , то приступают к вычислению коэффициента парной корреляции г. Его числовые значения заключены в интервале [-1, 1]. Если г равно 1 или -1, то существует функциональная прямая или обратная связь . Когда г близок к нулю, связь между явлениями отсутствует, а при г 0,7 связь считается существенной. Коэффициент корреляции рассчитывают по формуле  

После выделения названных выше групп железнодорожных хозяйств был использован еще один приближенный прием предварительного анализа однородности совокупности по каждой группе железнодорожных хозяйств - построение полей корреляции каждого из включенных в исследование факторов с себестоимостью перевозок. Основным признаком однородности или неоднородности выбранных совокупностей служило отсутствие или наличие разрывов и скачков в расположении точек на полях корреляции.  

Для изучения были предварительно выбраны путем профессионального логического анализа все возможные факторы, данные об изменении которых по предприятиям имеются в отчетности министерства. Такими факторами следует считать общий объем перевозок, среднюю производительность вагонов и локомотивов рабочего парка, грузонапряженность, фондоемкость единицы перевозок и производительность труда и др. (всего 11 факторов). Таким образом, по четырем группам предприятий было построено 44 поля корреляции.  

После определения указанных величин получается уравнение парной зависимости, графическое изображение которого в осях координат называется теоретической линией регрессии . Если на такое поле нанести все замеры, а не только теоретическую линию регрессии , то мы получим поле корреляции.  

Исходный материал систематизируем на поле корреляции и в корреляционной таблице. В нашем примере в качестве фактора выступает стоимость машин См, а в качестве функции - среднегодовая численность рабочих Р.  

В результате разбивки на интервалы вся плоскость, на которой нанесены замеры по обоим признакам к и у, называемая полем корреляции, представит собой клетки, причем каждый замер характеризуется не точными значениями своих координат, а лишь значениями интервала, в который он отнесен.  

На рис. 16 представлено поле корреляции, на котором по оси абсцисс даны интервалы для значений аргумента Сы, а по оси ординат - интервалы для значения функции Р. Построенное таким способом поле корреляции называется вторичным.  

Для выбора интервалов может быть построено также первичное поле корреляции. Все точки на этом поле проставлены с учетом значений их координат. По густоте расположения точек и намечаются интервалы.  

Наряду с построением поля корреляции, как указано выше, составляется корреляционная таблица, в которой производятся все вычисления, связанные с определением средних, построением эмпирической линии регрессии и исходных данных для определения параметров в системе нормальных уравнений.  

В табл. 36 весь материал распределен по интервалам. Используя его, строим вторичное поле корреляции, на которое наносим все значения переменных, и определяем средние значении (/, //,. .., уп по интервалам. Соединив между собой средние значения в каждом интервале отрезками прямых линий, получаем эмпирическую линию регрессии (см. рис. 16).  

Восстанавливая из центра каждого интервала перпендикуляр к оси абсцисс, откладываем на каждом из них соответствующие значения у но интервалам г/, = 1081, 1/2 = 1774 и т. д. Полученные точки соединяем между собой отрезками прямых. Полученная ломаная линия представляет собой эмпирическую линию регрессии для зависимости между стоимостью машин См и численностью рабочих Р. По аналогии с проведенными вычислениями мы можем построить корреляционные таблицы и поля корреляции для выявления зависимости между численностью рабочих Р, объемами работ О, количеством сборных бетонных и железобетонных конструкций /Иж.б.  
Рис. 18. Корреляционная таблица и вторичное поле корреляции зависимости численности рабочих и объема применения сборных железобетонных конструкций /info/5440">Уравнения парной регрессии и выведенной в дальнейшем множественной регрессии применимы в случае, если переменные изменяются в следующих пределах численность рабочих - от 850 до 7850 чел., стоимость машин - от 0,15 до 3,15 млн. руб., объем сборных конструкций - от 10 до 230 тыс. m и откладывают по вертикальной оси, в значения независимой - по горизонтальной. Поле корреляции используется при определении формы зависимости между переменными, График дает исследователю первое  

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора Xj остатки е,- имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастнчность. Наличие гетероскедастич-ности можно наглядно видеть из поля корреляции (рис. 3.5).  

Другая типичная исследовательская задача - оценка взаимосвязи между явлениями - решается с помощью хорошо разработанного в математической статистике аппарата теории корреляции. Для этого необходимо иметь выборки по сравниваемым явлениям, показанным на картах разной тематики (например, Д и В). Значения а и Ь, берут в одних и тех же /-х точках, т.е. строго скоординированно, и затем строят график поля корреляции.  

Теоретическая часть

Для различия направленности влияния одного признака на другой введены понятия положительной и отрицательной связи.

Если с увеличением (уменьшением) одного признака в основном увеличиваются (уменьшаются) значения другого, то такая корреляционная связь называется прямой или положительной.

Если с увеличением (уменьшением) одного признака в основном уменьшаются (увеличиваются) значения другого, то такая корреляционная связь называется обратной или отрицательной.

Корреляционные поля и их использование в предварительном анализе корреляционной связи

При постановке вопроса о корреляционной зависимости между двумя статистическими признаками Х и У проводят эксперимент с параллельной регистрацией их значений.

Пример -
Будем называть корреляционным полем зону разброса таким образом полученных точек на графике. Визуально анализируя корреляционное поле на рисунке 8, можно заметить, что оно как бы вытянуто вдоль какой-либо прямой линии. Такая картина характерна для так называемой линейной корреляционной взаимосвязи между признаками. При этом можно в общем предположить, что с увеличением конечной скорости разбега увеличивается и длина прыжка, и наоборот. Т.е. между рассматриваемыми признаками наблюдается прямая (положительная) взаимосвязь.

Наряду с этим примером из множества других возможных корреляционных полей можно выделить следующие (рис.9-11):

На рисунке 9 тоже просматривается линейная взаимосвязь, но с увеличением значений одного признака, уменьшаются значения другого, и наоборот, т.е. связь обратная или отрицательная. Можно предположить, что на рисунке 11 точки корреляционного поля разбросаны около какой-то кривой линии. В таком случае говорят, что между признаками существует криволинейная корреляционная связь.

В отношении корреляционного поля, изображенного на рисунке 10, нельзя сказать, что точки располагаются вдоль какой-то прямой или кривой линии, оно имеет сферическую форму. В этом случае говорят, что признаки Х и Y не зависят друг от друга.



Кроме этого по корреляционному полю можно примерно судить о тесноте корреляционной связи, если эта связь существует. Здесь говорят: чем меньше точки разбросаны около воображаемой усредненной линии, тем теснее корреляционная связь между рассматриваемыми признаками.

Визуальный анализ корреляционных полей помогает разобраться в сущности корреляционной взаимосвязи, позволяет высказать предположение о наличии, направленности и тесноте связи. Но точно сказать, имеется связь между признаками или нет, линейная связь или криволинейная, тесная связь (достоверная) или слабая (недостоверная), с помощью этого метода нельзя. Наиболее точным методом выявления и оценки линейной взаимосвязи между признаками является метод определения различных корреляционных показателей по статистическим данным.

3. Коэффициенты корреляции и их свойства

Часто для определения достоверности взаимосвязи между двумя признаками(Х, У) используютнепараметрический (ранговый) коэффициент корреляции Спирмена и параметрический коэффициент корреляции Пирсона . Величина этих показателей корреляционной связи определяется по следующим формулам:

(1)

Где: dx - ранги статистических данных признака х;

dy - ранги статистических данных признака у.

(2)

Где: - статистические данные признака х,

Статистические данные признака у.

Эти коэффициенты обладают такими мощными признаками:

1. На основании коэффициентов корреляции можно судить только о прямолинейной корреляционной взаимосвязи между признаками. О криволинейной связи с их помощью ничего сказать нельзя.
2. Значения коэффициентов корреляции есть безразмерная величина, которая не может быть меньше -1 и больше +1, т.е.
3.
4. Если значения коэффициентов корреляции равны нулю, т.е. = 0 или = 0, то связь между признаками х, у отсутствует.
5. Если значения коэффициентов корреляции отрицательные, т.е. < 0 или < 0, то связь между признаками Х и Y обратная .
6. Если значения коэффициентов корреляции положительные, т.е. > 0 или y> 0 , то связь между признаками Х и Y прямая (положительная).
7. Если коэффициенты корреляции принимают значения +1 или -1, т.е. = ± 1 или = ± 1, то связь между признаками Х и Y линейная (функциональная) .
8. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Эта достоверность еще зависит от числа степеней свободы.

Практическая часть.

Определите коэффициент корреляции между температурой тела и частотой пульса и дайте оценку выявленной взаимосвязи.

Строим корреляционное поле для основного и попутного компонентов. По оси абсцисс откладываем содержание основного компонента, в данном случае Hg, а по оси ординат – содержание попутного, т.е. Sn.

Для предварительной оценки силы связи на корреляционном поле необходимо провести линии, соответствующие медианам значений основного и попутного компонентов, разделив ими поле на четыре квадрата.

Количественной мерой силы связи является коэффициент корреляции. Его приближённую оценку рассчитывают по формуле:

где n1 суммарное количество точек в I и III, n2 = суммарное количество точек в II и IV.

I = 4 II = 8 III = 7 IV = 5

Далее используя вычисленные компьютером исходные данные (Хср, Yср, дисперсии Dx, Dy, и их ковариацию cov(x,y)) вычисляем значение коэффициента корреляции r и параметры уравнений линейной регрессии попутного компонента по основному и основного компонента по попутному.

Вычисляем по следующим формулам:

Исходные данные:

cov (x, y) = 163,86

r = cov(x, y)/√Dx * Dy = 163,86/√157,27* 645,61= 0,51

b = cov(x, y)/Dx = 163,86/157,27= 1,04

a = Yср – b * Xср = 153,13– (-0.08) * 36,75= 150.19

d = cov(x, y)/ Dy = 163,86/645,61= 0.25

c = Хср – d * Yср = 36,75– (0.25) * 153,13= -1.5

y =150.19+1.04x x = -1.5+0.25y

Строим линии регрессии на корреляционном поле.

Этап 7. Проверка гипотезы о наличии корреляционной связи

Проверка гипотезы о наличии корреляционной связи основана на том, что для двумерной нормально распределённой случайной величины X, Y при отсутствии корреляции между х и y, коэффициент корреляции равен «0». Для проверки гипотезы об отсутствии корреляционной связи необходимо вычислить значение критерия:

t = r * √(N – 2)/√(1 – r2) = 0,51* √(24-2)/√(1 – (0,51) 2) = 2.65

Для наших значений t = 2.65

Табличное значение ttab = 2.02

Так как вычисленное значение t превышает табличное значение, то гипотеза об отсутствии корреляционной связи отвергается. Связь присутствует.

Этап 8. Построение линий эмпирической регрессии. Вычисление корреляционного отношения

Выборочные данные группируются в классы по значениям содержаний основного компонента, в данном случае Hg. Для этого весь интервал значений от минимального содержания основного полезного компонента до максимального содержания делится на 6 интервалов. Для каждого интервала:

    Определяется количество значений, попавших в этот интервал n(i)

    Считается количество значений содержаний попутного компонента соответствующих значениям основного(y(I,ср)) и делится это количество на n(i)

Таблица 3

Граница интервалов

На корреляционном поле строим линию эмпирической регрессии.

dобщ = √Dy = 25,4

dусл = /N = 66,14

Величина корреляционного отношения попутного компонента по основному r рассчитывается по формуле:

r = dусл/ dобщ = 66,14/25,4 = 2,6