Показатели корреляции. Линейная корреляция Пирсона

1) корреляционный анализ как средство получения информации;

2) особенности процедур определения коэффициентов линейной и ранговой корреляции.

Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят оботрицательной корреляции. При отсутствии связи переменных мы имеем дело снулевой корреляцией.

При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...

В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?

Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.

Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4 и т. д.

Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.

Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.

Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.

Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).

В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше 0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.

Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.

Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).

Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.

Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.

Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05(или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.

Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.

Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.

Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.

Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.

Формула для расчета коэффициента Пирсона имеет такой вид:

где x , y - частные значения переменных,-(сигма) - обозначение суммы, а
- средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равнаn -2, гдеn - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.

Число степеней «свободы»

Уровни значимости

Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.

Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.

Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - какy .

Для упрощения расчетов введены некоторые тождества. А именно:

При этом мы имеем следующие результаты испытуемых (в тестовых баллах):

Испытуемые

Четвертый

Одиннадцатый

Двенадцатый


;

;

Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x иy .

Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.

Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.

Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена .

Формула его вычисления выглядит следующим образом:

;

где d -разности между рангами каждой переменной из рядовx иy ,

n - число сопоставляемых пар.

Пусть x иy - показатели успешности выполнения испытуемыми некоторых видов деятельности(оценки индивидуальных достижений). При этом мы располагаем следующими данными:

Испытуемые

Четвертый

Заметим, что вначале производится раздельное ранжирование показателей в рядах x иy . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.

Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.

В нашем примере сумма квадратов разностей рангов
равна 178. Подставим полученное число в формулу:

Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.

Вывод: между указанными рядами переменных x иy корреляция отсутствует.

Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности(ранжированы).

Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.

ОСНОВНЫЕ ПОНЯТИЯ: корреляция; корреляционный анализ; коэффициент линейной корреляции Пирсона; коэффициент ранговой корреляции Спирмена; критические значения коэффициентов корреляции.

Вопросы для обсуждения:

1. Каковы возможности корреляционного анализа в психологических исследованиях? Что можно и что нельзя выявить с помощью данного метода?

2. Какова последовательность действий при определении коэффициентов линейной корреляции Пирсона и ранговой корреляции Спирмена?

Упражнение 1:

Установите, являются ли статистически достоверными следующие показатели корреляции переменных:

а) коэффициент Пирсона +0,445 для данных двух тестирований в группе, состоящей из 20 испытуемых;

б) коэффициент Пирсона -0,810 при числе степеней свободы равном 4;

в) коэффициент Спирмена +0,415 для группы из 26 человек;

г) коэффициент Спирмена +0,318 при числе степеней свободы равном 38.

Упражнение 2:

Определите коэффициент линейной корреляции между двумя рядами показателей.

Ряд 1: 2, 4, 5, 5, 3, 6, 6, 7, 8, 9

Ряд 2: 2, 3, 3, 4, 5, 6, 3, 6, 7, 7

Упражнение 3:

Сделайте выводы о статистической достоверности и степени выраженности корреляционных отношений при числе степеней свободы равном 25, если известно, что
составляет: а) 1200; б) 1555; в) 2300

Упражнение 4:

Выполните всю последовательность действий, необходимых для определения коэффициента ранговой корреляции между предельно обобщёнными показателями успеваемости школьников («отличник», «хорошист» и т.д.) и характеристиками выполнения ими теста умственного развития (ШТУР). Сделайте интерпретацию полученных показателей.

Упражнение 5:

С помощью коэффициента линейной корреляции рассчитайте показатели ретестовой надежности имеющегося в вашем распоряжении теста интеллекта. Выполните исследование в студенческой группе с интервалом времени между тестированиями в 7-10 дней. Сформулируйте выводы.

Математические методы анализа и прогнозирования

Корреляционный анализ

Введение

2. Регрессионный анализ

3. Факторный анализ

4. Кластерный анализ

5. Анализ динамики и прогнозирования социально-правовых процессов

Заключение

Между социально-экономическими явлениями и процессами воз­можны два вида зависимости: функциональная и стохастическая. При или иных параметров, характеризующих различные явления. Примеры такого рода зависимостей в социальной среде практически не встречаются.

При стохастической (вероятностной) зависимости конкретному значению зависимой переменной соответствует набор значений объ­ясняющей переменной. Это связано, прежде всего, с тем, что на за­висимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных: вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.

В социально-экономической сфере приходится сталкиваться со многими явлениями, имеющими вероятностную природу. Так, число совершенных и раскрытых преступлений за фиксированный отрезок времени, число дорожно-транспортных происшествий в каком-либо регионе за определенное время - все это случайные величины.

Для изучения стохастических взаимосвязей существуют специальные методы, в частности корреляционный анализ ("корреляция" ­соотношение, связь между имеющимися явлениями и процессами).

Корреляционный анализ - это использование в определенной последовательности совокупности статистических методов обработки ин­формации, позволяющее исследовать взаимосвязи между различными признаками.

Задачей корреляционного анализа как метода математической статистики является установление формы и направления связи, а также измерение тесноты этой связи между изучаемыми случайными признаками.

В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции . Величина линейной зависимости одной перемен­ной от нескольких других измеряется коэффициентом множественной ми после устранение части линейной зависимости, обусловленной связью этих переменных с другими переменными.

По форме корреляционные связи могут быть линейными (прямо­линейными) и нелинейными (криволинейными), а по направлению ­

Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшают­ся) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увели­чению) значений другого признака.



Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корре­ляции и проверки их значимости.

Коэффициент корреляции может принимать значения при прямой связи от 0 до +1, а при обратной от -1 до 0. При коэффициен­тах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффици­ентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 ­связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).

Однако такая упрощенная оценка силы связи не всегда кор­ректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициен­та корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уве­ренности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (крити­ческих) значений коэффициента корреляции.

Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При дан­ном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.

Для определения существования и величины линейной зависи­мости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [{Xi,Yi},i=1,n] на плоскость . Полученный график называется допустимости предположения о линейной зависимости между перемен­ными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого исполь­зуется выборочный коэффициент корреляции:

где n - количество измерений, Xi,Yi - i-е значения, X,Y - сред­ние значения, sx, sy - среднеквадратические отклонения перемен­ных X и Y соответственно.

В теории статистического анализа корреляционная связь опре­деляется как линейная зависимость в условиях нормальности расп­ределения анализируемых переменных. Поэтому для корректного при­менения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.

Достаточно простой в вычислительном отношении способ про­верки нормальности эмпирического распределения состоит в оценке следующего отношения:

,

где C - среднее абсолютное отклонение, s - среднеквадратическое отклонение.

Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности примене­ния коэффициента корреляции как меры линейной статистической связи между переменными.

В общем случае на уровень преступности влияет множество фак­торных признаков. К ним относятся социально-экономические, геог­рафические и климатические, демографические и др., а также приз­наки, характеризующие силы и средства, степень организованности органа внутренних дел.

Однако даже при наличии сильной статистически значимой свя­зи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существо­вать другие причины (факторы), определяющие их совместную ста­тистическую взаимосвязь. Статистические выводы должны быть всег­да обоснованы надежной теоретической концепцией.

В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержа­тельная концепция и практический опыт указывают на ее возможное существование.

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

Основоположником теории корреляции считаются английские биометрики Ф.Гальтон (1822-1911) и К.Пирсон (1857-1936). Термин «корреляция» означает соотношение, соответствие. Представление о корреляции как о взаимозависимости случайных переменных величин лежит в основе статистической теории корреляции - изучение зависимости вариации признака от окружающих условий. Одни признаки выступают в роли влияющих (факторных), другие - на которые влияют, результативных. Зависимости между признаками могут быть функциональными и корреляционными. Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины. Каждому значению признака-фактора соответствует определенное значение результативного признака. В корреляционных связях между изменением факторного и результативного признака нет полного соответствия. В сложном взаимодействии находится сам результативный признак. Поэтому результаты корреляционного анализа имеют значение в данной связи, а интерпретация этих результатов в общем виде требует построения системы корреляционных связей. Они характеризуются множеством причин и следствий и с их помощью устанавливается тенденция изменения результативного признака при изменении величины факторного признака. Например, на производительность труда влияют факторы степени совершенствования техники и технологии, уровень механизации и автоматизации труда, специализации производства, текучесть кадров и т.д.

В природе и обществе явления и события протекают по характеру корреляционной связи, когда при изменении величины одного признака существует тенденция изменения другого признака. Корреляционная связь - это частный случай статистической связи. Корреляционный анализ используется при установлении тесноты зависимости между явлениями, процессами, объектами.

Целью исследования часто бывает установление взаимосвязи (корреляции) между признаками. Знание зависимости дает возможность решать кардинальную задачу любого исследования - возможность предвидеть, прогнозировать развитие ситуации при изменении влияющего фактора. С помощью корреляции можно дать лишь формальную оценку взаимосвязей. Поэтому прежде чем приступать к вычислению коэффициентов корреляции между любыми признаками, следует теоретически установить, имеется ли между этими признаками взаимосвязь. Ведь формально статистика может доказать несуществующие связи, например, между высотой здания в городе и урожайностью пшеницы в фермерских хозяйствах.

Связь между явлениями (корреляция) определяется путем постановки опытов, статистического анализа. Корреляцию не следует отождествлять с причинностью. Однако необходимо иметь в виду, что доказательство математической связи должно опираться на реальную зависимость между явлениями. Например, минерализация воды понижается с севера на юг Беларуси, в этом же направлении понижается содержание питательных веществ в почве. Между рассматриваемыми показателями может быть получена положительная достоверная зависимость. Однако степень минерализации воды не определяет оптимальное содержание питательных веществ в почве. Иначе в ландшафтах пустынь плодородие было бы максимальным, так как здесь максимальная минерализация воды (почвенно-грунтовые воды солоноватые), а это противоречит истине. Поэтому проведение подобной связи в ландшафтах пустынь бессмысленно. Лучшая посуточная аренда квартир различного уровня комфорта от хозяев без комиссионных вы сможете найти на сайте piter.stay24.ru. Удобный поиск позволит вам легко быстро найти нужную квартиру под ваши требования, потратив при этом минимум времени.

Любой показатель связи служит приближенной оценкой рассматриваемой зависимости и не является гарантией существования жесткой (функциональной) соподчиненности. Отсутствие жесткой зависимости в природе и обществе способствует саморегуляции процессов, явлений, систем

По направлению связь может быть прямой и обратной; по характеру - функциональной или статистической (корреляционной); по величине - слабой, средней или сильной; по форме - линейной и нелинейной; по количеству коррелируемых признаков - парной и множественной.

Функциональная зависимость характерна для геометрических форм, технических систем, когда каждому значению одного признака соответствует точное значение другого. Это пример взаимосвязи площади прямоугольника и длины его одной из сторон. Такая зависимость полная или исчерпывающая.

Выделяют несколько видов парной корреляционной связи:

·параллельно-соотносительную, или ассоциативную, когда оба признака изменяются сопряжено, частично под действием общих причин и следствий (приуроченность растительности и почв к определенным формам рельефа; развития промышленности и рост населения к сырьевым ресурсам);

·субпричинную, когда один фактор выступает как отдельная причина сопряженного изменения признака (связь биомассы с количеством осадков; рост населения и рождаемости);

·взаимоупреждающую, когда причина и следствие, находясь в устойчивой взаимной связи, последовательно влияют друг на друга (влажность воздуха и осадки).

Если на признак влияет несколько факторов, то приходится оценивать множественную корреляцию. Множественная корреляция служит основой выявления связей между признаками, но требует строгой нормальности и прямолинейности распределения, поэтому использование ее может быть затруднено. С ростом числа переменных объем вычислительных работ увеличивается пропорционально квадрату числа переменных. В этом случае труднее оценивать значимость результатов, так как увеличиваются ошибки коэффициентов корреляции. Практически в таких случаях ограничиваются изучением лишь главных факторов. Однако характер влияния главных факторов на признак более детально и точно исследуют путем факторного анализа.

В практической работе по установлению корреляции между признаками и явлениями необходимо придерживаться следующей последовательности:

·на основании проведенных исследований предварительно определяют, существует ли связь между рассматриваемыми признаками;

·если связь между ними существует, устанавливают ее форму, направление и тесноту, используя график.

В начале составляются сопряженные вариационные ряды, в которых следует определить аргумент х и функцию у:

По сопряженным вариантам строится график, который помогает установить вид зависимости между аргументом и функцией. От формы корреляционной связи зависит дальнейшая обработка экспериментальных или статистических данных. Линейная зависимость предполагает вычисление коэффициента корреляции r, а нелинейная - корреляционного отношения η (рис. 5.1). Степень рассеяния частот или вариант относительно линии регрессии на графике указывает ориентировочно на тесноту связи: чем меньше рассеяние, тем сильнее связь (рис. 5.2).

Корреляционный анализ решает следующие задачи:

·установление направления и формы связи,

·оценка тесноты связи,

·оценка репрезентативности статистических оценок взаимосвязи,

· определение величины детерминации (доли взаимовлияния) коррелируемых факторов.

Рис. 5.1. Форма корреляционной связи:

а - прямая линейная; б - обратная линейная; в - парабалическая; г - гиперболическая

Для оценки связи используют следующие численные критерии (коэффициенты) корреляционной связи:

·коэффициент корреляции (r) при линейной зависимости,

·корреляционное отношение (η) при нелинейной зависимости,

·коэффициенты множественной регрессии,

·ранговые коэффициенты линейной корреляции Пирсона или Кендэла.

Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимозависимостях только формируются. Умение работать с данной статистической техникой важно и в силу того, что она используется как составная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.

Целью корреляционного анализа является измерение стати -

стической взаимозависимости между двумя или более переменными. В случае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух - множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» - они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколько методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них - метод Пирсона (Реагзоп) . Его применение ограничено следующими условиями:

Переменные должны быть измерены, как минимум, на интервальном уровне;

Связь между переменными должна носить линейный характер, т. е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватного отображения;

Анализируемые переменные должны быть распределены нормально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статистической взаимосвязи между переменными:

Направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

Интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной переменной на основании значений другой.

Чтобы более наглядно представить себе особенности корреляционного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный анализ электората двух политических партий либеральной ориентации - Союза правых сил и «Яблока». Наша задача - понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федерации. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, поскольку выборы в Чеченской Республике не проводились) .

Переменные (%)

«Яблоко»

Республика Адыгея

Республика Алтай

Республика Башкортостан

Республика Бурятия

Республика Дагестан

Республика Ингушетия

Кабардино-Балкарская Республика

Республика Калмыкия

Карачаево-Черкесская Республика

Республика Карелия

Республика Коми

Республика Марий Эл

И т. д. (всего 88 случаев)

Таким образом, у нас есть две переменные - «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне регионов РФ.

Далее, в нашем распоряжении есть методический прием, который является одним из основных в статистике, - геометрическое представление. Геометрическим представлением называют представление случая как точки в условном пространстве, формируемом «осями» - переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось X формирует признак «поддержка СПС», ось У- «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X - значение переменной «поддержка СПС» (процент, набранный в регионе данной партией); по оси У- значение переменной «поддержка "Яблока"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай - (3,38; 5,4) и т. д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.

Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квадратов расстояний от наблюдаемых точек до прямой является минимальной).

Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициенте корреляции (обозначается г), который и является числовым результатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г = 1 связь приобретает характер функциональной - все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статистической связи (подробнее об интерпретации коэффициента корреляции см. ниже).

Тип связи определяется наклоном линии регрессии. В коэффициенте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак «+» традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.

Сегодня коэффициент корреляции Пирсона можно легко подсчитать с помощью всех компьютерных пакетов программ статистического анализа (8Р88, 81аИ8Иса, N088 и др.) и даже в широко распространенной программе Ехсе1 (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.

Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод - именно зрительная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется бесполезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т. е. нетипичные, резко выделяющиеся случаи.

Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистрали», тенденции связи переменных. Это точка, представляющая данные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт-Петербурга.

Можно скорректировать данные анализа, удалив сильно отклоняющиеся наблюдения, т. е. произведя «чистку выбросов». В силу специфики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.

на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие - в сельских районах. Мы можем выдвинуть гипотезу, что одним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего опера-ционализировать через переменную «доля сельского населения» или «доля городского населения» . Такая статистика существует по каждому субъекту Федерации.

Теперь в наших исходных данных появляется третья переменная - пусть это будет «доля сельского населения» .

Удалив только один из 88 случаев - Самарскую область, - мы получим значение коэффициента корреляции, отличное от полученного ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 - это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской областям, получим еще более высокую плотность: 0,77.

Впрочем, чисткой выбросов не следует увлекаться: сокращая количество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых критериев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ - содержательно понять, с чем связано наличие «выброса». Так, в нашем примере нетипичное положение Самарской области в признаковом пространстве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.

Возвратимся к нашему исследованию. Мы выяснили, что голосование за СПС и «Яблоко» довольно плотно коррелирует между собой

Чисто технически мы можем вычислять каждый парный коэффициент корреляции отдельно, но удобнее сразу получить матрицу интеркорреляций (матрицу парных корреляций). Матрица обладает диагональной симметрией. В нашем случае она будет выглядеть следующим образом:

Мы получили статистически значимые коэффициенты корреляции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Можно заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».

«Яблоко»

В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых переменных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность

Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская область и Усть-Ордынский Бурятский АО) плотность коэффициента для СПС увеличивается до -0,65.

избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.

Интерпретация интенсивности связи

Мы подошли к проблеме интерпретации интенсивности связи на основе значения коэффициента корреляции Пирсона. Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Традиционной можно считать следующую схему интерпретации данного коэффициента:

Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораздо большей степени опирающихся на количественные данные, нежели наука политическая (например, в экономике). В эмпирических исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 - случай просто уникальный. Это связано прежде всего с особенностями мотивации политического поведения - сложной, многофакторной, нередко иррациональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию , не может целиком подчиняться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:

0,4 > г > 0,3 - слабая корреляция;

0,6 > г > 0,4 - средняя корреляция;

Г > 0,7 - сильная корреляция.

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г = 0,76;

1999-2000: г = 0,74; 2003-2004: г= 0,73). На максимальной временной дистанции - между президентскими и парламентскими выборами 1991 - 1993 и 2003-2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени происходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парламентских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определенная преемственность обнаруживается на протяжении восьми лет, в течение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свидетельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электоральной культуры территорий.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обнаружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной характеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных регионов России.

Устойчивость пропорционального распределения явки по субъектам Федерации достаточно просто проверяется методом корреляционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991-2004 гг. довольно четко демонстрирует существующую тенденцию. Статистическая связь наиболее сильна внутри одного электорального цикла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: /-= 0,83; 1995-1996: г= 0,76;

1999-2000: г= 0,74; 2003-2004: г= 0,73). На максимальной временной дистанции - между президентскими и парламентскими выборами 1991 - 1993 и 2003-2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени происходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парламентских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определенная преемственность обнаруживается на протяжении восьми лет, в течение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свидетельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электоральной культуры территорий.

Другие коэффициенты корреляции

Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим числом категорий)?

В этих ситуациях рекомендуется вычислять коэффициенты корреляции рангов, наиболее известным из которых является коэффициент Спирмана. Ранговая корреляция оперирует логикой порядкового уровня: принимаются во внимание не абсолютные значения, а отношения порядка (возрастания и убывания). В какой-то мере ранговую корреляцию можно считать усложненной версией расчета показателя гамма (у), который мы рассматривали в качестве стандартной меры связи порядковых переменных.

Коэффициент корреляции Спирмана колеблется в том же интервале, что и коэффициент Пирсона - от 0 до ± 1. Принципы интерпретации значений коэффициента также идентичны. Дополнительно стоит отметить, что ранговая корреляция не чувствительна к выбросам, так как не чувствительна к абсолютным значениям вообще.