Корреляционный анализ применяется для выявления. Основы корреляционного анализа

В статье рассматриваются определения корреляции,корреляционного анализа и коэффициента корреляции. Дается определение корреляционной связи и ее основных характеристик.

  • Корреляционно-регрессионный анализ в исследовании факторов рождаемости
  • Оценка факторов рождаемости в Республике Башкортостан

Исследователей нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, такая связь может наблюдаться между погрешностью аппаратной обработки экспериментальных данных и величиной скачков сетевого напряжения. Другим примером может служить связь между пропускной способностью канала передачи данных и соотношением сигнал/шум.

В 1886 году английский естествоиспытатель Френсис Гальтон для обозначения характера подобного рода взаимодействий ввёл термин «корреляция». Позже его ученик Карл Пирсон разработал математическую формулу, позволяющую дать количественную оценку корреляционным связям признаков.

Зависимости между величинами (факторами, признаками) разделяют на два вида: функциональную и статистическую.

При функциональных зависимостях каждому значению одной переменной величины соответствует определенное значение другой переменной. Кроме того, функциональная связь двух факторов возможна только при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. В случае зависимости величины от множества факторов, функциональная связь возможна, если первая величина не зависит ни от каких других факторов, кроме входящих в указанное множество.

При статистической зависимости изменение одной из величин влечёт изменение распределения других величин, которые с определенными вероятностями принимают некоторые значения.

Значительно больший интерес представляет другой частный случай статистической зависимости, когда существует взаимосвязь значений одних случайных величин со средним значением других, при той особенности, что в каждом отдельном случае любая из взаимосвязанных величин может принимать различные значения.

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией.

Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами.

Корреляционный анализ решает две основные задачи:

  • Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь. Это очень важно, так как от правильного выбора формы связи зависит конечный результат изучения взаимосвязи между признаками.
  • Вторая задача состоит в измерении тесноты, т.е. меры связи между признаками с целью установить степень влияния данного фактора на результат. Она решается математически путем определения параметров корреляционного уравнения.

Затем проводятся оценка и анализ полученных результатов при помощи специальных показателей корреляционного метода (коэффициентов детерминации, линейной и множественной корреляции и т.д.), а также проверка существенности связи между изучаемыми признаками.

Методами корреляционного анализа решаются следующие задачи:

  1. Взаимосвязь. Есть ли взаимосвязь между параметрами?
  2. Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым.
  3. Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.

Корреляция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Суть ее заключается в том, что при изменении значения одной переменной происходит закономерное изменение (уменьшению или увеличению) другой переменной.

Для определения наличия взаимосвязи между двумя свойствами используется коэффициент корреляции.

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (x i , y i), полученную при совместном измерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

К основным свойствам коэффициента корреляции относятся:

  1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.
  2. Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1.
  3. При независимом варьировании признаков, когда связь между ними отсутствует, r = 0 .
  4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1, т.е. 0 < r < 1.
  5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (–) знаком и находится в пределах от 0 до –1, т.е. -1 < r <0.
  6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к ô1ô. Если r = ± 1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y.
  7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы k = n –2, где: n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Рассчитывается коэффициент корреляции по следующей формуле:

где x - значение факторного признака; y - значение результативного признака; n - число пар данных.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения x i ,y i двух признаков x,y. Если экспериментальных данных сравнительно немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i ,y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал, то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x и y графически в виде геометрического места точек в системе прямоугольных координат. Эта графическая зависимость называется диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров:

  • математических ожиданий E[x], E[y] величин x,y;
  • стандартных отклонений px, py случайных величин x,y ;
  • коэффициента корреляции p , который является мерой связи между случайными величинами, х и у. Приведем примеры корреляционных полей.

Если р = 0, то значения x i ,y i , полученные из двумерной нормальной совокупности, располагаются на графике в пределах области, ограниченной окружностью. В этом случае между случайными величинами x и y отсутствует корреляция, и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин x и y.

Если р = 1 или р = -1, то говорят о полной корреляции, то есть между случайными величинами x и y существует линейная функциональная зависимость.

При р = 1 значения x i ,y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются).

В промежуточных случаях, когда -1< p <1, определяемые значениями x i ,y i точки попадают в область, ограниченную некоторым эллипсом, причём при p>0 имеет место положительная корреляция (с увеличением x значения y в целом имеют тенденцию к возрастанию), при p<0 корреляция отрицательная. Чем ближе p к ±1, тем уже эллипс и тем теснее точки, определяемые экспериментальными значениями, группируются около прямой линии.

Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях рассматривают нелинейную корреляцию.

Корреляционную зависимость между признаками можно описывать разными способами, в частности, любая форма связи может быть выражена уравнением общего вида y=f(x), где признак y – зависимая переменная, или функция от независимой переменной x, называемой аргументом.

Таким образом, визуальный анализ корреляционного поля помогает определить не только наличие статистической связи (линейной или нелинейной) между исследуемыми признаками, но и ее тесноту и форму.

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в действительности на изменение результативного признака влияет множество факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий роль решающего фактора может перейти к другому признаку.

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. Также с учетом степени тесноты связи оценивается необходимость более подробного изучения конкретной данной связи и значение практического ее использования.

В общем, знание количественной оценки тесноты корреляционной связи позволяет решить следующую группу вопросов:

  • необходимость глубокого изучения данной связи между признаками и целесообразность ее практического применения;
  • степень различий в проявлении связи в конкретных условиях (сопоставление оценки тесноты связи для различных условий);
  • выявление главных и второстепенных факторов в данных конкретных условиях путём последовательного рассмотрения и сравнения признака с различными факторами.

Показатели тесноты связи должны удовлетворять ряду основных требований:

  • величина показателя тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует;
  • при наличии между изучаемыми признаками функциональной связи величина показателя тесноты связи должна быть равна единице;
  • при наличии между признаками корреляционной связи абсолютное значение показателя тесноты связи должно выражаться правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице).

Корреляционная зависимость определяется различными параметрами, среди которых наибольшее распространение получили парные показатели, характеризующие взаимосвязь двух случайных величин: коэффициент ковариации (корреляционный момент) и линейный коэффициент корреляции (коэффициент корреляции Пирсона).

Сила связи определяется абсолютным значением показателя тесноты связи и не зависит от направления связи.

В зависимости от абсолютного значения коэффициента корреляции p корреляционные связи между признаками по силе делятся следующим образом:

  • сильная, или тесная (при p >0,70);
  • средняя (при 0,50< p <0,69);
  • умеренная (при 0,30< p <0,49);
  • слабая (при 0,20< p <0,29);
  • очень слабая (при p <0,19).

По форме корреляционная связь может быть линейной или нелинейной.

Линейной может быть, например, связь между уровнем подготовки студента и оценками итоговой аттестации. Пример нелинейной связи - уровень мотивации и эффективность выполнения поставленной задачи. (При повышении мотивации эффективность выполнения задачи сначала возрастает, затем, при определённом уровне мотивации, достигается максимальная эффективность; но дальнейшему повышению мотивации сопутствует уже снижение эффективности.)

По направлению корреляционная связь может быть положительной (прямой) и отрицательной (обратной).

При положительной линейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - более низкие значения другого. При отрицательной корреляции соотношения обратные.

Знак коэффициента корреляции зависит от направления корреляционной связи: при положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Список литературы

  1. Аблеева, А. М. Формирование фонда оценочных средств в условиях ФГОС [Текст] / А. М. Аблеева, Г. А. Салимова // Актуальные проблемы преподавания социально-гуманитарных, естественно - научных и технических дисциплин в условиях модернизации высшей школы: материалы международной научно-методической конференции, 4-5 апреля 2014 г. / Башкирский ГАУ, Факультет информационных технологий и управления. - Уфа, 2014. - С. 11-14.
  2. Ганиева, А.М. Статистический анализ занятости и безработицы [Текст] / А.М. Ганиева, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 315-316.
  3. Исмагилов, Р. Р. Творческая группа - эффективная форма организации научных исследований в высшей школе [Текст] / Р. Р. Исмагилов, М. Х. Уразлин, Д. Р. Исламгулов // Научно-технический и научно-образовательный комплексы региона: проблемы и перспективы развития: материалы научно-практической конференции / Академия наук РБ, УГАТУ. - Уфа, 1999. - С. 105-106.
  4. Исламгулов, Д.Р. Компетентностный подход в обучении: оценка качества образования [Текст] / Д.Р. Исламгулов, Т.Н. Лубова, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 62-69.
  5. Исламгулов, Д. Р. Научно-исследовательская работа студентов - важнейший элемент подготовки специалистов в аграрном вузе [Текст] / Д. Р. Исламгулов // Проблемы практической подготовки студентов в вузе на современном этапе и пути их решения: сб. материалов науч.-метод. конф., 24 апреля 2007 года / Башкирский ГАУ. - Уфа, 2007. - С. 20-22.
  6. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова// БЪДЕЩИТЕ ИЗСЛЕДОВАНИЯ – 2016: Материали за XII Международна научна практична конференция, 15-22 февруари 2016. – София: Бял ГРАД-БГ ООД, 2016. – Том 4 Педагогически науки. – C. 80-85.
  7. Лубова, Т.Н. Новые образовательные стандарты: особенности реализации [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 79-84.
  8. Лубова, Т.Н. Организация самостоятельной работы обучающихся [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Реализация образовательных программ высшего образования в рамках ФГОС ВО: материалы Всероссийской научно-методической конференции в рамках выездного совещания НМС по природообустройству и водопользованию Федерального УМО в системе ВО. / Башкирский ГАУ. - Уфа, 2016. - С. 214-219.
  9. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 85-93.
  10. Саубанова, Л.М. Уровень демографической нагрузки [Текст] / Л.М. Саубанова, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 321-322.
  11. Фахруллина, А.Р. Статистический анализ инфляции в России [Текст] / А.Р. Фахруллина, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 323-324.
  12. Фархутдинова, А.Т. Рынок труда в Республике Башкортостан в 2012 году [Электронный ресурс] / А.Т. Фархутдинова, Т.Н. Лубова // Студенческий научный форум. Материалы V Международной студенческой электронной научной конференции: электронная научная конференция (электронный сборник). Российская академия естествознания. 2013.

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - совокупность методов оценки связи между случайными явлениями и событиями, основанных на математической теории корреляции. При этом используются простейшие характеристики, требующие минимума вычислений. Термин «корреляция» обычно отождествляется с понятиями «связь» и «взаимозависимость». Однако они не адекватны. Корреляция является только одним из видов связи между признаками, к-рая проявляется в среднем и носит линейный характер. Если между двумя величинами существует однозначная связь, то такая связь называется функциональной и по одной из величин (причине) можно однозначно определить значение другой величины (следствие). Функц, зависимость является частным выражением случайной (вероятностной, стохастической) зависимости, когда связь проявляется не для каждых значений двух величин, а только в среднем.

К. а. применяется при изучении двух или большего количества случайных величин с целью выявления двух важнейших количественных характеристик: математического уравнения связи между этими величинами и оценки тесноты связи между ними. Исходными данными для определения этих характеристик служат синхронные результаты наблюдения (измерения, эксперимента), т. е. одновременно полученные из опыта статистические данные по признакам, связь между к-рыми изучается. Исходные данные могут быть заданы в виде таблиц с записями результатов наблюдения или их равноценных представлений на магнитной ленте, перфоленте или перфокартах.

К. а. нашел широкое применение в медицине и биологии для определения тесноты и уравнений связи между различными признаками, напр, результаты анализов клин, признаков или специальных обследований, проведенных над здоровыми или больными людьми (см. Корреляция функций организма). Результаты К. а. используются для составления объективных прогнозов заболеваний, оценки состояния больного, течения болезни (см. Прогнозирование). Априори, только по результатам теоретических биол, и мед. исследований, трудно или вовсе невозможно предсказать, как связаны между собой изучаемые признаки. Для того чтобы ответить на этот вопрос, проводят наблюдение или специальный эксперимент.

Двухмерный корреляционный анализ применяется при обработке опытных данных проявления каких-либо двух признаков.

КОРРЕЛЯЦИОННАЯ ТАБЛИЦА. Примечание. В таблице приведены интервалы признаков X и Y, а также частоты их появления (в центре таблицы), подсчитанные по результатам морфометрического анализа микроциркуляторного русла бульбоконъюнктивальной области, где Y - диаметр венулы, а X - диаметр артериолы (в ммк).

Каждый результат опыта представляет собой случайную величину, а объективные закономерности проявляются только во всей совокупности результатов измерения. Поэтому выводы делаются по результатам обработки всей совокупности экспериментальных данных, а не по отдельным значениям, которые являются случайными. Для уменьшения влияния случайного события исходные данные объединяются в группы, что достигается путем составления корреляционной таблицы (см. табл.). Такая таблица содержит интервалы (или их середины) значений двух признаков - У и X, а также частоту появлений значений X и Y в соответствующем интервале этих значений. Эти частоты, подсчитанные по результатам опыта, представляют собой практическую оценку вероятности совместного появления значений X и Y конкретного интервала. Построение корреляционной таблицы является первым этапом обработки исходной информации. Построение корреляционных таблиц и их дальнейшую полную обработку осуществляют быстро на универсальных или специализированных ЭВМ (см. Электронная вычислительная машина). По сгруппированным данным корреляционной таблицы рассчитывают эмпирические характеристики уравнения и тесноты связи. Для определения уравнения связи между Y и X рассчитывают средние значения признака Y в каждом интервале признака X. Т. о. получают для каждого i-го интервала значение Yxi, соединение которых для всех i-интервалов дает эмпирическую линию регрессии, характеризующую форму связи признака Y с признаком X в среднем - график функции Yx= f(x). Если бы между признаками Y и X существовала однозначная связь, уравнения связи было бы достаточно для решения практических и теоретических задач, т. к. с его помощью всегда можно определить значение признака Y, если задано значение X. На практике же связь между Y и X не является однозначной, эта связь является случайной и одному значению X соответствует ряд значений Y. Поэтому необходима еще одна характеристика, измеряющая силу, тесноту связи между Y и X. Такими характеристиками являются дисперсионное (корреляционное) отношение ηух и коэффициент корреляции ryx. Первая из этих величин служит характеристикой тесноты связи между Y и X в произвольной функции f, а ryx - используется только в случае, когда f является линейной функцией.

Величины ηyx и ryx также просто определяются по корреляционной таблице. Расчет обычно ведут в следующем порядке: определяют средние значения обоих признаков X и Y, их средние квадратические отклонения σx и σy, а затем ηxy по формуле:

и ryx по формуле:

где n - общее число опытов, Xcpi - среднее значение X i-го интервала, Ycpj - среднее значение Y j-го интервала, k, l - количество интервалов признаков X и Y соответственно, mi(x) - частота (количество) значений Xcpi. Количественными характеристиками точности определения ηyx и ryx служат их средние квадратические отклонения, которые равны

Значения коэффициента η лежат в пределах между нулем и единицей (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).

Значение коэффициента r лежит в пределах между -1 и +1 (-1=

Многомерный корреляционный анализ - определение уравнения и тесноты связи в случаях, когда число изучаемых признаков больше двух. Так, если Y является сложным признаком и его исход зависит от появления множества признаков Х1, Х2, ..., Хn, то, по экспериментальным данным, должны быть определены: а) уравнение связи признака Y с совокупностью признаков Х1, Х2,..., Хn, т.е. Yx1x2...xn = F(x1, x2...,xn) ; б) теснота связи между Y и совокупностью X1, Х2,..., Хn.

Предварительная обработка результатов наблюдения при многомерном К. а. заключается в том, что для каждой пары признаков определяются значения дисперсионных отношений ηyxi (i = 1,2,..., n) и ηxixj (i!=j) коэффициентов корреляции ryxi и rxixj, а также парные регрессии Yxi = fi(xi). По этим данным затем определяются уравнения множественной регрессии Yx1x2...xn = F (x1,x2,...,xn), множественное дисперсионное отношение ηyx1x2...xn и множественный коэффициент корреляции Ryx1x2...xn. Уравнение множественной регрессии дает возможность определить значение признака Y по совокупности значений X1, Х2, ..., Xn, т. е. при наличии этого уравнения можно прогнозировать значения Y по результатам конкретных значений полученной совокупности (напр., результатов анализа по признакам X1, Х2...Хn). Значение ηyx1x2...xn используется в качестве характеристики тесноты связи между Y и совокупностью признаков Х1, Х2, ...Xn для произвольной функции F, a Ryx1x2...xn - для случая, когда функция F линейна. Коэффициенты ηyx1x2....xn и Ryx1x2...xn принимают значения между нулем и единицей. Включение в рассмотрение при многомерном К. а. дополнительных признаков дает возможность получить значения ηyx1x2...xn, Ryx1x2...xn ближе к единице и таким образом повысить точность прогноза признака Y по множественному уравнению регрессии.

В качестве примера рассмотрим результаты парного К. а., а также уравнение множественной регрессии и множественный коэффициент корреляции между признаками: Y - устойчивый псевдопарез, X1 - латерализация моторного дефекта в конечностях справа, Х2 - то же в конечностях слева, Х3 - вегетативные кризы. Значения дисперсионных отношений и коэффициентов парной корреляции для них будут соответственно ηyx1 = 0,429, ηyx2 = 0,616, ηyx3 = -0,334, a ryx1 = 0,320, ryx2 = 0,586, ryx3 = -0,325. По уравнению множественной линейной регрессии Yх1х2х3 = 0,638 x1 + 0,839 x2 - 0,195 x3. Коэффициент множественной корреляции будет выражаться величиной Ryx1x2x3 =0,721. Из примера видно, что по данным Х1, Х2 и Х3 с достаточной для практики точностью можно прогнозировать устойчивый псевдопарез.

Методы К. а. дают также возможность получить динамические характеристик и. В этом случае изучаемые признаки (напр., ЭКГ, ЭЭГ и т. д.) рассматриваются как случайные функции Y(t) и Х(t). По результатам наблюдения над этими функциями также определяются две важнейшие характеристики: а) оценка оператора связи (математического уравнения) между Y (t) и X(t); б) оценка тесноты связи между ними. В качестве характеристик тесноты связи принимаются дисперсионные и корреляционные функции случайных функций Y (t) и X(t). Эти функции представляют собой обобщение дисперсионных отношений и коэффициентов корреляции. Так, нормированная взаимная дисперсионная функция ηyx(t) каждого фиксированного значения t представляет собой дисперсионное отношение между значениями признаков Y (t) и Х(t). Аналогично нормированная взаимная корреляционная функция Ryx(t) представляет собой для каждого фиксированного значения t коэффициент корреляции между признаками Y(t) и X(t). Характеристика линейной связи (зависимости) для одной и той же исследуемой величины в различные моменты времени носит название автокорреляции.

К. а. является одним из методов решения задачи идентификации, нашедшей широкое распространение при получении математических моделей и автоматизации мед.-биол, исследования и лечения.

Библиография: Вычислительные системы и автоматическая диагностика заболеваний сердца, под ред. Ц. Касереса и Л. Дрейфуса, пер. с англ., М., 1974; Гутман С. Р. О двух моделях электроэнцефалограммы, сходящихся к нормальному случайному процессу, в кн.: Управление и информ. процессы в живой природе, под ред. В. В. Ларина, с. 205, М., 1971; Заславская Р. М., Перепел-кин Е. Г. и Ахметов К. Ж. Корреляционные связи между показателями гемокоагуляции и липидного обмена у больных.стенокардией в течение суток, Кардиология, т. 17, № 6, с. 111, 1977; К р а м e р Г. Математические методы статистики, пер. с англ., М., 1975; Пастернак Е. Б. и др. Исследование электрической активности предсердий при мерцательной аритмии с помощью приборного корреляционного анализа, Кардиология, т. 17, Хя 7, с. 50, 1977; Синицын Б. С. Автоматические корреляторы и их применение, Новосибирск, 1964, библиогр.; У р-б а х В. Ю. Статистический анализ в биологических и медицинских исследованиях, М., 1975, библиогр.

В. Н. Райбман, Н. С. Райбман.

Дата публикации: 03.09.2017 13:01

Термин «корреляция» активно используется в гуманитарных науках, медицине; часто мелькает в СМИ. Ключевую роль корреляции играют в психологии. В частности, расчет корреляций выступает важным этапом реализации эмпирического исследования при написании ВКР по психологии.

Материалы по корреляциям в сети слишком научны. Неспециалисту трудно разобраться в формулах. В то же время понимание смысла корреляций необходимо маркетологу, социологу, медику, психологу - всем, кто проводит исследования на людях.

В этой статье мы простым языком объясним суть корреляционной связи, виды корреляций, способы расчета, особенности использования корреляции в психологических исследованиях, а также при написании дипломных работ по психологии.

Содержание

Что такое корреляция

Корреляция - это связь. Но не любая. В чем же ее особенность? Рассмотрим на примере.

Представьте, что вы едете на автомобиле. Вы нажимаете педаль газа - машина едет быстрее. Вы сбавляете газ - авто замедляет ход. Даже не знакомый с устройством автомобиля человек скажет: «Между педалью газа и скоростью машины есть прямая связь: чем сильнее нажата педаль, тем скорость выше».

Это зависимость функциональная - скорость выступает прямой функцией педали газа. Специалист объяснит, что педаль управляет подачей топлива в цилиндры, где происходит сжигание смеси, что ведет к повышению мощности на вал и т.д. Это связь жесткая, детерминированная, не допускающая исключений (при условии, что машина исправна).

Теперь представьте, что вы директор фирмы, сотрудники которой продают товары. Вы решаете повысить продажи за счет повышения окладов работников. Вы повышаете зарплату на 10%, и продажи в среднем по фирме растут. Через время повышаете еще на 10%, и опять рост. Затем еще на 5%, и опять есть эффект. Напрашивается вывод - между продажами фирмы и окладом сотрудников есть прямая зависимость - чем выше оклады, тем выше продажи организации. Такая же это связь, как между педалью газа и скоростью авто? В чем ключевое отличие?

Правильно, между окладом и продажами заисимость не жесткая. Это значит, что у кого-то из сотрудников продажи могли даже снизиться, невзирая на рост оклада. У кого-то остаться неизменными. Но в среднем по фирме продажи выросли, и мы говорим - связь продаж и оклада сотрудников есть, и она корреляционная.

В основе функциональной связи (педаль газа - скорость) лежит физический закон. В основе корреляционной связи (продажи - оклад) находится простая согласованность изменения двух показателей. Никакого закона (в физическом понимании этого слова) за корреляцией нет. Есть лишь вероятностная (стохастическая) закономерность.

Численное выражение корреляционной зависимости

Итак, корреляционная связь отражает зависимость между явлениями. Если эти явления можно измерить, то она получает численное выражение.

Например, изучается роль чтения в жизни людей. Исследователи взяли группу из 40 человек и измерили у каждого испытуемого два показателя: 1) сколько времени он читает в неделю; 2) в какой мере он считает себя благополучным (по шкале от 1 до 10). Ученые занесли эти данные в два столбика и с помощью статистической программы рассчитали корреляцию между чтением и благополучием. Предположим, они получили следующий результат -0,76. Но что значит это число? Как его проинтерпретировать? Давайте разбираться.

Полученное число называется коэффициентом корреляции. Для его правильной интерпретации важно учитывать следующее:

  1. Знак «+» или «-» отражает направление зависимости.
  2. Величина коэффициента отражает силу зависимости.

Прямая и обратная

Знак плюс перед коэффициентом указывает на то, что связь между явлениями или показателями прямая. То есть, чем больше один показатель, тем больше и другой. Выше оклад - выше продажи. Такая корреляция называется прямой, или положительной.

Если коэффициент имеет знак минус, значит, корреляция обратная, или отрицательная. В этом случае чем выше один показатель, тем ниже другой. В примере с чтением и благополучием мы получили -0,76, и это значит, что, чем больше люди читают, тем ниже уровень их благополучия.

Сильная и слабая

Корреляционная связь в численном выражении - это число в диапазоне от -1 до +1. Обозначается буквой «r». Чем выше число (без учета знака), тем корреляционная связь сильнее.

Чем ниже численное значение коэффициента, тем взаимосвязь между явлениями и показателями меньше.

Максимально возможная сила зависимости - это 1 или -1. Как это понять и представить?

Рассмотрим пример. Взяли 10 студентов и измерили у них уровень интеллекта (IQ) и успеваемость за семестр. Расположили эти данные в виде двух столбцов.

Испытуемый

IQ

Успеваемость (баллы)

Посмотрите внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. Но также растет и уровень успеваемости. Из любых двух студентов успеваемость будет выше у того, у кого выше IQ. И никаких исключений из этого правила не будет.

Перед нами пример полного, 100%-но согласованного изменения двух показателей в группе. И это пример максимально возможной положительной взаимосвязи. То есть, корреляционная зависимость между интеллектом и успеваемостью равна 1.

Рассмотрим другой пример. У этих же 10-ти студентов с помощью опроса оценили, в какой мере они ощущают себя успешными в общении с противоположным полом (по шкале от 1 до 10).

Испытуемый

IQ

Успех в общении с противоположным полом (баллы)

Смотрим внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. При этом в последнем столбце последовательно снижается уровень успешности общения с противоположным полом. Из любых двух студентов успех общения с противоположным полом будет выше у того, у кого IQ ниже. И никаких исключений из этого правила не будет.

Это пример полной согласованности изменения двух показателей в группе - максимально возможная отрицательная взаимосвязь. Корреляционная связь между IQ и успешностью общения с противоположным полом равна -1.

А как понять смысл корреляции равной нулю (0)? Это значит, связи между показателями нет. Еще раз вернемся к нашим студентам и рассмотрим еще один измеренный у них показатель - длину прыжка с места.

Испытуемый

IQ

Длина прыжка с места (м)

Не наблюдается никакой согласованности между изменением IQ от человека к человеку и длинной прыжка. Это и свидетельствует об отсутствии корреляции. Коэффициент корреляции IQ и длины прыжка с места у студентов равен 0.

Мы рассмотрели крайние случаи. В реальных измерениях коэффициенты редко бывают равны точно 1 или 0. При этом принята следующая шкала:

  • если коэффициент больше 0,70 - связь между показателями сильная;
  • от 0,30 до 0,70 - связь умеренная,
  • меньше 0,30 - связь слабая.

Если оценить по этой шкале полученную нами выше корреляцию между чтением и благополучием, то окажется, что эта зависимость сильная и отрицательная -0,76. То есть, наблюдается сильная отрицательная связь между начитанностью и благополучием. Что еще раз подтверждает библейскую мудрость о соотношении мудрости и печали.

Приведенная градация дает очень приблизительные оценки и в таком виде редко используются в исследованиях.

Чаще используются градации коэффициентов по уровням значимости. В этом случае реально полученный коэффициент может быть значимым или не значимым. Определить это можно, сравнив его значение с критическим значением коэффициента корреляции, взятым из специальной таблицы. Причем эти критические значения зависят от численности выборки (чем больше объем, тем ниже критическое значение).

Корреляционный анализ в психологии

Корреляционный метод выступает одним из основных в психологических исследованиях. И это не случайно, ведь психология стремится быть точной наукой. Получается ли?

В чем особенность законов в точных науках. Например, закон тяготения в физике действует без исключений: чем больше масса тела, тем сильнее оно притягивает другие тела. Этот физический закон отражает связь массы тела и силы притяжения.

В психологии иная ситуация. Например, психологи публикуют данные о связи теплых отношений в детстве с родителями и уровня креативности во взрослом возрасте. Означает ли это, что любой из испытуемых с очень теплыми отношениями с родителями в детстве будет иметь очень высокие творческие способности? Ответ однозначный - нет. Здесь нет закона, подобного физическому. Нет механизма влияния детского опыта на креативность взрослых. Это наши фантазии! Есть согласованность данных (отношения - креативность), но за ними нет закона. А есть лишь корреляционная связь. Психологи часто называют выявляемые взаимосвязи психологическими закономерностями, подчеркивая их вероятностный характер - не жесткость.

Пример исследования на студентах из предыдущего раздела хорошо иллюстрирует использование корреляций в психологии:

  1. Анализ взаимосвязи между психологическими показателями. В нашем примере IQ и успешность общения с противоположным полом - это психологические параметры. Выявление корреляции между ними расширяет представления о психической организации человека, о взаимосвязях между различными сторонами его личности - в данном случае между интеллектом и сферой общения.
  2. Анализ взаимосвязей IQ с успеваемостью и прыжками - пример связи психологического параметра с непсихологическими. Полученные результаты раскрывают особенности влияния интеллекта на учебную и спортивную деятельность.

Вот как могли выглядеть краткие выводы по результатам придуманного исследования на студентах:

  1. Выявлена значимая положительная зависимость интеллекта студентов и их успеваемости.
  2. Существует отрицательная значимая взаимосвязь IQ с успешностью общения с противоположным полом.
  3. Не выявлено связи IQ студентов с умением прыгать с места.

Таким образом, уровень интеллекта студентов выступает позитивным фактором их академической успеваемости, в то же время негативно сказываясь на отношениях с противоположным полом и не оказывая значимого влияния на спортивные успехи, в частности, способность к прыгать с места.

Как видим, интеллект помогает студентам учиться, но мешает строить отношения с противоположным полом. При этом не влияет на их спортивные успехи.

Неоднозначное влияние интеллекта на личность и деятельность студентов отражает сложность этого феномена в структуре личностных особенностей и важность продолжения исследований в этом направлении. В частности, представляется важным провести анализ взаимосвязей интеллекта с психологическими особенностями и деятельностью студентов с учетом их пола.

Коэффициенты Пирсона и Спирмена

Рассмотрим два метода расчета.

Коэффициент Пирсона - это особый метод расчета взаимосвязи показателей между выраженностью численных значений в одной группе. Очень упрощенно он сводится к следующему:

  1. Берутся значения двух параметров в группе испытуемых (например, агрессии и перфекционизма).
  2. Находятся средние значения каждого параметра в группе.
  3. Находятся разности параметров каждого испытуемого и среднего значения.
  4. Эти разности подставляются в специальную форму для расчета коэффициента Пирсона.

Коэффициент ранговой корреляции Спирмена рассчитывается похожим образом:

  1. Берутся значения двух индикаторов в группе испытуемых.
  2. Находятся ранги каждого фактора в группе, то есть место в списке по возрастанию.
  3. Находятся разности рангов, возводятся в квадрат и суммируются.
  4. Далее разности рангов подставляются в специальную форму для вычисления коэффициента Спирмена.

В случае Пирсона расчет шел с использованием среднего значения. Следовательно, случайные выбросы данных (существенное отличие от среднего), например, из-за ошибки обработки или недостоверных ответов могут существенно исказить результат.

В случае Спирмена абсолютные значения данных не играют роли, так как учитывается только их взаимное расположение по отношению друг к другу (ранги). То есть, выбросы данных или другие неточности не окажут серьезного влияния на конечный результат.

Если результаты тестирования корректны, то различия коэффициентов Пирсона и Спирмена незначительны, при этом коэффициент Пирсона показывает более точное значение взаимосвязи данных.

Как рассчитать коэффициент корреляции

Коэффициенты Пирсона и Спирмена можно рассчитать вручную. Это может понадобиться при углубленном изучении статистических методов.

Однако в большинстве случаев при решении прикладных задач, в том числе и в психологии, можно проводить расчеты с помощью специальных программ.

Расчет с помощью электронных таблиц Microsoft Excel

Вернемся опять к примеру со студентами и рассмотрим данные об уровне их интеллекта и длине прыжка с места. Занесем эти данные (два столбца) в таблицу Excel.

Переместив курсор в пустую ячейку, нажмем опцию «Вставить функцию» и выберем «КОРРЕЛ» из раздела «Статистические».

Формат этой функции предполагает выделение двух массивов данных: КОРРЕЛ (массив 1; массив»). Выделяем соответственно столбик с IQ и длиной прыжков.

В таблицах Excel реализована формула расчета только коэффициента Пирсона.

Расчет с помощью программы STATISTICA

Заносим данные по интеллекту и длине прыжка в поле исходных данных. Далее выбираем опцию «Непараметрические критерии», «Спирмена». Выделяем параметры для расчета и получаем следующий результат.


Как видно, расчет дал результат 0,024, что отличается от результата по Пирсону - 0,038, полученной выше с помощью Excel. Однако различия незначительны.

Использование корреляционного анализа в дипломных работах по психологии (пример)

Большинство тем выпускных квалификационных работ по психологии (дипломов, курсовых, магистерских) предполагают проведение корреляционного исследования (остальные связаны с выявлением различий психологических показателей в разных группах).

Сам термин «корреляция» в названиях тем звучит редко - он скрывается за следующими формулировками:

  • «Взаимосвязь субъективного ощущения одиночества и самоактуализации у женщин зрелого возраста»;
  • «Особенности влияния жизнестойкости менеджеров на успешность их взаимодействия с клиентами в конфликтных ситуациях»;
  • «Личностные факторы стрессоустойчивости сотрудников МЧС».

Таким образом, слова «взаимосвязь», «влияние» и «факторы» - верные признаки того, что методом анализа данных в эмпирическом исследовании должен быть корреляционный анализ.

Рассмотрим кратко этапы его проведения при написании дипломной работы по психологии на тему: «Взаимосвязь личностной тревожности и агрессивности у подростков».

1. Для расчета необходимы сырые данные, в качестве которых обычно выступают результаты тестирования испытуемых. Они заносятся в сводную таблицу и помещаются в приложение. Эта таблица устроена следующим образом:

  • каждая строка содержит данные на одного испытуемого;
  • каждый столбец содержит показатели по одной шкале для всех испытуемых.

№ испытуемого

Личностная тревожность

Агрессивность

2. Необходимо решить, какой из двух типов коэффициентов - Пирсона или Спирмена - будет использоваться. Напоминаем, что Пирсон дает более точный результат, но он чувствителен к выбросам в данных Коэффициенты Спирмена могут использоваться с любыми данными (кроме номинативной шкалы), поэтому именно они чаще всего используют в дипломах по психологии.

3. Заносим таблицу сырых данных в статистическую программу.

4. Рассчитываем значение.



5. На следующем этапе важно определить, значима ли взаимосвязь. Статистическая программа подсветила результаты красным, что означает, что корреляция статистически значимы при уровне значимости 0,05 (указано выше).

Однако полезно знать, как определить значимость вручную. Для этого понадобится таблица критических значений Спирмена.

Таблица критических значений коэффициентов Спирмена

Уровень статистической значимости

Число испытуемых

р=0,05

р=0,01

р=0,001

0,88

0,96

0,99

0,81

0,92

0,97

0,75

0,88

0,95

0,71

0,83

0,93

0,67

0,63

0,77

0,87

0,74

0,85

0,58

0,71

0,82

0,55

0,68

0,53

0,66

0,78

0,51

0,64

0,76

Нас интересует уровень значимости 0,05 и объем нашей выборки 10 человек. На пересечении этих данных находим значение критического Спирмена: Rкр=0,63.

Правило такое: если полученное эмпирическое значение Спирмена больше либо равно критическому, то он статистически значим. В нашем случае: Rэмп (0,66) > Rкр (0,63), следовательно, взаимосвязь между агрессивностью и тревожностью в группе подростков статистически значима.

5. В текст дипломной нужно вставлять данные в таблице формата word, а не таблицу из статистической программы. Под таблицей описываем полученный результат и интерпретируем его.

Таблица 1

Коэффициенты Спирмена агрессивности и тревожности в группе подростков

Агрессивность

Личностная тревожность

0,665*

* - статистически достоверна (р 0,05)

Анализ данных, приведенных в таблице 1, показывает, что существует статистически значимая положительная связьмежду агрессивностью и тревожностью подростков. Это означает, что чем выше личностная тревожность подростков, тем выше уровень их агрессивности. Такой результат дает основание предположить, что агрессия для подростков выступает одним из способов купирования тревожности. Испытывая неуверенность в себе, тревогу в связи с угрозами самооценке, особенно чувствительной в подростковом возрасте, подросток часто использует агрессивное поведение, таким непродуктивным способом снижая тревогу.

6. Можно ли при интерпретации связей говорить о влиянии? Можно ли сказать, что тревожность влияет на агрессивность? Строго говоря, нет. Выше мы показали, что корреляционная связь между явлениями носит вероятностный характер и отражает лишь согласованность изменений признаков в группе. При этом мы не можем сказать, что эта согласованность вызвана тем, что одно из явлений является причиной другого, влияет на него. То есть, наличие корреляции между психологическими параметрами не дает оснований говорить о существовании между ними причинно-следственной связи. Однако практика показывает, что термин «влияние» часто используется при анализе результатов корреляционного анализа.

Корреляционный анализ

Корреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции .

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.

Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве . Тогда их коэффициент корреляции задаётся формулой:

,

где cov обозначает ковариацию , а D - дисперсию , или, что то же самое,

,

где символ обозначает математическое ожидание .

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы , к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . , где . Более того в этом случае знаки и k совпадают: .

Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ) , то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2 (x ) + c o s 2 (x ) = 1 .

Ограничения корреляционного анализа

Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение , агрохимия , гидробиология , биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук , фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

Wikimedia Foundation . 2010 .

Смотреть что такое "Корреляционный анализ" в других словарях:

    См. АНАЛИЗ КОРРЕЛЯЦИОННЫЙ. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    Раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (в математической статистике) … Большой Энциклопедический словарь

    КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (см. КОРРЕЛЯЦИЯ (взаимная связь … Энциклопедический словарь

    Корреляционный анализ - (в экономике) ветвь математической статистики, изучающая взаимосвязи между изменяющимися величинами (корреляция соотношение, от латинского слова correlatio). Взаимосвязь может быть полная (т.е. функциональная) и неполная,… … Экономико-математический словарь

    корреляционный анализ - (в психологии) (от лат. correlatio соотношение) статистический метод оценки формы, знака и тесноты связи исследуемых признаков или факторов. При определении формы связи рассматривается ее линейность или нелинейность (т. е. как в среднем… … Большая психологическая энциклопедия

    корреляционный анализ - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN correlation analysis … Справочник технического переводчика

    корреляционный анализ - koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: angl. correlation studies vok. Analyse der Korrelation, f;… … Sporto terminų žodynas

    Совокупность основанных на математической теории корреляции (См. Корреляция) методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие… … Большая советская энциклопедия

    Раздел матем. статистики, объединяющий практич. методы исследования корреляц. зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция … Большой энциклопедический политехнический словарь

Основные понятия корреляционного анализа

Выделяют несколько видов связи между переменными:

Корреляционная зависимость предполагает взаимную согласован­ность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае гово­рят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают.

Функциональное воздействие предполагает, что изменения не­зависимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные свя­зи фиксируют влияние независимой переменной на зависимую); на­пример, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий поли­тический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает.

Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность челове­ка о политике напрямую связана с интересом к ней; чем больше чело­век политикой интересуется, тем больше в ней разбирается.

Связь может быть нелинейной и немонотонной.

Каким бы в итоге ни оказался тип связи между переменными, не­обходимо убедиться в ее наличии в принципе. Корреляционный ана­лиз применяется для выяснения взаимодействия и тенденций измене­ния характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корре­ляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно кбрреляционный анализ используется для проверки ги­потезы о статистической зависимости двух или нескольких перемен­ных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и со­поставления рядов распределения, построенных на основании группи­ровок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответ­ствует определенное значение У (или комплекс значений К-ряда рас­пределения). Корреляционный анализ выясняет функциональную за­висимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне опреде- тенпое значение другой. Однако корреляционный анализ не предпо­лагает выявления каузальных связей, поэтому при интерпретации ре- 1ультатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.

Различают парную и множественную корреляции. Парная корреля­ция характеризует тип, форму и плотность связи между двумя призна­ками, множественная - между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дей­ствующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Ко­эффициенты (в статистике их общее количество исчисляется десят­ками) показывают степень взаимосвязи явлений (плотность корреля­ционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность ). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная » (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная » связь. Помимо оценки плотности и направленности связи необходимо учитывать на­дежность (достоверность ) связи.

Корреляционный анализ последовательно решает три практиче­ские задачи:

    определение корреляционного поля и составление корреляци­онной (в данном случае это комбинированная) таблицы;

    вычисление выборочных корреляционных отношений или ко­эффициентов корреляции;

    проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представле­ний о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминант­ный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя призна­ками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием ста­тистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Корреляционному анализу предшествует стадия расчета стати­стики х 2 - Но на основании полученного значения статистики х 2 мы ни­чего не можем сказать о плотности связи анализируемых переменных. Цля решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Традиционным для выполнения корреляционного анализа являет­ся обращение к коэффициенту корреляции Пирсона (Pearson) Р (в ли­тературе он обозначается и через г).

Если при описании политического объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы сопряженного признака) - 4-клеточные. В этом случае применяются коэффициент Юла(О) и коэффициент контингенции (ф). Они основаны на принципе совместного появления событий (значений признаков у объекта исследования) и пригодны для анализа любых признаков (ме­трических, порядковых и даже номинальных).

В случае если номинальные шкалы имеют большее число значений, чем два, то для определения зависимости между признаками пользуют­ся коэффициентами сопряженности Пирсона (Р ), Чупрова (7) и Кра­мера (К). При этом определенное значение имеет размерность таблицы с на к, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент со­пряженности Пирсона. Но поскольку вычисления в них строятся с уче­том статистики х 2 , то все связанные с ней ограничения распространя­ются и на эти коэффициенты.

Множественный коэффициент корреляции (IV), который иногда называют коэффициентом конкордации, применяется для оценки со­гласованности двух или нескольких рядов ранжированных значений переменных.

Вариантов расчета коэффи­циентов корреляции между признаками в статистическом пакете SPSS два.