Полный анализ корреляций множества признаков можно провести. Линейная и множественная регрессия

Дата публикации: 03.09.2017 13:01

Термин «корреляция» активно используется в гуманитарных науках, медицине; часто мелькает в СМИ. Ключевую роль корреляции играют в психологии. В частности, расчет корреляций выступает важным этапом реализации эмпирического исследования при написании ВКР по психологии.

Материалы по корреляциям в сети слишком научны. Неспециалисту трудно разобраться в формулах. В то же время понимание смысла корреляций необходимо маркетологу, социологу, медику, психологу - всем, кто проводит исследования на людях.

В этой статье мы простым языком объясним суть корреляционной связи, виды корреляций, способы расчета, особенности использования корреляции в психологических исследованиях, а также при написании дипломных работ по психологии.

Содержание

Что такое корреляция

Корреляция - это связь. Но не любая. В чем же ее особенность? Рассмотрим на примере.

Представьте, что вы едете на автомобиле. Вы нажимаете педаль газа - машина едет быстрее. Вы сбавляете газ - авто замедляет ход. Даже не знакомый с устройством автомобиля человек скажет: «Между педалью газа и скоростью машины есть прямая связь: чем сильнее нажата педаль, тем скорость выше».

Это зависимость функциональная - скорость выступает прямой функцией педали газа. Специалист объяснит, что педаль управляет подачей топлива в цилиндры, где происходит сжигание смеси, что ведет к повышению мощности на вал и т.д. Это связь жесткая, детерминированная, не допускающая исключений (при условии, что машина исправна).

Теперь представьте, что вы директор фирмы, сотрудники которой продают товары. Вы решаете повысить продажи за счет повышения окладов работников. Вы повышаете зарплату на 10%, и продажи в среднем по фирме растут. Через время повышаете еще на 10%, и опять рост. Затем еще на 5%, и опять есть эффект. Напрашивается вывод - между продажами фирмы и окладом сотрудников есть прямая зависимость - чем выше оклады, тем выше продажи организации. Такая же это связь, как между педалью газа и скоростью авто? В чем ключевое отличие?

Правильно, между окладом и продажами заисимость не жесткая. Это значит, что у кого-то из сотрудников продажи могли даже снизиться, невзирая на рост оклада. У кого-то остаться неизменными. Но в среднем по фирме продажи выросли, и мы говорим - связь продаж и оклада сотрудников есть, и она корреляционная.

В основе функциональной связи (педаль газа - скорость) лежит физический закон. В основе корреляционной связи (продажи - оклад) находится простая согласованность изменения двух показателей. Никакого закона (в физическом понимании этого слова) за корреляцией нет. Есть лишь вероятностная (стохастическая) закономерность.

Численное выражение корреляционной зависимости

Итак, корреляционная связь отражает зависимость между явлениями. Если эти явления можно измерить, то она получает численное выражение.

Например, изучается роль чтения в жизни людей. Исследователи взяли группу из 40 человек и измерили у каждого испытуемого два показателя: 1) сколько времени он читает в неделю; 2) в какой мере он считает себя благополучным (по шкале от 1 до 10). Ученые занесли эти данные в два столбика и с помощью статистической программы рассчитали корреляцию между чтением и благополучием. Предположим, они получили следующий результат -0,76. Но что значит это число? Как его проинтерпретировать? Давайте разбираться.

Полученное число называется коэффициентом корреляции. Для его правильной интерпретации важно учитывать следующее:

  1. Знак «+» или «-» отражает направление зависимости.
  2. Величина коэффициента отражает силу зависимости.

Прямая и обратная

Знак плюс перед коэффициентом указывает на то, что связь между явлениями или показателями прямая. То есть, чем больше один показатель, тем больше и другой. Выше оклад - выше продажи. Такая корреляция называется прямой, или положительной.

Если коэффициент имеет знак минус, значит, корреляция обратная, или отрицательная. В этом случае чем выше один показатель, тем ниже другой. В примере с чтением и благополучием мы получили -0,76, и это значит, что, чем больше люди читают, тем ниже уровень их благополучия.

Сильная и слабая

Корреляционная связь в численном выражении - это число в диапазоне от -1 до +1. Обозначается буквой «r». Чем выше число (без учета знака), тем корреляционная связь сильнее.

Чем ниже численное значение коэффициента, тем взаимосвязь между явлениями и показателями меньше.

Максимально возможная сила зависимости - это 1 или -1. Как это понять и представить?

Рассмотрим пример. Взяли 10 студентов и измерили у них уровень интеллекта (IQ) и успеваемость за семестр. Расположили эти данные в виде двух столбцов.

Испытуемый

IQ

Успеваемость (баллы)

Посмотрите внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. Но также растет и уровень успеваемости. Из любых двух студентов успеваемость будет выше у того, у кого выше IQ. И никаких исключений из этого правила не будет.

Перед нами пример полного, 100%-но согласованного изменения двух показателей в группе. И это пример максимально возможной положительной взаимосвязи. То есть, корреляционная зависимость между интеллектом и успеваемостью равна 1.

Рассмотрим другой пример. У этих же 10-ти студентов с помощью опроса оценили, в какой мере они ощущают себя успешными в общении с противоположным полом (по шкале от 1 до 10).

Испытуемый

IQ

Успех в общении с противоположным полом (баллы)

Смотрим внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. При этом в последнем столбце последовательно снижается уровень успешности общения с противоположным полом. Из любых двух студентов успех общения с противоположным полом будет выше у того, у кого IQ ниже. И никаких исключений из этого правила не будет.

Это пример полной согласованности изменения двух показателей в группе - максимально возможная отрицательная взаимосвязь. Корреляционная связь между IQ и успешностью общения с противоположным полом равна -1.

А как понять смысл корреляции равной нулю (0)? Это значит, связи между показателями нет. Еще раз вернемся к нашим студентам и рассмотрим еще один измеренный у них показатель - длину прыжка с места.

Испытуемый

IQ

Длина прыжка с места (м)

Не наблюдается никакой согласованности между изменением IQ от человека к человеку и длинной прыжка. Это и свидетельствует об отсутствии корреляции. Коэффициент корреляции IQ и длины прыжка с места у студентов равен 0.

Мы рассмотрели крайние случаи. В реальных измерениях коэффициенты редко бывают равны точно 1 или 0. При этом принята следующая шкала:

  • если коэффициент больше 0,70 - связь между показателями сильная;
  • от 0,30 до 0,70 - связь умеренная,
  • меньше 0,30 - связь слабая.

Если оценить по этой шкале полученную нами выше корреляцию между чтением и благополучием, то окажется, что эта зависимость сильная и отрицательная -0,76. То есть, наблюдается сильная отрицательная связь между начитанностью и благополучием. Что еще раз подтверждает библейскую мудрость о соотношении мудрости и печали.

Приведенная градация дает очень приблизительные оценки и в таком виде редко используются в исследованиях.

Чаще используются градации коэффициентов по уровням значимости. В этом случае реально полученный коэффициент может быть значимым или не значимым. Определить это можно, сравнив его значение с критическим значением коэффициента корреляции, взятым из специальной таблицы. Причем эти критические значения зависят от численности выборки (чем больше объем, тем ниже критическое значение).

Корреляционный анализ в психологии

Корреляционный метод выступает одним из основных в психологических исследованиях. И это не случайно, ведь психология стремится быть точной наукой. Получается ли?

В чем особенность законов в точных науках. Например, закон тяготения в физике действует без исключений: чем больше масса тела, тем сильнее оно притягивает другие тела. Этот физический закон отражает связь массы тела и силы притяжения.

В психологии иная ситуация. Например, психологи публикуют данные о связи теплых отношений в детстве с родителями и уровня креативности во взрослом возрасте. Означает ли это, что любой из испытуемых с очень теплыми отношениями с родителями в детстве будет иметь очень высокие творческие способности? Ответ однозначный - нет. Здесь нет закона, подобного физическому. Нет механизма влияния детского опыта на креативность взрослых. Это наши фантазии! Есть согласованность данных (отношения - креативность), но за ними нет закона. А есть лишь корреляционная связь. Психологи часто называют выявляемые взаимосвязи психологическими закономерностями, подчеркивая их вероятностный характер - не жесткость.

Пример исследования на студентах из предыдущего раздела хорошо иллюстрирует использование корреляций в психологии:

  1. Анализ взаимосвязи между психологическими показателями. В нашем примере IQ и успешность общения с противоположным полом - это психологические параметры. Выявление корреляции между ними расширяет представления о психической организации человека, о взаимосвязях между различными сторонами его личности - в данном случае между интеллектом и сферой общения.
  2. Анализ взаимосвязей IQ с успеваемостью и прыжками - пример связи психологического параметра с непсихологическими. Полученные результаты раскрывают особенности влияния интеллекта на учебную и спортивную деятельность.

Вот как могли выглядеть краткие выводы по результатам придуманного исследования на студентах:

  1. Выявлена значимая положительная зависимость интеллекта студентов и их успеваемости.
  2. Существует отрицательная значимая взаимосвязь IQ с успешностью общения с противоположным полом.
  3. Не выявлено связи IQ студентов с умением прыгать с места.

Таким образом, уровень интеллекта студентов выступает позитивным фактором их академической успеваемости, в то же время негативно сказываясь на отношениях с противоположным полом и не оказывая значимого влияния на спортивные успехи, в частности, способность к прыгать с места.

Как видим, интеллект помогает студентам учиться, но мешает строить отношения с противоположным полом. При этом не влияет на их спортивные успехи.

Неоднозначное влияние интеллекта на личность и деятельность студентов отражает сложность этого феномена в структуре личностных особенностей и важность продолжения исследований в этом направлении. В частности, представляется важным провести анализ взаимосвязей интеллекта с психологическими особенностями и деятельностью студентов с учетом их пола.

Коэффициенты Пирсона и Спирмена

Рассмотрим два метода расчета.

Коэффициент Пирсона - это особый метод расчета взаимосвязи показателей между выраженностью численных значений в одной группе. Очень упрощенно он сводится к следующему:

  1. Берутся значения двух параметров в группе испытуемых (например, агрессии и перфекционизма).
  2. Находятся средние значения каждого параметра в группе.
  3. Находятся разности параметров каждого испытуемого и среднего значения.
  4. Эти разности подставляются в специальную форму для расчета коэффициента Пирсона.

Коэффициент ранговой корреляции Спирмена рассчитывается похожим образом:

  1. Берутся значения двух индикаторов в группе испытуемых.
  2. Находятся ранги каждого фактора в группе, то есть место в списке по возрастанию.
  3. Находятся разности рангов, возводятся в квадрат и суммируются.
  4. Далее разности рангов подставляются в специальную форму для вычисления коэффициента Спирмена.

В случае Пирсона расчет шел с использованием среднего значения. Следовательно, случайные выбросы данных (существенное отличие от среднего), например, из-за ошибки обработки или недостоверных ответов могут существенно исказить результат.

В случае Спирмена абсолютные значения данных не играют роли, так как учитывается только их взаимное расположение по отношению друг к другу (ранги). То есть, выбросы данных или другие неточности не окажут серьезного влияния на конечный результат.

Если результаты тестирования корректны, то различия коэффициентов Пирсона и Спирмена незначительны, при этом коэффициент Пирсона показывает более точное значение взаимосвязи данных.

Как рассчитать коэффициент корреляции

Коэффициенты Пирсона и Спирмена можно рассчитать вручную. Это может понадобиться при углубленном изучении статистических методов.

Однако в большинстве случаев при решении прикладных задач, в том числе и в психологии, можно проводить расчеты с помощью специальных программ.

Расчет с помощью электронных таблиц Microsoft Excel

Вернемся опять к примеру со студентами и рассмотрим данные об уровне их интеллекта и длине прыжка с места. Занесем эти данные (два столбца) в таблицу Excel.

Переместив курсор в пустую ячейку, нажмем опцию «Вставить функцию» и выберем «КОРРЕЛ» из раздела «Статистические».

Формат этой функции предполагает выделение двух массивов данных: КОРРЕЛ (массив 1; массив»). Выделяем соответственно столбик с IQ и длиной прыжков.

В таблицах Excel реализована формула расчета только коэффициента Пирсона.

Расчет с помощью программы STATISTICA

Заносим данные по интеллекту и длине прыжка в поле исходных данных. Далее выбираем опцию «Непараметрические критерии», «Спирмена». Выделяем параметры для расчета и получаем следующий результат.


Как видно, расчет дал результат 0,024, что отличается от результата по Пирсону - 0,038, полученной выше с помощью Excel. Однако различия незначительны.

Использование корреляционного анализа в дипломных работах по психологии (пример)

Большинство тем выпускных квалификационных работ по психологии (дипломов, курсовых, магистерских) предполагают проведение корреляционного исследования (остальные связаны с выявлением различий психологических показателей в разных группах).

Сам термин «корреляция» в названиях тем звучит редко - он скрывается за следующими формулировками:

  • «Взаимосвязь субъективного ощущения одиночества и самоактуализации у женщин зрелого возраста»;
  • «Особенности влияния жизнестойкости менеджеров на успешность их взаимодействия с клиентами в конфликтных ситуациях»;
  • «Личностные факторы стрессоустойчивости сотрудников МЧС».

Таким образом, слова «взаимосвязь», «влияние» и «факторы» - верные признаки того, что методом анализа данных в эмпирическом исследовании должен быть корреляционный анализ.

Рассмотрим кратко этапы его проведения при написании дипломной работы по психологии на тему: «Взаимосвязь личностной тревожности и агрессивности у подростков».

1. Для расчета необходимы сырые данные, в качестве которых обычно выступают результаты тестирования испытуемых. Они заносятся в сводную таблицу и помещаются в приложение. Эта таблица устроена следующим образом:

  • каждая строка содержит данные на одного испытуемого;
  • каждый столбец содержит показатели по одной шкале для всех испытуемых.

№ испытуемого

Личностная тревожность

Агрессивность

2. Необходимо решить, какой из двух типов коэффициентов - Пирсона или Спирмена - будет использоваться. Напоминаем, что Пирсон дает более точный результат, но он чувствителен к выбросам в данных Коэффициенты Спирмена могут использоваться с любыми данными (кроме номинативной шкалы), поэтому именно они чаще всего используют в дипломах по психологии.

3. Заносим таблицу сырых данных в статистическую программу.

4. Рассчитываем значение.



5. На следующем этапе важно определить, значима ли взаимосвязь. Статистическая программа подсветила результаты красным, что означает, что корреляция статистически значимы при уровне значимости 0,05 (указано выше).

Однако полезно знать, как определить значимость вручную. Для этого понадобится таблица критических значений Спирмена.

Таблица критических значений коэффициентов Спирмена

Уровень статистической значимости

Число испытуемых

р=0,05

р=0,01

р=0,001

0,88

0,96

0,99

0,81

0,92

0,97

0,75

0,88

0,95

0,71

0,83

0,93

0,67

0,63

0,77

0,87

0,74

0,85

0,58

0,71

0,82

0,55

0,68

0,53

0,66

0,78

0,51

0,64

0,76

Нас интересует уровень значимости 0,05 и объем нашей выборки 10 человек. На пересечении этих данных находим значение критического Спирмена: Rкр=0,63.

Правило такое: если полученное эмпирическое значение Спирмена больше либо равно критическому, то он статистически значим. В нашем случае: Rэмп (0,66) > Rкр (0,63), следовательно, взаимосвязь между агрессивностью и тревожностью в группе подростков статистически значима.

5. В текст дипломной нужно вставлять данные в таблице формата word, а не таблицу из статистической программы. Под таблицей описываем полученный результат и интерпретируем его.

Таблица 1

Коэффициенты Спирмена агрессивности и тревожности в группе подростков

Агрессивность

Личностная тревожность

0,665*

* - статистически достоверна (р 0,05)

Анализ данных, приведенных в таблице 1, показывает, что существует статистически значимая положительная связьмежду агрессивностью и тревожностью подростков. Это означает, что чем выше личностная тревожность подростков, тем выше уровень их агрессивности. Такой результат дает основание предположить, что агрессия для подростков выступает одним из способов купирования тревожности. Испытывая неуверенность в себе, тревогу в связи с угрозами самооценке, особенно чувствительной в подростковом возрасте, подросток часто использует агрессивное поведение, таким непродуктивным способом снижая тревогу.

6. Можно ли при интерпретации связей говорить о влиянии? Можно ли сказать, что тревожность влияет на агрессивность? Строго говоря, нет. Выше мы показали, что корреляционная связь между явлениями носит вероятностный характер и отражает лишь согласованность изменений признаков в группе. При этом мы не можем сказать, что эта согласованность вызвана тем, что одно из явлений является причиной другого, влияет на него. То есть, наличие корреляции между психологическими параметрами не дает оснований говорить о существовании между ними причинно-следственной связи. Однако практика показывает, что термин «влияние» часто используется при анализе результатов корреляционного анализа.

Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимоза­висимостях только формируются.

Умение работать с данной статистической техникой важно и в силу того, что она используется как со­ставная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.

Целью корреляционного анализа является измерение стати­стической взаимозависимости между двумя или более переменными. В слу­чае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух - множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» - они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколь­ко методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них - метод Пирсона (Pearson) . Его применение ограничено следующими условиями:

Переменные должны быть измерены, как минимум, на интер­вальном уровне;

Связь между переменными должна носить линейный характер, т.е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватно­го отображения;

Коэффициент Пирсона вычисляется по следующей формуле: ,

где Xj и у/ - значения двух переменных, х и у - их средние значения, sx и sy - их стан­дартные отклонения; п - количество пар значений.

Анализируемые переменные должны быть распределены нор­мально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статисти­ческой взаимосвязи между переменными:

Направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

Интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной пе­ременной на основании значений другой.

Чтобы более наглядно представить себе особенности корреляцион­ного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный ана­лиз электората двух политических партий либеральной ориентации - Союза правых сил и «Яблока». Наша задача - понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федера­ции. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, по­скольку выборы в Чеченской Республике не проводились).

bgcolor=white>7.24
Случай Переменные (%)
«Яблоко» СПС
Республика Адыгея 4,63 3,92
Республика Алтай 3,38 5,40
Республика Башкортостан 3,95 6,04
Республика Бурятия 3,14 8,36
Республика Дагестан 0,39 1,22
Республика Ингушетия 2,89 0,38
Кабардино-Балкарская Республика 1,38 1,30
Республика Калмыкия 3,07 3,80
Карачаево-Черкесская Республика 4,17 2,94
Республика Карелия 9,66 10,25
Республика Коми 8,91 9,95
Республика Марий Эл 4,68
И т.д. (всего 88 случаев)

Таким образом, у нас есть две переменные - «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне реги­онов РФ.

Далее, в нашем распоряжении есть методический прием, кото­рый является одним из основных в статистике, - геометрическое представление. Геометрическим представлением называют представ­ление случая как точки в условном пространстве, формируемом «осями» - переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось Сформирует признак «поддержка СПС», ось Г- «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X- значение переменной «поддержка СПС» (процент, набранный в регионе дан­ной партией); по оси Г- значение переменной «поддержка "Ябло­ка"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай - (3,38; 5,4) и т.д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.

Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квад­ратов расстояний от наблюдаемых точек до прямой является минимальной).

Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициен­те корреляции (обозначается г), который и является числовым ре­зультатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г= 1 связь приобретает характер функциональной - все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статис­тической связи (подробнее об интерпретации коэффициента кор­реляции см. ниже).

Тип связи определяется наклоном линии регрессии. В коэффици­енте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак « + » традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.

Сегодня коэффициент корреляции Пирсона можно легко подсчи­тать с помощью всех компьютерных пакетов программ статистическо­го анализа (SPSS, Statistica, NCSS и др.) и даже в широко распростра­ненной программе Excel (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.

Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод - именно зри­тельная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется беспо­лезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т.е. нетипичные, резко выделяющиеся случаи.

Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистра­ли», тенденции связи переменных. Это точка, представляющая дан­ные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт- Петербурга.

Можно скорректировать данные анализа, удалив сильно отклоня­ющиеся наблюдения, т.е. произведя «чистку выбросов». В силу специ­фики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.

Удалив только один из 88 случаев - Самарскую область, - мы по­лучим значение коэффициента корреляции, отличное от полученно­го ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 - это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской об­ластям, получим еще более высокую плотность: 0,77.

Впрочем, чисткой выбросов не следует увлекаться: сокращая ко­личество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых кри­териев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ - содержательно понять, с чем связано наличие «выброса». Так, в нашем примере не­типичное положение Самарской области в признаковом простран­стве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.

Возвратимся к нашему исследованию. Мы выяснили, что голосо­вание за СПС и «Яблоко» довольно плотно коррелирует между собой на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие - в сельских районах. Мы можем выдвинуть гипотезу, что од­ним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего операционализировать через переменную «доля сельского населения» или «доля городского населения». Такая статистика существует по каждо­му субъекту Федерации.

Теперь в наших исходных данных появляется третья переменная - пусть это будет «доля сельского населения».

Чисто технически мы можем вычислять каждый парный коэффици­ент корреляции отдельно, но удобнее сразу получить матрицу интер­корреляций (матрицу парных корреляций). Матрица обладает диаго­нальной симметрией. В нашем случае она будет выглядеть следующим образом:

Мы получили статистически значимые коэффициенты корреля­ции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Мож­но заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».

Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская области и Усть-Ордынский Бурятский АО) плотности коэффициента для СПС увеличивается до -0,65.

В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых пе­ременных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.

Интерпретация интенсивности связи

Мы подошли к проблеме интерпретации интенсивности связи на ос­нове значения коэффициента корреляции Пирсона.

Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Тра­диционной можно считать следующую схему интерпретации данного коэффициента:

Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораз­до большей степени опирающихся на количественные данные, не­жели наука политическая (например, в экономике). В эмпиричес­ких исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 - случай просто уникаль­ный. Это связано прежде всего с особенностями мотивации поли­тического поведения - сложной, многофакторной, нередко ирра­циональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию, не может целиком подчи­няться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:

0,4 > г> 0,3 - слабая корреляция;

0,6 > г> 0,4 - средняя корреляция;

Г> 0,7 - сильная корреляция.

Существует еще одна полезная процедура, позволяющая оце­нить значимость коэффициента корреляции в процессе вычисле­ния коэффициента детерминации, который представляет собой г, возведенный в квадрат (г 2). Смысл процедуры состоит в том, что при возведении в квадрат низкие коэффициенты потеряют «в весе»

гораздо сильнее, чем высокие. Так, 0,9 2 = 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2 = 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2 = 0,42. Несколько упрощая реальное положение дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.


1991 1993 1995 19961 1999 2000 2003 2004
1991 1
1993 0,83 1
1995 0,52 0,66 1
1996 0,43 0,47 0,76 і
1999 0,14 0,26 0,61 0,56 1
2000 0,13 0,15 0,34 0,47 0,74 1
2003 0,04 0,13 0,36 0,38 0,81 0,75 1
2004 0,04 0,10 0,11 0,21 0,55 0,66 0,73 1

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г= 0,76; 1999 - 2000: г = 0,74; 2003 - 2004: г= 0,73). На максимальной времен­ной дистанции - между президентскими и парламентскими выбора­ми 1991 - 1993 и 2003 - 2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени проис­ходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парла­ментских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определен­ная преемственность обнаруживается на протяжении восьми лет, в те­чение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свиде­тельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электораль­ной культуры территорий.

Другие коэффициенты корреляции

Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим чис­лом категорий)?

гораздо сильнее, чем высокие. Так, 0,9 2= 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2= 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2= 0,42. Несколько упрощая реальное положе­ние дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обна­ружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной ха­рактеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных ре­гионов России.

Устойчивость пропорционального распределения явки по субъ­ектам Федерации достаточно просто проверяется методом корреля­ционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991 - 2004 гг. довольно четко демонстрирует существующую тенденцию. Статис­тическая связь наиболее сильна внутри одного электорального цик­ла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

Любой закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследований относится к задачам статистического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный, ковариационный анализ и анализ таблиц сопряженности.

    Существует ли связь между исследуемыми переменными?

    Как измерить тесноту связей?

Общая схема взаимосвязи параметров при статистическом исследовании приведена на рис. 1.

На рисунке S – модель исследуемого реального объекта, Объясняющие (независимые, факторные) переменные описывают условия функционирования объекта. Случайные факторы – это факторы, влияние которых трудно учесть или влиянием которых в данный момент пренебрегают. Результирующие (зависимые, объясняемые) переменные характеризуют результат функционирования объекта.

Выбор метода анализа взаимосвязи осуществляется с учетом природы анализируемых переменных.

Корреляционный анализ - метод обработки статистическихданных, заключающийся в изучении связи между переменными.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует.

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 1) и нелинейные (см. рис. 2). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

Направление связи является положительным, если увеличение значения одного признака приводит к увеличению значения второго (см. рис. 3) и отрицательным, если увеличение значения одного признака приводит к уменьшению значения второго (см. рис. 4).

Зависимости, имеющие только положительные или только отрицательные направленности, называются монотонными.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.


Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

1.4 Этапы корреляционного анализа

Практическая реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

1.5 Коэффициенты корреляции

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

Дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

Ранговой корреляции Спирмена (Spearmen"s rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

Точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

J - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

Тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах.

Линейная связь между переменными X i и X j оценивается коэффициентом корреляции:

,


где X i и X j – исследуемые переменные; mX i и mX j – математические ожидания переменных; σ X и σ X – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

,

или по преобразованной формуле:

,

где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); x i , x j – оценки математических ожиданий; S Xi , S Xj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин X i и X j коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь.

1.6 Нормированный коэффициент корреляции Браве-Пирсона

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений x i и y i согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона () относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:

Из формулы видно, что для вычисления необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего . Зная эти значения, находятся суммы . Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Пример 1.10 студентам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y- среднее время решения вербальных заданий тестов.

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столбцы, необходимые для расчета по формуле.

Таблица 1 – Условия задачи

№ испытуемых x y х i - (х i -) 2 y i - (y i - ) 2
1 19 17 -16,7 278,89 -7,2 51,84 120,24
2 32 7 -3,7 13,69 -17,2 295,84 63,64
3 33 17 -2,7 7,29 -7,2 51,84 19,44
4 44 28 8,3 68,89 3,8 14,44 31,54
5 28 27 -7,7 59,29 2,8 7,84 -21,56
6 35 31 -0,7 0,49 6,8 46,24 -4,76
7 39 20 3,3 10,89 -4,2 17,64 -13,86
8 39 17 3,3 10,89 -7,2 51,84 -23,76
9 44 35 8,3 68,89 10,8 116,64 89,64
10 44 43 8,3 68,89 18,8 353,44 156,04
Сумма 357 242 588,1 1007,6 416,6
Среднее 35,7 24,2

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:

Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. r крит =0,72 > 0,54 , следовательно, гипотеза Н 1 отвергается и принимается гипотеза H 0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.

1.7 Коэффициент ранговой корреляции Спирмена

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():

где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.

Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений x i и y i .

Когда ранги всех значений x i и y i строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений x i и y i совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy) 2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

Если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

Когда значения x i и (или) y i заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 2. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:

x i ,кг~55; 45; 43; 47; 47; 51; 48; 60; 53;50

y i , кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Расчет рангового коэффициента корреляции Спирмена произведем по формуле:

где: d x и d y - ранги показателей х и у ;

n - число коррелируемых пар или исследуемых.

2 Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.

Таблица 2 – Данные тестирования

x i d x y i d y
55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0
= 0 = 186,5

Тогда

3. Сравнить расчетное значение рангового коэффициента корреляции(r ф =-0,13) с табличным значением для n = 10 при α = 5% и сделать вывод.

1) т.к. r ф = -0,13 < 0, то между данными выборок наблюдается прямая отрицательная взаимосвязь, т.е. увеличением показателей веса вызывает снижение максимального количество сгибаний и разгибаний рук в упоре лежа в группе исследуемых;

2) т.к. r ф = -0,13 < r st = 0,64 для n = 10 при α = 5%, то с уверенностью Р = 95% можно говорить о том, что выявленная зависимость недостоверна.

1.8 Основные свойства коэффициентов корреляции

К основным свойствам коэффициента корреляции необходимо отнести следующие:

Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи;

Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1;

При независимом варьировании признаков, когда связь между ними отсутствует, r= 0;

При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный знак и находится в пределах от 0 до +1, т.е. 0 < r < 1;

При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1, т.е. -1 < r <0;

Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если r = ±1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y;

Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы f= n –2, где n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

1.9 Проверка значимости коэффициентов корреляции

Для проверки значимости коэффициентов корреляции чаще всего используют распределение Стьюдента и условие:

, f = N – 2, α = 0,05.


Если условие выполняется, то гипотеза об отсутствии корреляционной связи принимается.

1.10 Критические значения коэффициента парной корреляции

Таблица 3 - Критические значения коэффициента парной корреляции при α=0,05

Для проверки значимости коэффициента парной корреляции нужно сравнить его значение с табличным (критическим) значением r, которое приведено в таблице 3. Для пользования этой таблицей нужно знать число степеней свободы f = N – 2 и выбрать определенный уровень значимости, например равный 0,05. Такое значение уровня значимости называют еще 5%-ным уровнем риска, что соответствует вероятности верного ответа при проверке нашей гипотезы Р = 1 – α = 0,95, или 95%. Это значит, что в среднем только в 5% случаев возможна ошибка при проверке гипотезы.

В практических исследованиях 5%-ный уровень риска применяется наиболее часто. Но экспериментатор всегда свободен в выборе уровня значимости, и возможны ситуации, в которых, например, требуется 1%-ный уровень риска. При этом возрастает надежность ответа. Проверка гипотезы сводится к сравнению абсолютной величины коэффициента парной корреляции с критическим значением. Если экспериментально найденное значение r меньше критического, то нет оснований считать, что имеется тесная линейная связь между параметрами, а если больше или равно, то гипотеза о корреляционной линейной связи не отвергается.

2. РЕШЕНИЕ ЗАДАЧИ

Таблица 1 – Условие задачи

Таблица 2 – Функция отклика

У1 65 60 63 46 47 47 56 54
У2 55 47 46 47 58 56 49 61
УЗ 55 51 61 57 58 53 55 52

2.2 Определение центра плана (основной уровень) и уровня варьирования факторов

Находим центр плана:

.

Находим полуразмах:


Рассчитываем и оформляем в виде таблицы.

,

,

,

Таблица 3 – Центр плана и полуразмах

Рассчитываем нижний уровень варьирования факторов:

Рассчитываем верхний уровень варьирования факторов:

2.3 Построение матрицы планирования

Так как мы имеем 2 уровня варьирования факторов и 3 фактора, то получаем матрицу . Число опытов равно 8.

Таблица 3 – Матрица планирования типа

№ опыта
1 + + -
2 + + +
3 + - +
4 + - -
5 - + -
6 - + +
7 - - +
8 - - -

Составляем расширенную матрицу планирования для того, чтобы учесть взаимодействие факторов.

Таблица 4 – Расширенная матрица планирования

№ опыта
1 + + + - + - - - 65 55 55 58,3
2 + + + + + + + + 60 47 51 52,7
3 + + - + - + - - 63 46 61 56,7
4 + + - - - - + + 46 47 57 50
5 + - + - - + - + 47 58 58 54,3
6 + - + + - - + - 47 56 53 52
7 + - - + + - - + 56 49 55 53,3
8 + - - - + + + - 54 61 52 55,7

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

Для проверки однородности дисперсии был выбран критерий Кохрена. Для этого рассчитываем дисперсию в каждом опыте по формуле:

.

Условия проверки однородности дисперсий по критерию Кохрена:


Для уровня значимости 0,05 равна 0,32.

<, следовательно, дисперсия однородна и измерения в разных сериях равноточны.

2.5 Коэффициенты уравнения регрессии

Находим коэффициенты уравнения регрессии.

Следовательно, уравнение регрессии примет вид:

2.6 Дисперсия воспроизводимости

Вычисляем значение дисперсии воспроизводимости по формуле:

2.7 Проверка значимости коэффициентов уравнения регрессии

Проверяем значимость коэффициентов уравнения регрессии по критерию Стьюдента:

Условие значимости Для уровня значимости α = 0,05 и числа степеней свободы f = N - 1 =8 - 1 = 7 находим табличное значение критерия Стьюдента

Сравниваем расчетное значение с табличным и видим, что значение незначительные и их коэффициенты следует исключить из уравнения регрессии. Так как коэффициенты получились незначимы и мы не имеем возможности заново поставить новый эксперимент и продолжаем вычисления, выбрав наиболее близкие к значимым коэффициенты.

Уравнение регрессии примет вид:

2.8 Проверка адекватности уравнения регрессии

Для проверки используется критерий Фишера:

где d – количество коэффициентов уравнения регрессии.

Находим значения :

Найдем значение

Находим табличное значение критерия Фишера для степеней свободы

Сравниваем условие <, значит, модель адекватна.

Уравнение регрессии имеет вид:

Анализ значимости коэффициентов уравнении регрессии показал, что влияние всех факторов незначимо.

Модель адекватна, так как критерий адекватности меньше табличного.

Измерения в различных серий равноточны.

ЗАКЛЮЧЕНИЕ

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном в 1886 году. Однако точную формулу для подсчета коэффициента корреляции разработал его ученик Карл Пирсон.

Задачи с одним выходным параметром имеют очевидные преимущества. Но на практике чаще всего приходится учитывать несколько выходных параметров. Иногда их число довольно велико. Так, например, при производстве резиновых и пластмассовых изделий приходится учитывать физико-механические, технологические, экономические, художественно-эстетические и другие параметры (прочность, эластичность, относительное удлинение и т.д.). Математические модели можно построить для каждого из параметров, но одновременно оптимизировать несколько функций невозможно.

Обычно оптимизируется одна функция, наиболее важная с точки зрения цели исследования, при ограничениях, налагаемых другими функциями. Поэтому из многих выходных параметров выбирается один в качестве параметра оптимизации, а остальные служат ограничениями. Всегда полезно исследовать возможность уменьшения числа выходных параметров. Для этого и используется корреляционный анализ.

С использованием результатов корреляционного анализа исследователь может делать определённые выводы о наличии и характере взаимозависимости, что уже само по себе может представлять существенную информацию об исследуемом объекте. Результаты могут подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.

Особенно реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понятны. Это может касаться изучения очень сложных систем различного характера: как технических, так и социальных.

СПИСОК ЛИТЕРАТУРЫ

1 Сидоренко Е.В. Методы математической обработки в психологии. Спб.: ООО «Речь», 2000. – 350 с.

2 Лекция на тему: "Корреляционный анализ""// www.kgafk.ru, 2006, 8 с.

3 Ковалев В.В, Волкова О.Н., Анализ хозяйственной деятельности предприятия//polbu.ru, 2005, 2 с.

4 Поляков Л.Е., Коэффициент ранговой корреляции Спирмена//www.eduhmao.ru, 1971, 2 с.

5 Бондарь А.Г., Статюха Г.А. Планирование эксперимента в химической технологии. Киев: Высшая школа, 1976 – 335 с.

6 Адлер Ю.П., Грановский Ю.В., Маркова Е.В. Планирование эксперимента при поиске оптимальных условий. М.: Наука, 1976.–278 с.

7 Андерсон Т., Введение в многомерный статистический анализ//www.ami.nstu.ru, 1963, 24 с.