Коэффициент регрессии статистика. Множественное парное уравнение регрессии: оценка важности связи

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

При линейном типе связи между двумя изучаемыми признаками кроме расчета корреляций применяется расчет коэффициента регрессии.

В случае прямолинейной корреляционной связи каждому из изменений одного признака соответствует вполне определенное изменение другого признака. Однако коэффициент корреляции показывает эту связь лишь в относительных величинах - в долях единицы. С помощью же регрессионного анализа эту величину связи получают в именованных единицах. Та величина, на которую в среднем изменяется первый признак при изменении второго на единицу измерения, называется коэффициентом регрессии.

В отличие от корреляционного регрессионный анализ дает более широкую информацию, поскольку вычислением двух коэффициентов регрессии Rx/y и Rу/х возможно определить как зависимость первого признака от второго, так и второго от первого. Выражение регрессионной связи с помощью уравнения позволяет по определенному значению одного признака установить значение другого признака.

Коэффициент регрессии R представляет собой произведение коэффициента корреляции на отношение квадратических отклонений, вычисленных для каждого признака. Рассчитывается он по формуле

где, R - коэффициент регрессии; SХ - среднее квадратическое отклонение первого признака, который изменяется в связи с изменением второго; SУ - среднее квадратическое отклонение второго признака в связи с изменением которого изменяется первый признак; r - коэффициент корреляции между этими признаками; х - функция; у -аргумент.

По этой формуле определяется величина значения х при изменении у на единицу измерения. При необходимости обратного расчета можно найти величину у при изменении х на единицу измерения по формуле:


В этом случае активная роль в изменении одного признака по отношению к другому меняется, по сравнению с предыдущей формулой аргумент становится функцией и наоборот. Величины SX и SY принимаются в именованном выражении.

Между значениями г и R имеется четкая взаимосвязь, выражающаяся в том, что произведение регрессии х по у на регрессию у по х равно квадрату коэффициента корреляции, т. е.

Rx/y * Ry/x = r2

Это свидетельствует, что коэффициент корреляции представляет собой среднюю геометрическую из обоих значений коэффициентов регрессии данной выборки. Данная формула может быть использована для проверки правильности расчетов.

При обработке цифрового материала на счетных машинах могут применяться развернутые формулы коэффициента регрессии:

R или


Для коэффициента регрессии может быть рассчитана его ошибка репрезентативности. Ошибка коэффициента регрессии равна ошибке коэффициента корреляции, умноженной на отношение квадратических отношений:

Критерий достоверности коэффициента регрессии вычисляется по обычной формуле:

в итоге он равен критерию достоверности коэффициента корреляции:

Достоверность величины tR устанавливается по таблице Стьюдента при  = n - 2, где n - число пар наблюдений.

Криволинейная регрессия.

РЕГРЕССИЯ, КРИВОЛИНЕЙНАЯ . Любая нелинейная регрессия, в которой уравнение регрессии для изменений в одной переменной (у) как функции t изменений в другой (х) является квадратичным, кубическим или уравнение более высокого порядка. Хотя математически всегда возможно получить уравнение регрессии, которое будет соответствовать каждой "загогулине" кривой, большинство этих пертурбаций возникает в результате ошибок в составлении выборки или измерении, и такое "совершенное" соответствие ничего не дает. Не всегда легко определить, соответствует ли криволинейная регрессия набору данных, хотя существуют статистические тесты для определения того, значительно ли увеличивает каждая более высокая степень уравнения степ совпадения этого набора данных.

Аппроксимация кривой выполняется тем же путем с использованием метода наименьших квадратов, что и выравнивание по прямой линии. Линия регрессии должна удовлетворять условию минимума суммы квадратов расстояний до каждой точки корреляционного поля. В данном случае в уравнении (1) у представляет собой расчетное значение функции, определенное при помощи уравнения выбранной криволинейной связи по фактическим значениям х j. Например, если для аппроксимации связи выбрана парабола второго порядка, то y = а + b x + cx2, (14) .а разность между точкой, лежащей на кривой, и данной точкой корреляционного поля при соответствующем аргументе можно записать аналогично уравнению (3) в виде yj = yj (a + bx + cx2) (15) При этом сумма квадратов расстояний от каждой точки корреляционного поля до новой линии регрессии в случае параболы второго порядка будет иметь вид: S 2 = yj 2 = 2 (16) Исходя из условия минимума этой суммы, частные производные S 2 по а, b и с приравниваются к нулю. Выполнив необходимые преобразования, получим систему трех уравнений с тремя неизвестными для определения a, b и с. , y = m a + b x + c x 2 yx = a x + b x 2 + c x 2. yx2 = a x 2 + b x 3 + c x4 . (17). Решая систему уравнений относительно a, b и с, находим численные значения коэффициентов регрессии. Величины y, x, x2, yx, yx2, x3, x4.находятся непосредственно по данным производственных измерений. Оценкой тесноты связи при криволинейной зависимости служит теоретическое корреляционное отношение xу, представляющее собой корень квадратный из соотношения двух дисперсий: среднего квадрата р2 отклонений расчетных значений y" j функции по найденному уравнению регрессии от среднеарифметического значения Y величины y к среднему квадрату отклонений y2 фактических значений функции y j от ее среднеарифметического значения: xу = { р2 / y2 } 1/2 = { (y" j - Y)2 / (y j - Y)2 } 1/2 (18) Квадрат корреляционного отношения xу2 показывает долю полной изменчивости зависимой переменной у, обусловленную изменчивостью аргумента х. Этот показатель называется коэффициентом детерминации. В отлично от коэффициента корреляции величина корреляционного отношения может принимать только положительные значения от 0 до 1. При полном отсутствии связи корреляционное отношение равно нулю, при наличии функциональной связи оно равно единице, а при наличии регрессионной связи различной тесноты корреляционное отношение принимает значения между нулем и единицей. Выбор типа кривой имеет большое значение в регрессионном анализе, поскольку от вида выбранной взаимосвязи зависит точность аппроксимации и статистические оценки тесноты связи. Наиболее простой метод выбора типа кривой состоит в построении корреляционных полей и в подборе соответствующих типов регрессионных уравнений по расположению точек на этих полях. Методы регрессионного анализа позволяют отыскивать численные значения коэффициентов регрессии для сложных видов взаимосвязи параметров, описываемых, например, полиномами высоких степеней. Часто вид кривой может быть определен на основе физической сущности рассматриваемого процесса или явления. Полиномы высоких степеней имеет смысл применять для описания быстро меняющихся процессов в том случае, если пределы колебания параметров этих процессов значительные. Применительно к исследованиям металлургического процесса достаточно использовать кривые низших порядков, например параболу второго порядка. Эта кривая может иметь один экстремум, что, как показала практика, вполне достаточно для описания различных характеристик металлургического процесса. Результаты расчетов параметров парной корреляционной взаимосвязи были бы достоверны н представляли бы практическую ценность в том случае, если бы используемая информация была получена для условий широких пределов колебаний аргумента при постоянстве всех прочих параметров процесса. Следовательно, методы исследования парной корреляционной взаимосвязи параметров могут быть использованы для решения практических задач лишь тогда, когда существует уверенность в отсутствии других серьезных влияний на функцию, кроме анализируемого аргумента. В производственных условиях вести процесс таким образом продолжительное время невозможно. Однако если иметь информацию об основных параметрах процесса, влияющих на его результаты, то математическим путем можно исключить влияние этих параметров и выделить в “чистом виде” взаимосвязь интересующей нас функции и аргумента. Такая связь называется частной, или индивидуальной. Для ее определения используется метод множественной регрессии.

Корреляционное отношение.

Корреляционное отношение и индекс корреляции - это числовые характеристики, тесно связанные понятием случайной величины, а точнее с системой случайных величин. Поэтому для введения и определения их значения и роли необходимо пояснить понятие системы случайных величин и некоторые свойства присущие им.

Два или более случайные величины, описывающих некоторое явление называют системой или комплексом случайных величин.

Систему нескольких случайных величин X, Y, Z, …, W принято обозначать через (X, Y, Z, …, W).

Например, точка на плоскости описывается не одной координатой, а двумя, а в пространстве - даже тремя.

Свойства системы нескольких случайных величин не исчерпываются свойствами отдельных случайных величин, входящих в систему, а включают также взаимные связи (зависимости) между случайными величинами. Поэтому при изучении системы случайных величин следует обращать внимание на характер и степень зависимости. Эта зависимость может быть более или менее ярко выраженной, более или менее тесной. А в других случаях случайные величины оказаться практически независимыми.

Случайная величина Y называется независимой от случайной величины Х, если закон распределения случайной величины Y не зависит от того какое значение приняла величина Х.

Следует отметить, что зависимость и независимость случайных величин есть всегда явление взаимное: если Y не зависит от Х, то и величина Х не зависит от Y. Учитывая это, можно привести следующее определение независимости случайных величин.

Случайные величины Х и Y называются независимыми, если закон распределения каждой из них не зависит от того, какое значение приняла другая. В противном случае величины Х и Y называются зависимыми.

Законом распределения случайной величины называется всякое соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями.

Понятие "зависимости" случайных величин, которым пользуются в теории вероятностей, несколько отличается от обычного понятия "зависимости" величин, которым пользуются в математике. Так, математик под "зависимостью" подразумевает только один тип зависимости - полную, жесткую, так называемую функциональную зависимость. Две величины Х и Y называются функционально зависимыми, если, зная значение одного из них, можно точно определить значение другой.

В теории вероятностей встречаются несколько с иным типом зависимости - вероятностной зависимостью. Если величина Y связана с величиной Х вероятностной зависимостью, то, зная значение Х, нельзя точно указать значение Y, а можно указать её закон распределения, зависящий от того, какое значение приняла величина Х.

Вероятностная зависимость может быть более или менее тесной; по мере увеличения тесноты вероятностной зависимости она все более приближается к функциональной. Т.о., функциональную зависимость можно рассматривать как крайний, предельный случай наиболее тесной вероятностной зависимости. Другой крайний случай - полная независимость случайных величин. Между этими двумя крайними случаями лежат все градации вероятностной зависимости - от самой сильной до самой слабой.

Вероятностная зависимость между случайными величинами часто встречается на практике. Если случайные величины Х и Y находятся в вероятностной зависимости, то это не означает, что с изменением величины Х величина Y изменяется вполне определенным образом; это лишь означает, что с изменением величины Х величина Y имеет тенденцию также изменяться (возрастать или убывать при возрастании Х). Эта тенденция соблюдается лишь в общих чертах, а в каждом отдельном случае возможны отступления от неё.

Регрессионный анализ — это статистический метод исследования, позволяющий показать зависимость того или иного параметра от одной либо нескольких независимых переменных. В докомпьютерную эру его применение было достаточно затруднительно, особенно если речь шла о больших объемах данных. Сегодня, узнав как построить регрессию в Excel, можно решать сложные статистические задачи буквально за пару минут. Ниже представлены конкретные примеры из области экономики.

Виды регрессии

Само это понятие было введено в математику в 1886 году. Регрессия бывает:

  • линейной;
  • параболической;
  • степенной;
  • экспоненциальной;
  • гиперболической;
  • показательной;
  • логарифмической.

Пример 1

Рассмотрим задачу определения зависимости количества уволившихся членов коллектива от средней зарплаты на 6 промышленных предприятиях.

Задача. На шести предприятиях проанализировали среднемесячную заработную плату и количество сотрудников, которые уволились по собственному желанию. В табличной форме имеем:

Количество уволившихся

Зарплата

30000 рублей

35000 рублей

40000 рублей

45000 рублей

50000 рублей

55000 рублей

60000 рублей

Для задачи определения зависимости количества уволившихся работников от средней зарплаты на 6 предприятиях модель регрессии имеет вид уравнения Y = а 0 + а 1 x 1 +…+а k x k , где х i — влияющие переменные, a i — коэффициенты регрессии, a k — число факторов.

Для данной задачи Y — это показатель уволившихся сотрудников, а влияющий фактор — зарплата, которую обозначаем X.

Использование возможностей табличного процессора «Эксель»

Анализу регрессии в Excel должно предшествовать применение к имеющимся табличным данным встроенных функций. Однако для этих целей лучше воспользоваться очень полезной надстройкой «Пакет анализа». Для его активации нужно:

  • с вкладки «Файл» перейти в раздел «Параметры»;
  • в открывшемся окне выбрать строку «Надстройки»;
  • щелкнуть по кнопке «Перейти», расположенной внизу, справа от строки «Управление»;
  • поставить галочку рядом с названием «Пакет анализа» и подтвердить свои действия, нажав «Ок».

Если все сделано правильно, в правой части вкладки «Данные», расположенном над рабочим листом «Эксель», появится нужная кнопка.

в Excel

Теперь, когда под рукой есть все необходимые виртуальные инструменты для осуществления эконометрических расчетов, можем приступить к решению нашей задачи. Для этого:

  • щелкаем по кнопке «Анализ данных»;
  • в открывшемся окне нажимаем на кнопку «Регрессия»;
  • в появившуюся вкладку вводим диапазон значений для Y (количество уволившихся работников) и для X (их зарплаты);
  • подтверждаем свои действия нажатием кнопки «Ok».

В результате программа автоматически заполнит новый лист табличного процессора данными анализа регрессии. Обратите внимание! В Excel есть возможность самостоятельно задать место, которое вы предпочитаете для этой цели. Например, это может быть тот же лист, где находятся значения Y и X, или даже новая книга, специально предназначенная для хранения подобных данных.

Анализ результатов регрессии для R-квадрата

В Excel данные полученные в ходе обработки данных рассматриваемого примера имеют вид:

Прежде всего, следует обратить внимание на значение R-квадрата. Он представляет собой коэффициент детерминации. В данном примере R-квадрат = 0,755 (75,5%), т. е. расчетные параметры модели объясняют зависимость между рассматриваемыми параметрами на 75,5 %. Чем выше значение коэффициента детерминации, тем выбранная модель считается более применимой для конкретной задачи. Считается, что она корректно описывает реальную ситуацию при значении R-квадрата выше 0,8. Если R-квадрата<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ коэффициентов

Число 64,1428 показывает, каким будет значение Y, если все переменные xi в рассматриваемой нами модели обнулятся. Иными словами можно утверждать, что на значение анализируемого параметра оказывают влияние и другие факторы, не описанные в конкретной модели.

Следующий коэффициент -0,16285, расположенный в ячейке B18, показывает весомость влияния переменной Х на Y. Это значит, что среднемесячная зарплата сотрудников в пределах рассматриваемой модели влияет на число уволившихся с весом -0,16285, т. е. степень ее влияния совсем небольшая. Знак «-» указывает на то, что коэффициент имеет отрицательное значение. Это очевидно, так как всем известно, что чем больше зарплата на предприятии, тем меньше людей выражают желание расторгнуть трудовой договор или увольняется.

Множественная регрессия

Под таким термином понимается уравнение связи с несколькими независимыми переменными вида:

y=f(x 1 +x 2 +…x m) + ε, где y — это результативный признак (зависимая переменная), а x 1 , x 2 , …x m — это признаки-факторы (независимые переменные).

Оценка параметров

Для множественной регрессии (МР) ее осуществляют, используя метод наименьших квадратов (МНК). Для линейных уравнений вида Y = a + b 1 x 1 +…+b m x m + ε строим систему нормальных уравнений (см. ниже)

Чтобы понять принцип метода, рассмотрим двухфакторный случай. Тогда имеем ситуацию, описываемую формулой

Отсюда получаем:

где σ — это дисперсия соответствующего признака, отраженного в индексе.

МНК применим к уравнению МР в стандартизируемом масштабе. В таком случае получаем уравнение:

в котором t y , t x 1, … t xm — стандартизируемые переменные, для которых средние значения равны 0; β i — стандартизированные коэффициенты регрессии, а среднеквадратическое отклонение — 1.

Обратите внимание, что все β i в данном случае заданы, как нормируемые и централизируемые, поэтому их сравнение между собой считается корректным и допустимым. Кроме того, принято осуществлять отсев факторов, отбрасывая те из них, у которых наименьшие значения βi.

Задача с использованием уравнения линейной регрессии

Предположим, имеется таблица динамики цены конкретного товара N в течение последних 8 месяцев. Необходимо принять решение о целесообразности приобретения его партии по цене 1850 руб./т.

номер месяца

название месяца

цена товара N

1750 рублей за тонну

1755 рублей за тонну

1767 рублей за тонну

1760 рублей за тонну

1770 рублей за тонну

1790 рублей за тонну

1810 рублей за тонну

1840 рублей за тонну

Для решения этой задачи в табличном процессоре «Эксель» требуется задействовать уже известный по представленному выше примеру инструмент «Анализ данных». Далее выбирают раздел «Регрессия» и задают параметры. Нужно помнить, что в поле «Входной интервал Y» должен вводиться диапазон значений для зависимой переменной (в данном случае цены на товар в конкретные месяцы года), а в «Входной интервал X» — для независимой (номер месяца). Подтверждаем действия нажатием «Ok». На новом листе (если так было указано) получаем данные для регрессии.

Строим по ним линейное уравнение вида y=ax+b, где в качестве параметров a и b выступают коэффициенты строки с наименованием номера месяца и коэффициенты и строки «Y-пересечение» из листа с результатами регрессионного анализа. Таким образом, линейное уравнение регрессии (УР) для задачи 3 записывается в виде:

Цена на товар N = 11,714* номер месяца + 1727,54.

или в алгебраических обозначениях

y = 11,714 x + 1727,54

Анализ результатов

Чтобы решить, адекватно ли полученное уравнения линейной регрессии, используются коэффициенты множественной корреляции (КМК) и детерминации, а также критерий Фишера и критерий Стьюдента. В таблице «Эксель» с результатами регрессии они выступают под названиями множественный R, R-квадрат, F-статистика и t-статистика соответственно.

КМК R дает возможность оценить тесноту вероятностной связи между независимой и зависимой переменными. Ее высокое значение свидетельствует о достаточно сильной связи между переменными «Номер месяца» и «Цена товара N в рублях за 1 тонну». Однако, характер этой связи остается неизвестным.

Квадрат коэффициента детерминации R 2 (RI) представляет собой числовую характеристику доли общего разброса и показывает, разброс какой части экспериментальных данных, т.е. значений зависимой переменной соответствует уравнению линейной регрессии. В рассматриваемой задаче эта величина равна 84,8%, т. е. статистические данные с высокой степенью точности описываются полученным УР.

F-статистика, называемая также критерием Фишера, используется для оценки значимости линейной зависимости, опровергая или подтверждая гипотезу о ее существовании.

(критерий Стьюдента) помогает оценивать значимость коэффициента при неизвестной либо свободного члена линейной зависимости. Если значение t-критерия > t кр, то гипотеза о незначимости свободного члена линейного уравнения отвергается.

В рассматриваемой задаче для свободного члена посредством инструментов «Эксель» было получено, что t=169,20903, а p=2,89Е-12, т. е. имеем нулевую вероятность того, что будет отвергнута верная гипотеза о незначимости свободного члена. Для коэффициента при неизвестной t=5,79405, а p=0,001158. Иными словами вероятность того, что будет отвергнута верная гипотеза о незначимости коэффициента при неизвестной, равна 0,12%.

Таким образом, можно утверждать, что полученное уравнение линейной регрессии адекватно.

Задача о целесообразности покупки пакета акций

Множественная регрессия в Excel выполняется с использованием все того же инструмента «Анализ данных». Рассмотрим конкретную прикладную задачу.

Руководство компания «NNN» должно принять решение о целесообразности покупки 20 % пакета акций АО «MMM». Стоимость пакета (СП) составляет 70 млн американских долларов. Специалистами «NNN» собраны данные об аналогичных сделках. Было принято решение оценивать стоимость пакета акций по таким параметрам, выраженным в миллионах американских долларов, как:

  • кредиторская задолженность (VK);
  • объем годового оборота (VO);
  • дебиторская задолженность (VD);
  • стоимость основных фондов (СОФ).

Кроме того, используется параметр задолженность предприятия по зарплате (V3 П) в тысячах американских долларов.

Решение средствами табличного процессора Excel

Прежде всего, необходимо составить таблицу исходных данных. Она имеет следующий вид:

  • вызывают окно «Анализ данных»;
  • выбирают раздел «Регрессия»;
  • в окошко «Входной интервал Y» вводят диапазон значений зависимых переменных из столбца G;
  • щелкают по иконке с красной стрелкой справа от окна «Входной интервал X» и выделяют на листе диапазон всех значений из столбцов B,C, D, F.

Отмечают пункт «Новый рабочий лист» и нажимают «Ok».

Получают анализ регрессии для данной задачи.

Изучение результатов и выводы

«Собираем» из округленных данных, представленных выше на листе табличного процессора Excel, уравнение регрессии:

СП = 0,103*СОФ + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

В более привычном математическом виде его можно записать, как:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данные для АО «MMM» представлены в таблице:

Подставив их в уравнение регрессии, получают цифру в 64,72 млн американских долларов. Это значит, что акции АО «MMM» не стоит приобретать, так как их стоимость в 70 млн американских долларов достаточно завышена.

Как видим, использование табличного процессора «Эксель» и уравнения регрессии позволило принять обоснованное решение относительно целесообразности вполне конкретной сделки.

Теперь вы знаете, что такое регрессия. Примеры в Excel, рассмотренные выше, помогут вам в решение практических задач из области эконометрики.

Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предвари­тельная стандартизация факторных показателей, то b 0 равняется сред­нему значению результативного показателя в совокупности. Коэффици­енты b 1 , b 2 , ..., b n показывают, на сколько единиц уровень результативно­го показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии ха­рактеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициен­тов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных урав­нений).

Линия регрессии - линия, которая точнее всего отражает распределение экспериментальных точек на диаграмме рассеяния и крутизна наклона которой характеризует зависимость между двумя интервальными переменными.

Линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M - объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .
57. Основные задачи теории корреляции.

Теория корреляции представляет собой аппарат, оценивающий тесноту связей между явлениями, которые находятся не только в причинно-следственных отношениях. С помощью теории корреляции оцениваются стохастические, но не причинные связи. Автором совместно с Лукацкой М. Л. предпринята попытка получить оценки для причинных связей. Однако вопрос о причинно-следственных отношениях явлений, о том, как опознать причину и следствие, остается открытым, и кажется, что на формальном уровне он принципиально не разрешим.

Теория корреляции и ее применен к анализу производства.

Теория корреляции, являющаяся одним из разделов математической статистики, позволяет сделать обоснованные предположения о возможных пределах, в которых с известной степенью надежности будет находиться исследуемый параметр, если другие статистически связанные с ним параметры получат определенные значения.

В теории корреляции принято выделять две основные задачи .

Первая задача теории корреляции - установить форму корреляционной связи, т.е. вид функции регрессии (линейная, квадратичная и т.д.).

Вторая задача теории корреляции - оценить тесноту (силу) корреляционной связи.

Теснота корреляционной связи (зависимости) У на X оценивается по величине рассеивания значений У вокруг условного среднего. Большое рассеивание свидетельствует о слабой зависимости У от X, малое рассеивание указывает на наличие сильной зависимости.
58. Корреляционная таблица и ее числовые характеристики.

На практике в результате независимых наблюдений над величинами X и Y, как правило, имеют дело не со всей совокупностью всех возможных пар значений этих величин, а лишь с ограниченной выборкой из генеральной совокупности, причем объем n выборочной совокупности определяется как количество имеющихся в выборке пар.

Пусть величина Х в выборке принимает значения x 1 , x 2 ,....x m , где количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке может повторяться. Пусть величина Y в выборке принимает значения y 1 , y 2 ,....y k , где k - количество различающихся между собой значений этой величины, причем в общем случае каждое из них в выборке также может повторяться. В этом случае данные заносят в таблицу с учетом частот встречаемости. Такую таблицу с группированными данными называют корреляционной.

Первым этапом статистической обработки результатов является составление корреляционной таблицы.

Y\X x 1 x 2 ... x m n y
y 1 n 12 n 21 n m1 n y1
y 2 n 22 n m2 n y2
...
y k n 1k n 2k n mk n yk
n x n x1 n x2 n xm n

В первой строке основной части таблицы в порядке возрастания перечисляются все встречающиеся в выборке значения величины X. В первом столбце также в порядке возрастания перечисляются все встречающиеся в выборке значения величины Y. На пересечении соответствующих строк и столбцов указываются частоты n ij (i=1,2,...,m; j=1,2,...,k) равные количеству появлений пары (x i ;y i) в выборке. Например, частота n 12 представляет собой количество появлений в выборке пары (x 1 ;y 1).

Так же n xi n ij , 1≤i≤m, сумма элементов i-го столбца, n yj n ij , 1≤j≤k, - сумма элементов j-ой строки и n xi = n yj =n

Аналоги формул, полученные по данным корреляционной таблицы, имеют вид:


59. Эмпирическая и теоретическая линии регрессии.

Теоретическая линия регрессии может быть рассчитана в этом случае по результатам отдельных наблюдений. Для решения системы нормальных уравнений нам потребуются те же данные: х, у, ху и хг. Мы располагаем данными об объеме производства цемента и объеме основных производственных фондов в 1958 г. Ставится задача: исследовать зависимость между объемом производства цемента (в натуральном выражении) и объемом основных фондов. [1 ]

Чем меньше теоретическая линия регрессии (рассчитанная по уравнению) отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации.

Процесс нахождения теоретической линии регрессии представляет собой выравнивание эмпирической линии регрессии на основе метода наименьших квадратов.

Процесс нахождения теоретической линии регрессии называется выравниванием эмпирической линии регрессии и заключается в выборе и обосновании типа; кривой и расчете параметров ее уравнения.

Эмпирическая регрессия строится по данным аналитической или комбинационной группировок и представляет собой зависимость групповых средних значений признака-результата от групповых средних значений признака-фактора. Графическим представлением эмпирической регрессии – ломаная линия, составленная из точек, абсциссами которых являются групповые средние значения признака-фактора, а ординатами – групповые средние значения признака-результата. Число точек равно числу групп в группировке.

Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если эмпирическая линия регрессии по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи между признаками. А если линия связи приближается к кривой, то это может быть связано с наличием криволинейной корреляционной связи.
60. Выборочные коэффициенты корреляции и регрессии.

Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r , который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r =0, то связь между признаками отсутствует. Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
Практическая значимость коэффициента корреляции определяется его величиной, возведенной в квадрат, получившая название коэффициента детерминации.
Регрессия, аппроксимируемая (приближенно описывающаяся) линейной функцией y = kX + b. Для регрессии У на X уравнение регрессии: `y x = ryx X + b; (1). Угловой коэффициент ryx прямой регрессии Y на X называется коэффициентом регрессии Y на X.

Если уравнение (1) отыскивается по выборочным данным, то оно называется выборочным уравнением регрессии . Соответственно, ryx - выборочный коэффициент регрессии Y на X, а b - выборочный свободный член уравнения. Коэффициент регрессии измеряет вариацию Y, приходящуюся на единицу вариации X. Параметры уравнения регрессии (коэффициенты ryx и b) находятся методом наименьших квадратов.
61. Оценка значимости коэффициента корреляции и тесноты корреляционной связи в генеральной совокупности

Значимость коэффициентов корреляции проверяемся по критерию Стьюдента:

где - среднеквадратическая ошибка коэффициента корреляции, которая определяется по формуле:

Если расчетное значение (выше табличного, то можно сделать заключение о том, что величина коэффициента корреляции является значимой. Табличные значения t находят по таблице значений критериев Стьюдента. При этом учитываются количество степеней свободы (V = п - 1)и уровень доверительной вероятности (в экономических расчетах обычно 0,05 или 0,01). В нашем примере количество степеней свободы равно: п - 1 = 40 - 1 = 39. При уровне доверительной вероятности Р = 0,05; t = 2,02. Поскольку (фактическое во всех случаях выше t-табличного, связь между результативным и факторными показателями является надежной, а величина коэффициентов корреляции - значимой.

Оценка коэффициента корреляции , вычисленная по ограниченной выборке, практически всегда отличается от нуля. Но из этого еще не следует, что коэффициент корреляции генеральной совокупности также отличен от нуля. Требуется оценить значимость выборочной величины коэффициента или, в соответствии с постановкой задач проверки статистических гипотез, проверить гипотезу о равенстве нулю коэффициента корреляции. Если гипотеза Н 0 о равенстве нулю коэффициента корреляции будет отвергнута, то выборочный коэффициент значим, а соответствующие величины связаны линейным соотношением. Если гипотеза Н 0 будет принята, то оценка коэффициента не значима, и величины линейно не связаны друг с другом (если по физическим соображениям факторы могут быть связаны, то лучше говорить о том, что по имеющимся ЭД эта взаимосвязь не установлена). Проверка гипотезы о значимости оценки коэффициента корреляции требует знания распределения этой случайной величины. Распределение величины  ik изучено только для частного случая, когда случайные величины U j и U k распределены по нормальному закону.

В качестве критерия проверки нулевой гипотезы Н 0 применяют случайную величину . Если модуль коэффициента корреляции относительно далек от единицы, то величина t при справедливости нулевой гипотезы распределена по закону Стьюдента с n – 2 степенями свободы. Конкурирующая гипотеза Н 1 соответствует утверждению, что значение  ik не равно нулю (больше или меньше нуля). Поэтому критическая область двусторонняя.
62. Вычисление выборочного коэффициента корреляции и построение выборочного уравнения прямой линии регрессии.

Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

Простая линейная регрессия позволяет найти линейную зависимость между одной входной и одной выходной переменными. Для этого определяется уравнение регрессии - это модель, отражающая зависимость значений Y, зависимой величины Y от значений х, независимой переменной х и генеральной совокупности, описывается уровнением:

где А0 - свободный член уравнения регрессии;

А1 - коэффициент уравнения регрессии

Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии регрессии, была бы минимальной. Подбор коэффициентов производится по методу наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную модель, которая наилучшим образом аппроксимирует зависимость между одной входной и одной выходной переменными.

КОЭФФИЦИЕНТ РЕГРЕССИИ

- англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на единицу своего изменения. Геометрически К. р. является угловым коэффициентом наклона прямой линии у.

Antinazi. Энциклопедия социологии , 2009

Смотреть что такое "КОЭФФИЦИЕНТ РЕГРЕССИИ" в других словарях:

    коэффициент регрессии - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN regression coefficient … Справочник технического переводчика

    Коэффициент регрессии - 35. Коэффициент регрессии Параметр модели регрессионного анализа Источник: ГОСТ 24026 80: Исследовательские испытания. Планирование эксперимента. Термины и определения …

    коэффициент регрессии - Коэффициент при независимой переменной в уравнении регрессии … Словарь социологической статистики

    КОЭФФИЦИЕНТ РЕГРЕССИИ - англ. coefficient, regression; нем. Regressionskoeffizient. Одна из характеристик связи между зависимой у и независимой переменной х. К. р. показывает, на сколько единиц увеличивается значение, принимаемое у, если переменная х изменится на… … Толковый словарь по социологии

    выборочный коэффициент регрессии - 2.44. выборочный коэффициент регрессии Коэффициент при переменной в уравнении кривой или поверхности регрессии Источник: ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения … Словарь-справочник терминов нормативно-технической документации

    Частный коэффициент регрессии - статистическая мера, обозначающая степень влияния независимой переменной на зависимую в ситуации, когда взаимовлияние всех остальных переменных в модели находится под контролем исследователя … Социологический словарь Socium

    РЕГРЕССИИ, ВЕС - Синоним понятия коэффициент регрессии … Толковый словарь по психологии

    КОЭФФИЦИЕНТ НАСЛЕДУЕМОСТИ - Показатель относительной доли генетической изменчивости в общей фенотипической вариации признака. Наиболее распространены следующие методы оценки наследуемости хозяйственно полезных признаков: где h2 коэффициент наследуемости; r внутриклассовая… … Термины и определения, используемые в селекции, генетике и воспроизводстве сельскохозяйственных животных

    - (R квадрат) это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной… … Википедия

    Коэффициент при независимой переменной в уравнении регрессии. Так, напр., в уравнении линейной регрессии, связывающей случайные величины Yи X, Р. к. b0 и b1 равны: где r корреляции коэффициент X и Y, . Вычисление оценок Р. к. (в ы б о р о ч н… … Математическая энциклопедия

Книги

  • Введение в эконометрику (CDpc) , Яновский Леонид Петрович, Буховец Алексей Георгиевич. Даны основы эконометрики и статистического анализа одномерных временных рядов. Большое внимание уделено классической парной и множественной регрессии, классическому и обобщенному методам…
  • Скорочтение. Эффективный тренажер (CDpc) , . Программа адресована пользователям, желающим в кратчайшие сроки овладеть методикой скоростного чтения. Курс построен по принципу "теория - практика" . Теоретический материал и практические…