Метод моментов как рассчитать примеры статистика. 4. Вычисление доверительного интервала для нормального распределения

Пусть, как и прежде, - исследуемая -мерная случайная величина, подчиняющаяся закону распределения где функция - плотность вероятности, если непрерывна, и вероятность если дискретна, зависит от некоторого, вообще говоря, многомерного параметра . И пусть мы хотим оценить неизвестное значениехэтого параметра, т. е. построить оценку 0 по имеющейся в нашем распоряжении выборке, состоящей из независимых наблюдений где

Метод моментов заключается в приравнивании определенного количества выборочных моментов к соответствующим теоретическим (т. е. вычисленным с использованием функции моментам исследуемой случайной величины, причем последние, очевидно, являются функциями от неизвестных параметров Рассматривая количество моментов, равное числу k подлежащих оценке параметров, и решая полученные уравнения относительно этих параметров, мы получаем искомые оценки. Таким образом, оценки по методу моментов неизвестных параметров являются решениями системы уравнений:

(очевидно, если анализируемая случайная величина дискретна, интегралы в левых частях (8.25) следует заменить соответствующими суммами типа

Число уравнений в системе (8.25) должно быть равным числу k оцениваемых параметров. Вопрос о том, какие именно моменты включать в систему (8.25) (начальные, центральные или их некоторые модификации типа коэффициентов асимметрии или эксцесса), следует решать, руководствуясь конкретными целями исследования и сравнительной простотой формы зависимости альтернативных теоретических характеристик от оцениваемых параметров . В статистической практике дело редко доходит даже до моментов четвертого порядка (исключение составляет, пожалуй, практика эксплуатации так называемой «системы кривых Пирсона», см., например, , однако этот чисто формальный аппарат подгонки эмпирического распределения под одну из теоретических кривых практически не в состоянии, с нашей точки зрения, решать сколь-нибудь интересные задачи содержательного статистического анализа данных).

К достоинствам метода моментов следует отнести его сравнительно простую вычислительную реализацию, а также то, что оценки, полученные в качестве решений системы (8.25), являются функциями от выборочных моментов. Это упрощает исследование статистических свойств оценок метода моментов: можно показать (см. ), что при довольно общих условиях распределение оценки такого рода при больших асимптотически-нормально, среднее значение такой оценки отличается от истинного значения параметра на величину порядка , а стандартное

отклонение асимптотически имеет вид , где с - некоторая постоянная величина.

В то же время, как показал Р. Фишер (см. ), асимптотическая эффективность оценок, полученных методом моментов, оказывается, как правило, меньше единицы, и в этом отношении они уступают оценкам, полученным методом максимального правдоподобия. Тем не менее метод моментов часто очень удобен на практике. Иногда оценки, получаемые с помощью метода моментов, принимаются в качестве первого приближения, по которому можно определять другими методами оценки более высокой эффективности.

Вернемся к нашим примерам.

В примере 8.3 в качестве системы (8.25) имеем:

что дает уже знакомые нам по методу максимального правдоподобия оценки для параметров:

Нормальное распределение, так же как и распределение Пуассона (в чем легко убедиться, обратившись к примеру 8.4), относится к тем редким случаям, когда оценки по методу моментов совпадают с оценками по методу максимального правдоподобия.

Построение системы (8.25) в примере 8.5 дает:

Откуда легко получаем оценки:

Можно сравнить асимптотическую эффективность оценок, полученных методом максимального правдоподобия и методом моментов: учитывая, что дисперсия оценок (8.26) как дисперсия функций выборочных моментов имеет порядок (см. ), и принимая во внимание соотношение (8.22), в соответствии с которым дисперсии оценок по методу максимального правдоподобия тех же параметров имеют порядок получаем, что эффективность в сравнении с эффективностью и стремится к нулю при

Реализация метода моментов в примере 8.6 дает

Точечная оценка в математической статистике - это число, вычисляемое на основе наблюдений, предположительно близкое оцениваемому параметру. Пусть - выборка из распределения, зависящего от параметра. Тогда статистику называют точечной оценкой параметра.

Свойства точечных оценок:

1. Оценка называется несмещённой, если ее математическое ожидание равно оцениваемому параметру генеральной совокупности:

2. Оценка называется эффективной, если она обладает минимальной дисперсией среди всех возможных точечных оценок.

3. Оценка называется состоятельной, если она по вероятности с увеличением объема выборки n стремится к параметру генеральной совокупности.

Существует несколько методов определения оценок.

Наиболее распространен метод максимального правдоподобия, теоретически обоснованный математиком Р. Фишером. Идея метода заключается в следующем. Вся получаемая в результате многократных наблюдений информация об истинном значении измеряемой величины и рассеивании результатов сосредоточена в ряде наблюдений, где n - число наблюдений. Их можно рассматривать как n независимых случайных величин с одной и той же дифференциальной функцией распределения. Вероятность получения в эксперименте некоторого результата, лежащего в интервале, где - некоторая малая величина, равна соответствующему элементу вероятности.

Независимость результатов наблюдений позволяет найти априорную вероятность появления одновременно всех экспериментальных данных, т.е. всего ряда наблюдений как произведение этих вероятностей:

Если рассматривать Q и как неизвестные параметры распределения, то, подставляя различные значения Q и в эту формулу, мы будем получать различные значения вероятности при каждом фиксированном ряде наблюдений. При некоторых значениях и вероятность получения экспериментальных данных достигает наибольшего значения. В соответствии с методом максимального правдоподобия именно эти значения и принимаются в качестве точечных оценок истинного значения и среднеквадратического отклонения результатов наблюдений. Таким образом, метод максимального правдоподобия сводится к отысканию таких оценок и, при которых функция правдоподобия достигает наибольшего значения. Постоянный сомножитель не оказывает влияния на решение и поэтому может быть отброшен. Полученные оценки и истинного значения и среднеквадратического отклонения называются оценками максимального правдоподобия.

Метод моментов К.Пирсона. Любой теоретический начальный или центральный момент случайной величины, распределение которой зависит от параметра, также зависит от этого параметра.Оценка компонент векторного параметра по методу К.Пирсона осуществляется по определенному количеству моментов различных порядков (начальных, центральных или тех и других). В качестве оценки (приближения) параметра принимается такой вектор, при котором каждый из выбранных теоретических моментов совпадает с соответствующим эмпирическим моментом, вычисленным по выборке. Приравниваем выборочные и теоретические моменты:

41-44. Интервальные оценки параметров генеральной совокупности


Дана выборка (x 1 , x 2 , …, x n) объема n из генеральной совокупности с генеральным средним a и генеральной дисперсией? 2 . Ищется интервал [И 1 , И 2 ], в котором a может находиться с доверительной вероятностью г.

Доверительный интервал для неизвестного математического ожидания a при известной дисперсии

Предполагая, что предварительно определена точечная оценка a - выборочное среднее, в качестве статистики для получения И 1 = И 1 (x 1 , x 2 , …, x n) и И 2 =И 2 (x 1 , x 2 , …, x n) рассмотрим нормированное выборочное среднее, имеющее нормальное распределение ().

Где - функция Лапласа.

Полагаем.

доверительный интервал:

Точность оценки: .

2.3.1. Метод моментов проверки гипотез

К методу моментов относят все статистические процедуры, основанные на использовании выборочных моментов и функций от них. Метод моментов оценивания параметров распределения рассмотрен в главе 2.2. В непараметрической статистике на основе выборочных моментов проводится точечное и интервальное оценивание характеристик распределения, таких, как математическое ожидание, дисперсия, среднее квадратическое отклонение, коэффициент вариации (глава 3.1). Для проверки гипотез в непараметрической статистике также используется метод моментов. Примером является критерий Крамера-Уэлча, предназначенный для проверки равенства математических ожиданий по двум независимым выборкам (глава 3.1).

В практике применения статистических методов (согласно классическим схемам) довольно часто возникает необходимость проверки гипотезы о том, что функция распределения результатов наблюдений Х 1 , Х 2 , … , Х n принадлежит параметрическому семейству распределений {F (x , θ), θ Θ}, где Θ R k . Как проверять эту гипотезу?

Давно разработан универсальный метод – критерий минимума хи-квадрат . Однако у него имеется существенный недостаток – необходимость группирования наблюдений, что приводит к потере информации. Как хорошо известно , это приводит к существенному снижению мощности критерия минимума хи-квадрат по сравнению с критериями типа Колмогорова и типа омега-квадрат. Кроме того, нахождение минимума статистики хи-квадрат – достаточно сложная вычислительная процедура. Поэтому иногда вместо оценок, получаемых при указанной оптимизации, подставляют оценки максимального правдоподобия или какие-либо еще. Такая замена приводит к тому, что распределение рассматриваемой статистики существенно отличается от классического, причем различие не исчезает при росте объема выборки. Предложенная член-корр. АН СССР Л.Н. Большевым и проф. М.С. Никулиным модификация критерия минимума хи-квадрат не снимает недостатков, связанных с группированием и необходимостью существенной вычислительной работы.

Общий подход, основанный на дистанционном методе, предложен Дж. Вольфовицем (США) в 1950-х годах. Согласно этому методу следует основываться на том или ином расстоянии между эмпирической функцией распределения и параметрическим семейством распределений (как многообразием в пространстве всех функций распределения). Конкретная реализация этого подхода приводит к критериям типа Колмогорова и типа омега-квадрат. Однако для каждого конкретного параметрического семейства приходится разрабатывать самостоятельную теорию и рассчитывать только ему соответствующие предельные и точные распределения . Предельные распределения найдены лишь для нескольких семейств, а точных почти ничего не известно. До сих пор часто делают ошибку, применяя для произвольных семейств предельные распределения, найденные для проверки согласия с фиксированным распределением (см. подробности в главе 1.2).

Отметим, что критерии минимума хи-квадрат и аналогичные им не являются состоятельными, поскольку вероятности попадания в области группирования не задают однозначно функцию распределения. С этим недостатком можно бороться, увеличивая число интервалов группирования вместе с ростом объема выборки, однако на этом пути еще не выработаны рекомендации, пригодные для широкого практического использования. Критерии типа Колмогорова и типа омега-квадрат – состоятельные, т.е. любую альтернативную функцию распределения, не входящую в рассматриваемое параметрическое семейство, они отвергают с вероятностью, стремящейся к 1 при росте объема выборки.

Для конкретности обсудим проверку согласие результатов наблюдений с трехпараметрическим семейством гамма-распределений с плотностями

(1)

Здесь a >2 - параметр формы, b >0 - параметр масштаба и с - параметр сдвига, Γ(а) - одна из используемых в математике специальных функций, так называемая "гамма-функция". Критерий минимума хи-квадрат имеет указанные выше недостатки. Критерии типа Колмогорова и типа омега-квадрат для этого случая не разработаны.

В подобных ситуациях целесообразно строить критерии согласия на основе функций от выборочных моментов, т.е. пользоваться методом моментов. Для оценивания параметров метод моментов хорошо известен и обычно рассматривается в учебной литературе по теории вероятностей и математической статистике. Реализацией метода моментов для проверки нормальности являются известные критерии асимметрии и эксцесса .

Пример 1. Если случайная величина Х имеет нормальное распределение с математическим ожиданием а и дисперсией σ 2 , то, как известно ,

где δ – нормированное среднее абсолютное отклонение, γ 1 – коэффициент асимметрии и (β 1 – 3) – коэффициент эксцесса. Таким образом, если выборочные оценки указанных моментных отношений существенно отличаются от соответствующих теоретических значений, то следует признать, что распределение результатов наблюдений отлично от нормального. Так как указанные выше значения моментных отношений могут приниматься и для распределений, отличных от нормальных, то близость выборочных значений к только что выписанным не обязательно свидетельствует о нормальности распределения результатов наблюдений. Критерии, полученные методом моментов, служат не столько для проверки нормальности, сколько для выявления отклонений распределения от нормального, или, точнее, для проверки гипотез δ ≠ , γ 1 ≠ 0, β 1 ≠ 3. Рассматриваемые критерии построены на основе выборочных моментных отношений:

Здесь, как обычно, - выборочное среднее арифметическое и s 2 – выборочная дисперсия, соответственно, s – выборочное среднее квадратическое отклонение. Как вытекает из результатов главы 1.4, все три статистики являются асимптотически нормальными. Выражения для параметров их асимптотических распределений приведены в . Процентные точки распределений рассматриваемых выборочных моментных отношений при конечных объемах выборки найдены в предположении нормальности результатов наблюдений .

Как и критерии минимума хи-квадрат, критерии метода моментов никогда не являются состоятельными. Однако они, как и в случае критериев асимметрии и эксцесса, позволяют в ряде случаев отвергнуть гипотезу согласия. Использование несостоятельных критериев часто встречается в прикладной статистике. Отметим, например, что применение критерия Вилкоксона для проверки гипотезы однородности двух выборок широко распространено, хотя против общей альтернативы он является несостоятельным (см. главу 3.1).

Критерии метода моментов основаны на использовании функций от выборочных моментов, имеющих асимптотически нормальные распределения, параметры которых легко могут быть вычислены по методике, описанной в главе 1.4. Метод моментов по сравнению с другими методами проверки согласия требует существенно меньше вычислений (число операций пропорционально объему выборки). Поэтому он может быть рекомендован для использования при проверке согласия с семействами распределений, для которых не разработаны более совершенные методы, а также в качестве быстрого (экспрессного) метода. Что же касается хорошо изученных семейств, например, нормального, то основанные на использовании моментов критерии асимметрии и эксцесса применять для проверки нормальности нецелесообразно. Судя по специальным исследованиям, следует рекомендовать критерий W Шапиро - Уилка.

Продемонстрируем применение метода моментов на примере проверки гипотезы согласия с двухпараметрическим семейством гамма-распределений без сдвига, т.е. выделяемого из семейства (1) условием с =0. Поскольку для трехпараметрического семейства гамма-распределений (1)

М (Х ) =ab + c, D (X ) = ab 2 , μ 3 = M (X – M (X )) 3 = 2ab 3 ,

то при справедливости гипотезы Н 0: с = 0 выполнено соотношение

. (2)

Для специалистов по техническим наукам большое значение имеет альтернативная гипотеза

H 1: c > 0.

В частности, она связана с дискуссией о выборе нормируемых показателей надежности технических устройств. Альтернативная гипотеза соответствует предположению, что в течение некоторого времени (до момента c > 0) отказы невозможны, а нулевая – с отрицанием этого предположения и признанием того, что отказы возможны в любой момент.

При справедливости альтернативной гипотезы

,

поэтому для проверки гипотезы согласия в рассматриваемой постановке целесообразно использовать критерий со статистикой

С помощью описанной в главе 1.4 методики вычисления предельного распределения функции от выборочных моментов можно установить, что при n → ∞ распределение статистики сходится к нормальному, причем при справедливости нулевой гипотезы, т.е. соотношения (2), асимптотическое распределение имеет нулевое математическое ожидание и дисперсию

. (3)

Поскольку параметр формы а неизвестен статистику, необходимо в выражении (3) заменить а на его состоятельную оценку, например, на оценку метода моментов (см. главу 2.2)

Рассмотрим критерий с критической областью вида

, (4)

где u (1 - α) – квантиль порядка 1 - α стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При n →∞ уровень значимости этого критерия стремится к α.

Если альтернативная гипотеза является двусторонней, т.е. , то аналогично строится двусторонняя критическая область.

Критерий (4) состоятелен против альтернативы H 1: c > 0, а также против непараметрической альтернативы

в которой не предполагается, что функция распределения элементов выборки имеет гамма-распределение (1) с какими-либо конкретными значениями параметров, но не является состоятельным против общей альтернативы.

Пример 2. Применим критерий (4) для проверки согласия с гамма-распределением при с = 0, т.е. с двухпараметрическим семейством, данных о наработке n = 50 резцов до предельного состояния (в часах), приведенных в табл.2 подраздела 2.2.1.

Для рассматриваемых данных = 57,88, s 2 = 663,00, выборочный третий центральный момент m 3 = 14927,91, откуда Z = - 0,01719. При этом a * = 5,05, и потому

.

Следовательно, гипотеза согласия рассматриваемых данных с двухпараметрическим гамма-распределением не отвергается на любом из обычно используемых уровней значимости, как для односторонней критической области, так и для двухсторонней.

Предыдущая

Ключевые вопросы: определение, предпосылки модели, понятие и формулы моментов, алгоритм расчёта оценок, применение в нормальном распределении, дискуссия о типе и количестве моментов, достоинства и недостатки подхода .

Метод моментов – один из наиболее известных и популярных методов статистического оценивания параметров вероятностных распределений.

Основные предпосылки модели метода моментов следующие:

Суть метода моментов заключается в вычислении того количества теоретических и выборочных моментов случайной величины, которое равно числу исследуемых нами параметров. После вычисления соответствующие друг другу теоретические и выборочные моменты приравниваются, и исходя из получившегося уравнения осуществляется вычисление оценки параметра.

Формула теоретических моментов выглядит так: где μ’ k – есть k-й теоретический момент величины Y.

Формула выборочных моментов выглядит так: где m’ k – есть k-й выборочный момент величины Y.

После этого приравниванием μ’ k = m’ k добиваемся вычисления значений параметров.

Рассмотрим в качестве примера нормальное распределение. Нахождение оценок параметров по методу моментов выглядит следующим образом.

Следует заметить, что в уравнения также допустимо включать и такие экзотические виды моментов, как асимметрию и эксцесс, но это необходимо только в специализированных исследованиях. Статистическая практика чаще всего не выходит за рамки обозначенного выше алгоритма, поскольку число подлежащих исследованию параметров обыкновенно не превышает 4.

В качестве достоинств метода моментов следует обозначить, во-первых, то, что его вычислительная реализация сравнительно проста, а, во-вторых, то, что оценки, полученные в качестве решений системы, являются функциями от выборочных моментов, что упрощает исследование статистических свойств оценок данного метода. При больших n распределение оценки такого рода асимптотически нормально, среднее значение отличается от истинного на величину, приблизительно равную n -1 , а стандартное отклонение асимптотически равно cn (-1/2) , где c – определённая числовая константа. Фишер в своё время доказал, однако, что асимптотическая эффективность оценок по методу моментов всегда оказывается меньше 1, и поэтому данный метод уступает, например, методу максимального правдоподобия. Впрочем, иногда в статистических исследованиях оценки, полученные по методу моментов, принимаются в качестве первого приближения, по которым можно определять другими методами оценки более высокой эффективности.

В другом изложении:

Введём сначала следующие определения:

Определение 9 . Начальный момент порядка k случайной величины x определяется равенством: m k = M(x k).

В частности, m 1 = M(x) – обычное мат. ожидание, m 2 = M(x 2).

Определение 10 . Центральный момент порядка k случайной величины x определяется равенством: a k = M((x–Mx) k).

В частности, a 2 = D(x) – дисперсия случайной величины.

Эти моменты называют теоретическими . По данным наблюдений можно вычислить соответствующие эмпирические моменты:

Определение 11 . Начальный эмпирический момент порядка k случайной величины x определяется равенством

В частности, – выборочное среднее.

Определение 12 . Центральный эмпирический момент порядка k случайной величины x определяется равенством:

В частности, – выборочная дисперсия.

Метод моментов построения точечных оценок неизвестных параметров состоит в приравнивании теоретических моментов рассматриваемого распределения соответствующим эмпирическим моментам того же распределения.

Пусть даны: случайная величина ξ, выборка объема n x 1 , x 2 ,…, x n . Необходимо построить оценки неизвестных параметров q * 1, q * 2 ,…,q * k . Описание метода моментов (ММ) разобьём на этапы:

1. Выписываем первые к моментов μ 1, μ 2, … μ n

2. Вычисляем по выборке соответствующие им эмпирические (выборочные) моменты.

3. С оставляем систему уравнений μ i = m i и решаем ее относительно неизвестных параметров.

Замечание 1. Иногда вместо начальных моментов μ i , m i удобно использовать центральные моменты α i , a i .

Замечание 2 . Если на третьем этапе получилась неразрешимая система, то на первом шаге надо добавить новые моменты.

Найдем методом моментов оценки параметров нескольких важнейших распределений.

Для таких “популярных” параметров случайных величин как математическое ожидание и дисперсия найдены явные формулы статистических оценок –и s 2 , соответственно. Однако часто необходимы оценки и других параметров. Например, в теории массового обслуживания часто используется так называемое гамма-распределение, формула плотности которого имеет вид:

,

где a, b – параметры, оценки которых надо найти для идентификации закона распределения; – гамма-функция Эйлера. Для оценок a и b, а также многих других параметров специальных формул не разработано. Следовательно, необходимы методы поиска оценок для произвольных параметров. Одним из наиболее простых является метод моментов (Пирсона).

Def. Теоретическим начальным моментом

.

Например, математическое ожидание – начальный момент 1-го порядка.

Def. Теоретическим центральным моментом k-го порядка СВ x называется величина

.

Например, дисперсия – центральный момент 2-го порядка, центральный момент 1-го порядка любой СВ равен 0.

Def. Эмпирическим начальным моментом k-го порядка СВ x называется величина

.

Def. Эмпирическим центральным моментом k-го порядка СВ x называется величина

.

При больших N эмпирические моменты можно приравнять к теоретическим. На основании таких равенств составляется система уравнений для оценок параметров СВ, если есть выражения искомых параметров через теоретические моменты. На этом и основан метод моментов. Его главное достоинство – простота. Кроме того, не нужно знания закона распределения СВ. Единственное требование – большой объем выборки.

Пример. Методом моментов найдем параметры гамма-распределения a и b. Известны следующие формулы:

.

Подставляем вместо теоретических моментов эмпирические – получаем систему уравнений относительно оценок a и b:

Поделим первое уравнение на второе – получим ; подставим в 1-е уравнение – получим .

4.3. Регрессионный анализ: синтез уравнения регрессии

Пример. Имеются экспериментальные данные (Таблица 4.1). Построить функцию, отражающую зависимость у от х , т.е её аппроксимацию . (приближение).

Если нанести точки на график и соединить их, то получим зигзагообразную линию, которая, впрочем, не слишком отличается от прямой (см. рис. 3.1). Поэтому аппроксимирующую функцию будем искать в классе многочленов первой степени, т.е. положим Y (x ) = b 1 x + b 2 . Для идентификации (нахождения) этой зависимости надо найти статистические оценки коэффициентов модели. Согласно методу наименьших квадратов (МНК) эти оценки находят из условия минимума функции

.

В данном случае на искомые коэффициенты не наложено никаких ограничений, т.е. мы имеем классическую задачу минимизации функции нескольких переменных – b 1 и b 2 . Из курса математики известно, что для минимизации таких функций надо вычислить частные производные минимизируемой функции, приравнять их к 0 и решить полученные уравнения.

Рис. 4.1. График данных примера

Раскроем скобки, разобьем каждое выражение на несколько сумм и перенесем члены, зависящие от искомых коэффициентов налево, а независящие – направо.

Подставим данные из таблицы 4.1 – получим линейную систему относительно искомых коэффициентов:

Решив систему, получим b 1 = 1.596; b 2 = 2.725, а аппроксимирующая функция примет вид Y (x ) = 1.596 x + 2.725. На рис. 3.2 приведены графики исходных данных (точки) и аппроксимирующей функции (сплошная линия).

Рис. 4.2. Графики исходных данных и аппроксимирующей функции

Описанный метод нахождения коэффициентов основан на минимизации функции Q (b 1 , b 2), представляющую собой сумму квадратов. Поэтому он называется методом наименьших квадратов (МНК ).

Матричная запись МНК. В более общем случае будем искать уравнение регрессии в виде функции, линейно зависящей от коэффициентов, т.е.

у = b 1 f 1 (x) + … + b k f k (x), (4.1)

где f u (x ) – заданные функции; b u – неизвестные коэффициенты. Для идентификации этой зависимости надо найти статистические оценки коэффициентов модели. Согласно методу наименьших квадратов (МНК) эти оценки находят из условия минимума функции

Q(b) = ,

где у i – наблюдаемое значение выходного параметра в i-м эксперименте.

Обозначим: Ф = [Ф ij ] = – регрессионная (N ´ k)-матрица ; b – вектор коэффициентов; у – вектор значений выхода. Тогда для вектора оценок коэффициентов имеем уравнение

(Ф T Ф) = Ф T y. (4.2)