Метод максимального правдоподобия нахождения точечных оценок. Методы получения оценок

Аннотация: Цель работы: практически освоить метод максимального правдоподобия для точечной оценки неизвестных параметров заданного вероятностного распределения случайной величины. Среда программирования - MATLAB.

Теоретическая часть

Метод максимального или наибольшего правдоподобия предложен Р. Фишером [ , 13 ]. С помощью этого метода производится точечная оценка неизвестных параметров априорно известного закона распределения случайной величины.

Рассмотрим сначала суть метода при оценке параметров дискретного распределения случайной величины .

Обозначим вероятность того, что в результате испытания величина примет значение , через .

Определение . Функцией правдоподобия случайной дискретной величины называют функцию аргумента :

(7.1)

где - фиксированные числа, полученные при измерении случайной величины .

В качестве точечной оценки параметра принимают такое его значение , при котором функция правдоподобия достигает максимума. Оценку называют оценкой максимального правдоподобия .

Для упрощения расчетов в рассмотрение вводится логарифм функции правдоподобия , которую называют логарифмической функцией правдоподобия . Функции и достигают максимума при одном и том же значении своего аргумента, поэтому вместо отыскания максимума функции ищут максимум функции . Записывая необходимое условие экстремума функции правдоподобия в случае скалярного параметра, получаем уравнения правдоподобия

(7.2)
(7.3)

где - заданная выборка случайных величин.

Уравнение правдоподобия (7.3) с логарифмической функцией, как правило, более простое относительно функции правдоподобия (7.2).

Если распределение случайной величины зависит от вектора параметров , то уравнение (7.3) заменяется системой уравнений

(7.4)

Именно уравнения (7.3) и (7.4) принято называть уравнениями правдоподобия . Во многих случаях решение системы (7.4), являющейся, как правило, нелинейной, приходится искать численными методами.

Рассмотрим применение метода максимального правдоподобия для оценки параметров непрерывного распределения случайных величин генеральной совокупности .

Пусть - непрерывная случайная величина , которая в результате испытаний приняла значения . Предполагается, что вид плотности распределения задан, но неизвестен параметр , которым определяется эта функция .

Определение . Функцией правдоподобия непрерывной случайной величины называют функцию аргумента

(7.5)

где - фиксированные числа.

Оценку максимального правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут так же, как в случае дискретной величины.

Замечание . Если плотность распределения непрерывной случайной величины определяется двумя неизвестными параметрами и , то функция правдоподобия является функцией двух независимых аргументов и :

(7.6)

Как для дискретных распределений, так и для непрерывных точку максимума логарифмической функции распределения аргумента можно искать через необходимое условие экстремума :

Найденную точку максимума принимают в качестве оценки максимального правдоподобия параметра .

Метод максимального правдоподобия имеет ряд достоинств: его оценки, вообще говоря, состоятельны (но они могут быть смещенными), распределены асимптотически нормально (при больших значениях приближенно нормально) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра существует эффективная оценка , то уравнение правдоподобия имеет единственное решение ; этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно полезен в случае малых выборок. Недостаток метода состоит в том, что он часто требует сложных вычислений.

Практическая часть

1. Оценка параметра экспоненциального распределения

Рассматривается пример поиска методом максимального правдоподобия оценки параметра экспоненциального распределения случайной величины, для которой функция плотности имеет вид

(7.7)

К характеристикам экспоненциального распределения относятся математическое ожидание и дисперсия :

(7.8)
(7.9)

Замечание . Во встроенных функциях MATLAB параметром экспоненциального распределения является математическое ожидание случайной величины.

Возможная программная реализация точечной оценки параметра экспоненциального распределения:

clear,clc,close all %%% Проверка на закрытие диалоговых окон try global h11 close(h11); end try global n11 close(n11); end try global v11 close(v11) end %% ВВОД ТЕОРЕТИЧЕСКОГО ПАРАМЕТРА РАСПРЕДЕЛЕНИЯ options.Resize = "on"; options.WindowStyle = "modal"; %%"normal"; options.Interpreter = "tex"; P1 = inputdlg({"\bfВвод параметра:......................................................"},... sprintf("Теоретическая величина параметра"),1,{"1.23"},options); %% ПРЕОБРАЗОВАНИЕ К СТРОКОВОЙ ПЕРЕМЕННОЙ P2 = char(P1); %% ПРЕОБРАЗОВАНИЕ К ЧИСЛУ С ДВОЙНОЙ ТОЧНОСТЬЮ P0 = str2num(P2); %% КОНТРОЛЬ ВВОДА ПАРАМЕТРА if isempty(P0) h11 = errordlg("Параметр должен быть действительным положительным числом!","Ошибка ввода"); return end %% КОНТРОЛЬ ВВОДА ПАРАМЕТРА global h11 if P0 <= 0 | ~isreal(P0) | ~isfinite(P0) h11 = errordlg("Параметр должен быть конечным действительным положительным числом!","Ошибка ввода"); return end % ВВОД ЧИСЛА ПРОГОНОВ ПРОГРАММЫ n1 = inputdlg({"\bfВвод числа прогонов программы.........................."},... "Число прогонов программы",1,{"10"}, options); % ПРЕОБРАЗОВАНИЕ К ЧИСЛОВОЙ ПЕРЕМЕННОЙ n = str2num(char(n1)); %% Контроль ввода цифр if isempty(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end if ~isreal(n) | ~isfinite(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end %% Контроль целого положительного числа циклов if n <= 0 | n ~= round(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end % ВВОД ЧИСЛА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ v1 = inputdlg({"\bfВвод числа измерений случайной величины..................................."},... "Число измерений случайной величины",1,{"1234"}, options); % ПРЕОБРАЗОВАНИЕ К ЧИСЛОВОЙ ПЕРЕМЕННОЙ v = str2num(char(v1)); if isempty(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end if ~isreal(v) | ~isfinite(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end % КОНТРОЛЬ ЦЕЛОГО ЧИСЛА ИЗМЕРЕНИЙ % СЛУЧАЙНОЙ ВЕЛИЧИНЫ if v <= 0 | v ~= round(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end syms m k = 0; %% ЦИКЛ ЗАДАННОГО ЧИСЛА ПРОГОНОВ ПРОГРАММЫ for I = 1:n k=k+1; %% ФОРМИРОВАНИЕ ЧИСЛА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ t = exprnd(1/P0,v,1); %% ФОРМИРОВАНИЕ ФУНКЦИИ МАКСИМАЛЬНОГО %% ПРАВДОПОДОБИЯ L = m^(length(t))*exp(-m*sum(t)); %% ЛОГАРИФМИЧЕСКАЯ ФУНКЦИЯ МАКСИМАЛЬНОГО %% ПРАВДОПОДОБИЯ Lg = log(L); %% ДИФФЕРЕНЦИРОВАНИЕ dLg = diff(Lg,m); %% ПРЕОБРАЗОВАНИЕ СИМВОЛЬНОЙ ПЕРЕМЕННОЙ К СТРОКОВОЙ dLg = char(dLg); %% РЕШЕНИЕ УРАВНЕНИЯ ОТНОСИТЕЛЬНО ОЦЕНИВАЕМОГО %% ПАРАМЕТРА as1(k) = double(solve(dLg)); %% УСРЕДНЕНИЕ ОЦЕНИВАЕМОГО ПАРАМЕТРА as(k) = mean(as1); end %% ОКОНЧАНИЕ ЦИКЛА ЗАДАННОГО ЧИСЛА ПРОГОНОВ ПРОГРАММЫ mcp = mean(as); %% ВЫВОД РЕЗУЛЬТАТОВ В КОМАНДНОЕ ОКНО fprintf("\n\t%s%g\n \t%s%g\n","Теоретический параметр: ",P0,... "Оценка параметра: ", mcp) fprintf("\tОтносительная погрешность: %g%s\n",abs(P0-mcp)/P0*100,"%") %% ГРАФИЧЕСКИЕ ПОСТРОЕНИЯ figure(1) %% set(gcf,"position",) plot(1:n,as1,"r:","linew",2),grid off,hold on, plot(1:n,as,"linew",2), title(sprintf("%s%g","\bfТеоретический параметр\fontsize{12} \lambda\fontsize{10} = ",P0)) xlabel("\bf Количество циклов"), ylabel("\bf Эмпирический параметр\fontsize{14} \lambda"), legend("\bf Измеряемая величина\fontsize{12} \lambda",... "\bf Средняя величина\fontsize{12} \lambda"), set(gcf,"color","w") %% ПОСТРОЕНИЕ ТЕОРЕТИЧЕСКОЙ И ЭМПИРИЧЕСКОЙ %% ФУНКЦИИ ПЛОТНОСТИ t = 0: 0.1: 4; y1 = P0*exp(-P0*t); %exppdf(t,1/P0); % встроенная функция y2 = mcp*exp(-mcp*t); %exppdf(t,1/mcp); figure(2) plot(t, y1, "r", "linew",2), hold on plot(t, y2, "bo", "linew",2) grid off legend("\bf Теоретическая функция плотности (PDF)",... "\bf Эмпирическая функция плотности"), text(t(end)/3,2/3*max(max()),["\bf",... sprintf("Теоретический параметр: %g\n Эмпирический параметр: %g",P0,mcp)]) xlabel("\bf Случайная величина"), ylabel("\bf Функция плотности"), set(gcf,"color","w")

До сих пор мы считали, что оценка неизвестного параметра известна и занимались изучением ее свойств с целью использования их при построении доверительного интервала. В этом параграфе рассмотрим вопрос о способах построения оценок.

Методы правдоподобия

Пусть требуется оценить неизвестный параметр, вообще говоря, векторный, . При этом предполагается, что вид функции распределения известен с точностью до параметра,

В таком случае все моменты случайной величины становятся функциями от:

Метод моментов требует выполнения следующих действий:

Вычисляем k «теоретических» моментов

По выборке строим k одноименных выборочных моментов. В излагаемом контексте это будут моменты

Приравнивая «теоретические» и одноименные им выборочные моменты, приходим к системе уравнений относительно компонент оцениваемого параметра

Решая полученную систему (точно или приближенно), находим исходные оценки. Они, конечно, являются функциями от выборочных значений.

Мы изложили порядок действий, исходя из начальных - теоретических и выборочных - моментов. Он сохраняется при ином выборе моментов, начальных, центральных или абсолютных, который определяется удобством решения системы (25.1) или ей подобной.

Перейдем к рассмотрению примеров.

Пример 25.1. Пусть случайная величина распределена равномерно на отрезке [ ; ] , где - неизвестные параметры. По выборке () объема n из распределения случайной величины. Требуется оценить и.

В данном случае распределение определяется плотностью

1) Вычислим первые два начальных «теоретических» момента:

2) Вычислим по выборке два первых начальных выборочных момента

3) Составим систему уравнений

4) Из первого уравнения выразим через

и подставим во второе уравнение, в результате чего придём к квадратному уравнению

решая которое, находим два корня

Соответствующие значения таковы

Поскольку по смыслу задачи должно выполнятся условие < , выбираем в качестве решения системы и оценок неизвестных параметров

Замечая, что есть не что иное, как выборочная дисперсия, получаем окончательно

Если бы мы выбрали в качестве «теоретических» моментов математическое ожидание и дисперсию, то пришли бы к системе (с учетом неравенства <)

которая линейна и решается проще предыдущей. Ответ, конечно, совпадает с уже полученным.

Наконец, отметим, что наши системы всегда имеет решение и при том единственное. Полученные оценки, конечно, состоятельны, однако свойствам несмещенности не обладают.

Метод максимального правдоподобия

Изучается, как и прежде, случайная величина, распределение которой задается либо вероятностями её значений, если дискретна, либо плотностью распределения, если непрерывна, где - неизвестный векторный параметр. Пусть () - выборка значений. Естественно в качестве оценки взять то значение параметра, при котором вероятность получения уже имеющейся выборки максимальна.

Выражение

называют функцией правдоподобия , она представляет собой совместное распределение или совместную плотность случайного вектора с n независимыми координатами, каждая из которых имеет то же распределение (плотность), что и.

В качестве оценки неизвестного параметра берется такое его значение, которое доставляет максимум функции, рассматриваемой как функции от при фиксированных значениях. Оценку называют оценкой максимального правдоподобия . Заметим, что зависит от объема выборки n и выборочных значений

и, следовательно, сама является случайной величиной.

Отыскание точки максимума функции представляет собой отдельную задачу, которая облегчается, если функция дифференцируема по параметру.

В этом случае удобно вместо функции рассматривать её логарифм, поскольку точки экстремума функции и её логарифма совпадают.

Методы дифференциального исчисления позволяют найти точки, подозрительные на экстремум, а затем выяснить, в какой из них достигается максимум.

С этой целью рассматриваем вначале систему уравнений

решения которой - точки, подозрительные на экстремум. Затем по известной методике, вычисляя значения вторых производных

по знаку определителя, составленного из этих значений, находим точку максимума.

Оценки, полученные по методу максимального правдоподобия, состоятельны, хотя могут оказаться смещенными.

Рассмотрим примеры.

Пример 25.2. Пусть производится некоторый случайный эксперимент, исходом которого может быть некоторое события А, вероятность Р(А) которого неизвестна и подлежит оцениванию.

Введем случайную величину равенством

если событие А произошло,

если событие А не произошло (произошло событие).

Распределение случайной величины задается равенством

Выборкой в данном случае будет конечная последовательность (), где каждое из может быть равно 0 либо 1.

Функция правдоподобия будет иметь вид

Найдем точку её максимума по р, для чего вычислим производную логарифма

Обозначим - это число равно количеству единиц «успехов» в выбранной последовательности.

Приравняем полученную производную к нулю

и решим полученное уравнение

Поскольку производная меняет знак с «+» на «-» при возрастании р от 0 до 1, точка есть точка максимума функции L, а - оценка максимального правдоподобия параметра р. Заметим, что отношение есть частота появления события А в первых n испытаниях.

Поскольку m есть число «успехов» в последовательности n независимых испытаний (в схеме Бернулли), то, и - несмещенная оценка. В силу закона больших чисел Бернулли стремится по вероятности к р, и оценка состоятельна.

Пример 25.3. Построим оценки неизвестных математического ожидания и дисперсии нормально распределенной случайной величины с параметрами.

Р е ш е н и е.

В условиях примера случайная величина определяется плотностью распределения

Сразу выпишем логарифм функции правдоподобия

Составим систему уравнений для нахождения экстремальных точек

Из первого уравнения находим, из второго, подставляя найденное значение, находим.

Вычислим вторые производные функции lnL в точке ():

А = ,В = ,С = .

Поскольку определитель

а А < 0, то найденная точка в самом деле точка максимума функции правдоподобия.

Заметим, что оценка есть выборочное среднее (несмещенная и состоятельная оценка математического ожидания), а - выборочная дисперсия (смещенная оценка дисперсии).

Сущность задачи точечного оценивания параметров

ТОЧЕЧНАЯ ОЦЕНКА ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Точечная оценка предполагает нахождение единственной числовой величины, которая и принимается за значение параметра. Такую оценку целесообразно определять в тех случаях, когда объем ЭД достаточно велик. Причем не существует единого понятия о достаточном объеме ЭД, его значение зависит от вида оцениваемого параметра (к этому вопросу предстоит вернуться при изучении методов интервальной оценки параметров, а предварительно будем считать достаточной выборку, содержащую не менее чем 10 значений). При малом объеме ЭД точечные оценки могут значительно отличаться от истинных значений параметров, что делает их непригодными для использования.

Задача точечной оценки параметров в типовом варианте постановки состоит в следующем.

Имеется: выборка наблюдений (x 1 , x 2 , …, x n ) за случайной величиной Х . Объем выборки n фиксирован.

Известен вид закона распределения величины Х , например, в форме плотности распределения f(Θ , x), где Θ – неизвестный (в общем случае векторный) параметр распределения. Параметр является неслучайной величиной.

Требуется найти оценку Θ* параметра Θ закона распределения.

Ограничения: выборка представительная.

Существует несколько методов решения задачи точечной оценки параметров, наиболее употребительными из них являются методы максимального (наибольшего) правдоподобия, моментов и квантилей.

Метод предложен Р. Фишером в 1912 г. Метод основан на исследовании вероятности получения выборки наблюдений (x 1 , x 2, …, x n) . Эта вероятность равна

f(х 1 , Θ) f(х 2 , Θ) … f(х п, Θ) dx 1 dx 2 … dx n .

Совместная плотность вероятности

L(х 1 , х 2 …, х n ; Θ) = f(х 1 , Θ) f(х 2 , Θ) … f(х n , Θ), (2.7)

рассматриваемая как функция параметра Θ , называется функцией правдоподобия .

В качестве оценки Θ* параметра Θ следует взять то значение, которое обращает функцию правдоподобия в максимум. Для нахождения оценки необходимо заменить в функции правдоподобия Т на q и решить уравнение

dL/d Θ* = 0.

Для упрощения вычислений переходят от функции правдоподобия к ее логарифму lnL . Такое преобразование допустимо, так как функция правдоподобия – положительная функция, и она достигает максимума в той же точке, что и ее логарифм. Если параметр распределения векторная величина

Θ* =(q 1 , q 2 , …, q n),

то оценки максимального правдоподобия находят из системы уравнений


d ln L(q 1 , q 2 , …, q n) /d q 1 = 0;

d ln L(q 1 , q 2 , …, q n) /d q 2 = 0;

. . . . . . . . .



d ln L(q 1 , q 2 , …, q n) /d q n = 0.

Для проверки того, что точка оптимума соответствует максимуму функции правдоподобия, необходимо найти вторую производную от этой функции. И если вторая производная в точке оптимума отрицательна, то найденные значения параметров максимизируют функцию.

Итак, нахождение оценок максимального правдоподобия включает следующие этапы: построение функции правдоподобия (ее натурального логарифма); дифференцирование функции по искомым параметрам и составление системы уравнений; решение системы уравнений для нахождения оценок; определение второй производной функции, проверку ее знака в точке оптимума первой производной и формирование выводов.

Решение. Функция правдоподобия для выборки ЭД объемом n

Логарифм функции правдоподобия

Система уравнений для нахождения оценок параметров

Из первого уравнения следует:

или окончательно

Таким образом, среднее арифметическое является оценкой максимального правдоподобия для математического ожидания.

Из второго уравнения можно найти

Эмпирическая дисперсия является смещенной. После устранения смещения

Фактические значения оценок параметров: m =27,51, s 2 = 0,91.

Для проверки того, что полученные оценки максимизируют значение функции правдоподобия, возьмем вторые производные

Вторые производные от функции ln(L(m,S )) независимо от значений параметров меньше нуля, следовательно, найденные значения параметров являются оценками максимального правдоподобия.

Метод максимального правдоподобия позволяет получить состоятельные, эффективные (если таковые существуют, то полученное решение даст эффективные оценки), достаточные, асимптотически нормально распределенные оценки. Этот метод может давать как смещенные, так и несмещенные оценки. Смещение удается устранить введением поправок. Метод особенно полезен при малых выборках.

Кроме метода моментов, который изложен в предыдущем параграфе, существуют и другие методы точечной оценки неизвестных параметров распределения. К ним относится метод наибольшего правдоподобия, предложенный Р. Фишером.

А. Дискретные случайные величины. Пусть X - дискретная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., х п . Допустим, что вид закона распределения величины X задан, но неизвестен параметр θ , которым определяется этот закон. Требуется найти его точечную оценку.

Обозначим вероятность того, что в результате испытания величина X примет значение х i (i = 1 , 2, . . . , n ), через p (х i ; θ ).

Функцией правдоподобия дискретной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = p (х 1 ; θ ) р (х 2 ; θ ) . . . p (х n ; θ ),

где х 1 , х 2 , ..., х п - фиксированные числа.

В качестве точечной оценки параметра θ принимают такое его значение θ * = θ * (х 1 , х 2 , ..., х п ), при котором функция правдоподобия достигает максимума. Оценку θ * называют оценкой наибольшего правдоподобия.

Функции L и ln L достигают максимума при одном и том же значении θ , поэтому вместо отыскания максимума функции L ищут (что удобнее) максимум функции ln L .

Логарифмической функцией правдоподобия называют функцию ln L . Как известно, точку максимума функции ln L аргумента θ можно искать, например, так:

3) найти вторую производную ; если вторая производная приθ = θ * отрицательна, то θ * - точка максимума.

Найденную точку максимума θ * принимают в качестве оценки наибольшего правдоподобия параметра θ .

Метод наибольшего правдоподобия имеет ряд достоинств: оценки наибольшего правдоподобия, вообще говоря, состоятельны (но они могут быть смещенными), распределены асимптотически нормально (при больших значениях n приближенно нормальны) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра θ существует эффективная оценка θ *, то уравнение правдоподобия имеет единственное решение θ *; этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно полезен в случае малых выборок.

Недостаток метода состоит в том, что он часто требует сложных вычислений.

Замечание 1. Функция правдоподобия - функция от аргумента θ ; оценка наибольшего правдоподобия - функция от независимых аргументов х 1 , х 2 , ..., х п .

Замечание 2. Оценка наибольшего правдоподобия не всегда совпадает с оценкой, найденной методом моментов.

Пример 1. λ распределения Пуассона

где m - число произведенных испытаний; x i - число появлений события в i -м (i =1, 2, ..., n ) опыте (опыт состоит из т испытаний).

Решение. Составим функцию правдоподобия, учитывая, что. θ= λ :

L = p (х 1 ; λ :) p (х 2 ; λ :) . . .p (х n ; λ :),=

.

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

Легко видеть, что при λ = вторая производная отрицательна; следовательно,λ = - точка максимума и, значит, в качестве оценки наибольшого правдоподобия параметра λ распределения Пуассона надо принять выборочную среднюю λ* = .

Пример 2. Найти методом наибольшего правдоподобия оценку параметра p биномиального распределения

если в n 1 независимых испытаниях событие А появилось х 1 = m 1 раз и в п 2 независимых испытаниях событие А появилось х 2 = т 2 раз.

Решение. Составим функцию правдоподобия, учитывая, что θ = p :

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по р:

.

.

Найдем критическую точку, для чего решим полученное уравнение относительно p :

Найдем вторую производную по p :

.

Легко убедиться, что при вторая производная отрицательна; следовательно, - точка максимума и, значит, ее надо принять в качестве оценки наибольшего правдоподобия неизвестной вероятности p биномиального распределения:

Б. Непрерывные случайные величины. Пусть X - непрерывная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., x п . Допустим, что вид плотности распределения f (x ) задан, но не известен параметр θ , которым определяется эта функция.

Функцией правдоподобия непрерывной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = f (х 1 ; θ ) f (х 2 ; θ ) . . . f (x n ; θ ),

где х 1 , х 2 , ..., x п - фиксированные числа.

Оценку наибольшего правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут так же, как в случае дискретной величины.

Пример 3. Найти методом наибольшего правдоподобия оценку параметра λ, показательного распределения

(0< х < ∞),

если в результате n испытаний случайная величина X , распределенная по показательному закону, приняла значения х 1 , х 2 , ..., х п .

Решение. Составим функцию правдоподобия, учитывая, что θ= λ:

L = f (х 1 ; λ ) f (х 2 ; λ ) . . . f (х n ; λ ) =.

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по λ:

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

Легко видеть, что при λ = 1/ вторая производная отрицательна; следовательно, λ = 1/- точка максимума и, значит, в качестве оценки наибольшего правдоподобия параметра λ показательного распределения надо принять величину, обратную выборочной средней:λ *= 1/.

Замечание. Если плотность распределения f (х ) непрерывной случайной величины X определяется двумя неизвестными параметрами θ 1 и θ 2 , то функция правдоподобия является функцией двух независимых аргументов θ 1 и θ 2:

L = f (х 1 ; θ 1 , θ 2) f (х 2 ; θ 1 , θ 2) . . . f (х n ; θ 1 , θ 2),

где х 1 , х 2 , ..., х п - наблюдавшиеся значения X . Далее находят логарифмическую функцию правдоподобия и для отыскания ее максимума составляют и решают систему

Пример 4. Найти методом наибольшего правдоподобия оценки параметров а и σ нормального распределения

если в результате n испытаний величина X приняла значения х 1 , х 2 , ..., х п .

Решение. Составим функцию правдоподобия, учитывая, что θ 1 =a и θ 2 =σ

.

Найдем логарифмическую функцию правдоподобия:

.

Найдем частные производные по а и по σ:

Приравняв частные производные нулю и решив полученную систему двух уравнений относительно а и σ 2 , получим:

Итак, искомые оценки наибольшего правдоподобия: а * = ;σ*= . Заметим, что первая оценка несмещенная, а вторая смещенная.

В работах, предназначенных для первоначального знакомства с математической статистикой, обычно рассматривают оценки максимального правдоподобия (сокращенно ОМП):

Таким образом, сначала строится плотность распределения вероятностей, соответствующая выборке. Поскольку элементы выборки независимы, то эта плотность представляется в виде произведения плотностей для отдельных элементов выборки. Совместная плотность рассматривается в точке, соответствующей наблюденным значениям. Это выражение как функция от параметра (при заданных элементах выборки) называется функцией правдоподобия. Затем тем или иным способом ищется значение параметра, при котором значение совместной плотности максимально. Это и есть оценка максимального правдоподобия.

Хорошо известно, что оценки максимального правдоподобия входят в класс наилучших асимптотически нормальных оценок. Однако при конечных объемах выборки в ряде задач ОМП недопустимы, т.к. они хуже (дисперсия и средний квадрат ошибки больше), чем другие оценки, в частности, несмещенные. Именно поэтому в ГОСТ 11.010-81 для оценивания параметров отрицательного биномиального распределения используются несмещенные оценки, а не ОМП. Из сказанного следует априорно предпочитать ОМП другим видам оценок можно - если можно - лишь на этапе изучения асимптотического поведения оценок.

В отдельных случаях ОМП находятся явно, в виде конкретных формул, пригодных для вычисления.

В большинстве случаев аналитических решений не существует, для нахождения ОМП необходимо применять численные методы. Так обстоит дело, например, с выборками из гамма-распределения или распределения Вейбулла-Гнеденко. Во многих работах каким-либо итерационным методом решают систему уравнений максимального правдоподобия или впрямую максимизируют функцию правдоподобия.

Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных методов требует обоснования. В ряде примеров функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся. Для данных ВНИИ железнодорожного транспорта по усталостным испытаниям стали уравнение максимального правдоподобия имеет 11 корней. Какой из одиннадцати использовать в качестве оценки параметра?

Как следствие осознания указанных трудностей, стали появляться работы по доказательству сходимости алгоритмов нахождения оценок максимального правдоподобия для конкретных вероятностных моделей и конкретных алгоритмов.

Однако теоретическое доказательство сходимости итерационного алгоритма - это еще не всё. Возникает вопрос об обоснованном выборе момента прекращения вычислений в связи с достижением требуемой точности. В большинстве случаев он не решен.

Но и это не все. Точность вычислений необходимо увязывать с объемом выборки - чем он больше, тем точнее надо находить оценки параметров, в противном случае нельзя говорить о состоятельности метода оценивания. Более того, при увеличении объема выборки необходимо увеличивать и количество используемых в компьютере разрядов, переходить от одинарной точности расчетов к двойной и далее - опять-таки ради достижения состоятельности оценок.

Таким образом, при отсутствии явных формул для оценок максимального правдоподобия нахождение ОМП натыкается на ряд проблем вычислительного характера. Специалисты по математической статистике позволяют себе игнорировать все эти проблемы, рассуждая об ОМП в теоретическом плане. Однако прикладная статистика не может их игнорировать. Отмеченные проблемы ставят под вопрос целесообразность практического использования ОМП.

Пример 1. В статистических задачах стандартизации и управления качеством используют семейство гамма-распределений. Плотность гамма-распределения имеет вид

Плотность вероятности в формуле (7) определяется тремя параметрами a, b, c , где a >2, b >0. При этом a является параметром формы, b - параметром масштаба и с - параметром сдвига. Множитель 1/Г(а) является нормировочным, он введен, чтобы

Здесь Г(а) - одна из используемых в математике специальных функций, так называемая "гамма-функция", по которой названо и распределение, задаваемое формулой (7),

Подробные решения задач оценивания параметров для гамма-распределения содержатся в разработанном нами государственном стандарте ГОСТ 11,011-83 «Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения». В настоящее время эта публикация используется в качестве методического материала для инженерно-технических работников промышленных предприятий и прикладных научно-исследовательских институтов.

Поскольку гамма-распределение зависит от трех параметров, то имеется 2 3 - 1 = 7 вариантов постановок задач оценивания. Они описаны в табл. 1. В табл. 2 приведены реальные данные о наработке резцов до предельного состояния, в часах. Упорядоченная выборка (вариационный ряд) объема n = 50 взята из государственного стандарта. Именно эти данные будут служить исходным материалом для демонстрации тех или иных методов оценивания параметров.

Выбор «наилучших» оценок в определенной параметрической модели прикладной статистики - научно-исследовательская работа, растянутая во времени. Выделим два этапа. Этап асимптотики : оценки строятся и сравниваются по их свойствам при безграничном росте объема выборки. На этом этапе рассматривают такие характеристики оценок, как состоятельность, асимптотическая эффективность и др. Этап конечных объемов выборки: оценки сравниваются, скажем, при n = 10. Ясно, что исследование начинается с этапа асимптотики: чтобы сравнивать оценки, надо сначала их построить и быть уверенными, что они не являются абсурдными (такую уверенность дает доказательство состоятельности).

Пример 2. Оценивание методом моментов параметров гамма-распределения в случае трех неизвестных параметров (строка 7 таблицы 1).

В соответствии с проведенными выше рассуждениями для оценивания трех параметров достаточно использовать три выборочных момента - выборочное среднее арифметическое:

выборочную дисперсию

и выборочный третий центральный момент

Приравнивая теоретические моменты, выраженные через параметры распределения, и выборочные моменты, получаем систему уравнений метода моментов:

Решая эту систему, находим оценки метода моментов. Подставляя второе уравнение в третье, получаем оценку метода моментов для параметра сдвига:

Подставляя эту оценку во второе уравнение, находим оценку метода моментов для параметра формы:

Наконец, из первого уравнения находим оценку для параметра сдвига:

Для реальных данных, приведенных выше в табл. 2, выборочное среднее арифметическое = 57,88, выборочная дисперсия s 2 = 663,00, выборочный третий центральный момент m 3 = 14927,91. Согласно только что полученным формулам оценки метода моментов таковы: a * = 5,23; b * = 11,26, c * = - 1,01.

Оценки параметров гамма-распределения, полученные методом моментов, являются функциями от выборочных моментов. В соответствии со сказанным выше они являются асимптотически нормальными случайными величинами. В табл. 3 приведены оценки метода моментов и их асимптотические дисперсии при различных вариантах сочетания известных и неизвестных параметров гамма-распределения.

Все оценки метода моментов, приведенные в табл. 3, включены в государственный стандарт. Они охватывают все постановки задач оценивания параметров гамма-распределения (см. табл. 1), кроме тех, когда неизвестен только один параметр - a или b . Для этих исключительных случаев разработаны специальные методы оценивания.

Поскольку асимптотическое распределение оценок метода моментов известно, то не представляет труда формулировка правил проверки статистических гипотез относительно значений параметров распределений, а также построение доверительных границ для параметров. Например, в вероятностной модели, когда все три параметра неизвестны, в соответствии с третьей строкой таблицы 3 нижняя доверительная граница для параметра а , соответствующая доверительной вероятности г = 0,95, в асимптотике имеет вид

а верхняя доверительная граница для той же доверительной вероятности такова

где а * - оценка метода моментов параметра формы (табл. 3).

Пример 3. Найдем ОМП для выборки из нормального распределения, каждый элемент которой имеет плотность

Таким образом, надо оценить двумерный параметр (m , у 2).

Произведение плотностей вероятностей для элементов выборки, т.е. функция правдоподобия, имеет вид

Требуется решить задачу оптимизации

Как и во многих иных случаях, задача оптимизации проще решается, если прологарифмировать функцию правдоподобия, т.е. перейти к функции

называемой логарифмической функцией правдоподобия. Для выборки из нормального распределения

Необходимым условием максимума является равенство 0 частных производных от логарифмической функции правдоподобия по параметрам, т.е.

Система (10) называется системой уравнений максимального правдоподобия. В общем случае число уравнений равно числу неизвестных параметров, а каждое из уравнений выписывается путем приравнивания 0 частной производной логарифмической функции правдоподобия по тому или иному параметру.

При дифференцировании по m первые два слагаемых в правой части формулы (9) обращаются в 0, а последнее слагаемое дает уравнение

Следовательно, оценкой m * максимального правдоподобия параметра m является выборочное среднее арифметическое,

Для нахождения оценки дисперсии необходимо решить уравнение

Легко видеть, что

Следовательно, оценкой (у 2)* максимального правдоподобия для дисперсии у 2 с учетом найденной ранее оценки для параметра m является выборочная дисперсия,

Итак, система уравнений максимального правдоподобия решена аналитически, ОМП для математического ожидания и дисперсии нормального распределения - это выборочное среднее арифметическое и выборочная дисперсия. Отметим, что последняя оценка является смещенной.

Отметим, что в условиях примера 3 оценки метода максимального правдоподобия совпадают с оценками метода моментов. Причем вид оценок метода моментов очевиден и не требует проведения каких-либо рассуждений.

Пример 4. Попытаемся проникнуть в тайный смысл следующей фразы основателя современной статистики Рональда Фишера: “нет ничего проще, чем придумать оценку параметра”. Классик иронизировал: он имел в виду, что легко придумать плохую оценку. Хорошую оценку не надо придумывать (!) - ее надо получать стандартным образом, используя принцип максимального правдоподобия.

Задача. Согласно H 0 математические ожидания трех независимых пуассоновских случайных величин связаны линейной зависимостью: .

Даны реализации этих величин. Требуется оценить два параметра линейной зависимости и проверить H 0 .

Для наглядности можно представить линейную регрессию, которая в точках принимает средние значения. Пусть получены значения. Что можно сказать о величине и справедливости H 0 ?

Наивный подход

Казалось бы, оценить параметры можно из элементарного здравого смысла. Оценку наклона прямой регрессии получим, поделив приращение при переходе от x 1 =-1 к x 3 =+1 на, а оценку значения найдем как среднее арифметическое:

Легко проверить, что математические ожидания оценок равны (оценки несмещенные).

После того как оценки получены, H 0 проверяют как обычно с помощью хи-квадрат критерия Пирсона:

Оценки ожидаемых частот можно получить, исходя из оценок:

При этом, если наши оценки ”правильные”, то расстояние Пирсона будет распределено как случайная величина хи-квадрат с одной степенью свободы: 3-2=1. Напомним, что мы оцениваем два параметра, подгоняя данные под нашу модель. При этом сумма не фиксирована, поэтому дополнительную единицу вычитать не нужно.

Однако, подставив, получим странный результат:

С одной стороны ясно, что для данных частот нет оснований отвергать H 0 , но мы не в состоянии это проверить с помощью хи-квадрат критерия, так как оценка ожидаемой частоты в первой точке оказывается отрицательной. Итак, найденные из “здравого смысла” оценки не позволяют решить задачу в общем случае.

Метод максимального правдоподобия

Случайные величины независимы и имеют пуассоновское распределение. Вероятность получить значения равна:

Согласно принципу максимального правдоподобия значения неизвестных параметров надо искать, требуя, чтобы вероятность получить значения была максимальной:

Если постоянны, то мы имеем дело с обычной вероятностью. Фишер предложил новый термин “правдоподобие” для случая, когда постоянны, а переменными считаются. Если правдоподобие оказывается произведением вероятностей независимых событий, то естественно превратить произведение в сумму и дальше иметь дело с логарифмом правдоподобия:

Здесь все слагаемые, которые не зависят от, обозначены и в окончательном выражении отброшены. Чтобы найти максимум логарифма правдоподобия, приравняем производные по к нулю:

Решая эти уравнения, получим:

Таковы “правильные” выражения для оценок. Оценка среднего значения совпадает с тем, что предлагал здравый смысл, однако оценки для наклона различаются: . Что можно сказать по поводу формулы для?

  • 1) Кажется странным, что ответ зависит от частоты в средней точке, так как величина определяет угол наклона прямой.
  • 2) Тем не менее, если справедлива H 0 (линия регрессии - прямая), то при больших значениях наблюдаемых частот, они становятся близки к своим математическим ожиданием. Поэтому: , и оценка максимального правдоподобия становится близка к результату, полученному из здравого смысла.

3) Преимущества оценки начинают ощущаться, когда мы замечаем, что все ожидаемые частоты теперь оказываются всегда положительными:

Это было не так для “наивных” оценок, поэтому применить хи-квадрат критерий можно было не всегда (попытка заменить отрицательную или равную нулю ожидаемую частоту на единицу не спасает положения).

4) Численные расчеты показывают, что наивными оценками можно пользоваться только, если ожидаемые частоты достаточно велики. Если использовать их при малых значениях, то вычисленное расстояние Пирсона часто будет оказываться чрезмерно большим.

Вывод : Правильный выбор оценки важен, так как в противном случае проверить гипотезу с помощью критерия хи-квадрат не удастся. Оценка, казалось бы, очевидная может оказаться непригодной!