Для чего нужны критерии согласия. Смотреть страницы где упоминается термин критерий согласия

Теоретические и эмпирические частоты. Проверка на нормальность распределения

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

    расхождение случайно и связано с ограниченным количеством наблюдений;

    расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

    Σƒ i- сумма накопленных (кумулятивных) эмпирических частот

    h - разность между двумя соседними вариантами

    σ - выборочное среднеквадратическое отклонение

    t–нормированное (стандартизированное) отклонение

    φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т) и эмпирическими (f) частотами к теоретическим частотам:

    k–число групп, на которые разбито эмпирическое распределение,

    f i –наблюдаемая частота признака в i-й группе,

    f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν). Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений. По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

    Сравнивают фактические и теоретические частоты.

    По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.

    Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:

По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ

Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения

Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.

Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

Была рассмотрена в гл. 5 здесь мы применим данный метод к проектам капиталовложений. Ограничения и условия, при которых используется этот метод, будут обсуждены в гл. 15, где мы рассмотрим критерий согласия для рисковых инвестиций. Наша цель здесь - только показать, как измеряется риск для комбинаций рисковых инвестиций, допуская, что такой критерий необходим.  

Следующий этап связан с использованием высших производных (формула Тейлора), и завершается этот этап обзором метода в целом.Далее рассматриваются некоторые вопросы численной характеристики функций - численных методов (приложение дифференциального исчисления к приближенным вычислениям). На этом этапе устанавливается погрешность уклонения ломаных из секущих, ломаной из касательной, кусочных кривых из парабол Тейлора более высоких степеней от данной функции в зависимости от ее дифференциальных свойств, и сравнивается погрешность. Для простоты рассматривается случай равноотстоящих узлов. Тем самым, устанавливаются границы применимости метода дифференциального исчисления. В качестве дальнейшего развития этого этапа можно рассматривать и другие приближающие модели, конструирование их, руководствуясь, например, следующей схемой 1.Какие узлы мы мы будем использовать 2. Какой класс приближающих функции будем использовать 3. Какой критерий согласия мы применим 4. Какую точность мы хотим  

В данном анализе при оценке степени согласованности эмпирического и теоретического распределения использовался основанный на критерии Пирсона критерий согласия В. И. Романовского  

Результаты расчетов параметров кривых распределения приведены в табл. 10. Расчетные частоты вычислялись по формулам 10, 11, 12. Объективной оценкой степени совпадения эмпирических и теоретических частостей является критерий согласия (в данном исследовании использовался критерий согласия В. И. Романовского ). Проверка показала, что исследуемые эмпирические интервальные ряды распределения времени пролеживания предметов труда в переходящих заделах достаточно точно описываются найденными кривыми функции плотности р (х).  

Число единиц в выборке, N Величина интервала, Н Показатель асимметрии ряда, гл Показатель эксцесса , Ех Дисперсия, а Среднее значение , X Критерий согласия, К  

Полученное эмпирическое распределение будет аппроксимировано непрерывной аналитической функцией , то есть будет идентифицирован закон распределения случайной величины . Также рассмотрено использование критериев согласия при идентификации закона распределения.  

Использование критериев согласия при идентификации закона распределения случайной величины.  

При использовании критерия согласия Пирсона необходимо вычислить величину  

Следует особо подчеркнуть, что при проверке модели по критерию согласия определенным является лишь отрицательный ответ, то есть отклонение модели.  

Положительный ответ означает лишь то, что модель не противоречит эмпирическим данным. Это вовсе не означает, что именно этой моделью данные описываются на самом деле, что это наилучшая модель, что нельзя подобрать другую модель для описания данных и т.д. Фактически, положительный ответ при проверке по критерию согласия следует понимать как "возможно эти данные описываются такой-то моделью", и не более того.  

Полученная гистограмма проверяется на соответствие нормальному распределению с помощью критерия согласия Пирсона.  

Во многих реальных задачах основной трудностью оказывается то, что нейронная сеть не может достаточно ясно показать причинно-следственные связи и выдает какое-то решение по принципу черного ящика . При этом в финансовом анализе для оценки состояния дел предприятий уже давно используются специально подобранные комбинаций различных показателей, а качество модели оценивается с помощью критериев согласия без учета структуры модели . По существу, все сводится к выбору показателя (или комбинации показателей), соответствующего решающему правилу, которое позволяет включить (или не включать) данное предприятие в ту или иную группу (жизнеспособные, быстро растущие, высокоприбыльные).  

По данным задачи 21 проведите выравнивание ряда распределения населения по размеру среднедушевых денежных доходов по кривой нормального распределения . Постройте графики эмпирического и теоретического распределений. Оцените близость эмпирического и теоретического распределений, используя критерии согласия [Пирсона (хи-квадрат), Колмогорова или др.]  

Независимо от вида используемого критерия согласия в про-  

Для С.п.г. используются разные критерии. В частности, когда проверяется согласие между выборочным и гипотетическим распределениями, используется критерий согласия, напр., т.н. критерий Пирсона "хи-квадрат". См. также Ошибка.  

Заменяя в формуле (2.15) М[Н(х) и D уравнениями (2.3), выводим окончательную формулу информационного критерия согласия  

В табл. 2.3 приведены значения энтропийных параметров наиболее часто встречающихся в технических приложениях законов распределения . Таблица энтропийных параметров различных законов распределения предоставляет возможность при применении информационного критерия согласия проверить одновременно несколько гипотез, что по существующим методикам сделать без дополнительных расчетов нельзя.  

Поскольку наиболее распространенным является критерий согласия Пирсона, проведем сравнение информационного критерия J с критерием %2.  

При выравнивании эмпирического распределения нулевая гипотеза принимается, если при применении информационного критерия согласия  

ГОСТ 8.532-85 предлагает с помощью критериев согласия не менее чем при 10 %-ном уровне значимости при и>50 и при 15 нормального распределения - с помощью критерия Вилкоксона для разностей пар - для проверки симметричности распределения) относить массив результатов аттестации СО к одному из классов распределений нормальному , симметричному, несимметричному. Для каждого класса распределений значения основных метрологических характеристик СО определяют различными способами.  

Для определения степени согласованности эмпирического и теоретического распределений предложены различные критерии согласия. Так, известны критерий согласия Пирсона, Романовского, Колмогорова, Ястремского. Критерий согласия Пирсона сводится к исчислению по распределению Пирсона вероятности достижения л 2 данного значения Р = х2. При этом х2 рассчитывается по формуле (9.3)  

В отсутствие каких-либо готовых схем для оптимального выбора модели исследователь должен опробовать различные статистические критерии согласия. Так, Утанс и Муди оценивали риск предсказания, полученный при различных архитектурах сети, а Каяма и др. находили общее число дублирующих друг друга элементов в скрытом слое. Мы же просто сравнивали величины квадратного корня из среднеквадратичной ошибки (RMSE) на тестовом множестве, состоящем из 60 наблюдений, относящихся к последним 5 годам интервала наблюдений (1981-85 гг.). Для дальнейшей работы была взята та архитектура сети, которая давала наименьшее RMSE.  

Эти критерии согласия позволяют провести проверку гипоте-  

При оценивании энтропии н.с.в. встает вопрос о выборе количества интервалов разбиения экспериментальных данных. Эта задача аналогична типичным задачам математической статистики определение закона распределения , расчет оценок эмпирических распределений, вычисление критериев согласия. А. Хальд показал, что существует оптимальное число интервалов группирования, когда ступенчатая огибающая гистограмма наиболее близка к плавной кривой распределения генеральной совокупности . Можно сформулировать ряд критериев такой близости, используя показатели в виде эксцесса, критерия %2 и т. д. . Различные критерии дают несколько различающиеся значения оптимального числа интервалов группирования. Однако сам факт существования оптимума не зависит от выбора критерия близости, так как при группировании данных в слишком большое число мелких интервалов некоторые из них окажутся пустыми или мало заполненными. Гистограмма будет отличаться от плавной кривой распределения вследствие изрезанности многими всплесками и провалами.  

Шторм Р. рекомендует для определения оптимального числа интервалов формулу Брукса и Каррузера k = 5 lg п. В работе рекомендуется соотношение k = 4п. В работе приводится таблица, согласно которой числа интервалов назначаются от 7 до 22 в зависимости от объема выборки от 40 до 10000. Сравнение указанных рекомендаций, приведенное на рис. 2.2, указывает на близость рекомендаций при п - 100 с последующим увеличивающимся расхождением их по мере увеличения объема выборки. Отдельную группу составляют рекомендации по использованию критерия согласия %2. Применение критерия %2 к интервалам постоянной длины неэффективно . Исходная посылка всех работ по эффективности критерия х2 - рассмотрение интервалов с равной вероятностью. Однако практически эти рекомендации не используются из-за сложности их применения. Учитывая разнородность перечисленных рекомендаций, возникает необходимость отдельного исследования влияния числа интервалов при использовании информационных методов анализа технологических процессов.  

Можно выбрать 6 или 7 интервалов. Определяем зону рассеяния размеров R. Устанавливаем максимальное значение размера х = 0,126 и минимальное хт а= - 0,149, размах R = дгтах - xmin = 0,275 мм. Выбираем 7 интервалов и определяем их цену деления С = RI k 0,04 мм. Подсчитаем число отклонений размеров, попавших в соответствующий интервал. Результаты (табл. 2.5) позволяют выдвинуть гипотезу о распределении исследуемых погрешностей по закону Гаусса. Для проверки гипотезы необходимо подготовить данные, входящие в состав

В настоящем п° мы рассмотрим один из вопросов, связанных с проверкой правдоподобия гипотез, а именно-вопрос о согласован­ности теоретического и статистического распределения.

Допустим, что данное статистическое распределение выравнено с помощью некоторой теоретической кривой f (х) (рис. 7.6.1). Как бы хорошо ни была подобрана теоретическая кривая, между нею и статистическим распределением неизбежны некоторые расхождения. Естественно возникает вопрос: объясняются ли эти расхождения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связаны с тем, что подобранная нами кривая плохо выравнивает данное ста­тистическое распределение. Для ответа на такой вопрос служат так называемые «критерии согласия».

ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН



Идея применения критериев согласия заключается в следующем.

На основании данного статистического материала нам предстоит проверить гипотезу Н, состоящую в том, что случайная величина X подчиняется некоторому определенному закону распределения. Этот закон может быть задан в той или иной форме: например, в виде функции распределения F(x) или в виде плотности распределения f (х), или же в виде совокупности вероятностей p t , где p t - вероятность того, что величина X попадет в пределы l-то разряда.

Так как из этих форм функция распределения F (х) является наиболее общей и определяет собой любую другую, будем форму­лировать гипотезу Н, как состоящую в том, что величина X имеет функцию распределения ^(д:).

Для того чтобы принять или опровергнуть гипотезу Н, рассмот­рим некоторую величину U, характеризующую степень расхожде­ния теоретического и статистического распределений. Величина U может быть выбрана различными способами; например, в качестве U можно взять сумму квадратов отклонений теоретических вероятно­стей p t от соответствующих частот р* или же сумму тех"*же квад­ратов с некоторыми коэффициентами («весами»), или же максимальное отклонение статистической функции распределения F*(x) от теоре­тической F(x) и т. д. Допустим, что величина U выбрана тем или иным способом. Очевидно, это есть некоторая случайная величина. Закон распределения этой случайной величины зависит от закона распределения случайной величины X, над которой производились опыты, и от числа опытов п. Если гипотеза Н верна, то закон рас­пределения величины U определяется законом распределения вели­чины X (функцией F(x)) и числом п.

Допустим, что этот закон распределения нам известен. В рез­ультате данной серии опытов обнаружено, что выбранная нами мера



КРИТЕРИИ СОГЛАСИЯ


расхождения U приняла некоторое значение а. Спрашивается, можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим распределениями и, следовательно, на непригодность гипотезы Н? Для ответа на этот вопрос предпо­ложим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недо­статочным объемом опытного материала, мера расхождения U ока­жется не меньше, чем наблюденное нами в опыте значение и, т. е. вычислим вероятность события:

Если эта вероятность весьма мала, то гипотезу Н следует отверг­нуть как мало правдоподобную; если же эта вероятность значительна, следует признать, что экспериментальные данные не противоречат гипотезе Н.

Возникает вопрос о том, каким же способом следует выбирать меру расхождения £/? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом п практически не зависит от функции F(x). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Рассмотрим один из наиболее часто применяемых критериев со­гласия- так называемый «критерий у?» Пирсона.

Предположим, что произведено га независимых опытов, в каждом из которых случайная величина X приняла определенное значение. Результаты опытов сведены в k разрядов и оформлены в виде ста­тистического ряда.

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения , являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

  • расхождение случайно и связано с ограниченным количеством наблюдений;
  • расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

  • Σƒ i - сумма накопленных (кумулятивных) эмпирических частот
  • h - разность между двумя соседними вариантами
  • σ - выборочное среднеквадратическое отклонение
  • t–нормированное (стандартизированное) отклонение
  • φ(t)–функция плотности вероятности нормального распределения (находят по для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т ) и эмпирическими (f) частотами к теоретическим частотам:

  • k–число групп, на которые разбито эмпирическое распределение,
  • f i –наблюдаемая частота признака в i-й группе,
  • f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл , то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

  1. Сравнивают фактические и теоретические частоты.
  2. По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
  3. Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.

Имеется несколько критериев согласия: $\chi ^2$ { хи-квадрат } К. Пирсона, Колмогорова, Смирнова и др.

Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.

Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.

На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5 { \% } $ уровень значимости.

В качестве критерия проверки гипотезы примем величину \begin{equation} \label { eq1 } \chi ^2=\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } \qquad (1) \end{equation}

здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i" -$ теоретические частоты, найденные теоретическим путём.

Доказано, что при $n\to \infty $ закон распределения случайной величины { 1 } независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ { хи-квадрат } с $k$ степенями свободы.

Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.

1) равномерное распределение: $r=2, k=S-3 $

2) нормальное распределение: $r=2, k=S-3 $

3) показательное распределение: $r=1, k=S-2$.

Правило . Проверка гипотезы по критерию Пирсона.

  1. Для проверки гипотезы вычисляют теоретические частоты и находят $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $
  2. По таблице критических точек распределения $\chi ^2$ по заданному уровню значимости $\alpha $ и числу степеней свободы $k$ находят $\chi _ { кр } ^2 ({ \alpha ,k })$.
  3. Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } $

Проверка гипотезы о равномерном распределении

Функция плотности равномерного распределения величины $X$ имеет вид $f(x)=\frac { 1 } { b-a } x\in \left[ { a,b }\right]$.

Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:

1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $({ x_i ,x_ { i+1 } })$ по формуле $ P_i =P({ x_i

3) Найти теоретические { выравнивающие } частоты по формуле $n_i" =np_i $.

4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ({ \alpha ,k })$.

5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $.

6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Проверим гипотезу на нашем примере.

1) $\overline x _b =13,00\,\,\sigma _b =\sqrt { D_b } = 6,51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P({ x_i

$ P_2 =({ 3

$ P_3 =({ 7

$ P_4 =({ 11

$ P_5 =({ 15

$ P_6 =({ 19

В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы.

4) Найдём $n_i" =np_i $.

5) Найдём $\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ и найдём $\chi _ { набл } ^2 $.

Занесём все полученные значения в таблицу

\begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i" =np_i & n_i -n_i" & ({ n_i -n_i" })^2& \frac { ({ n_i -n_i" })^2 } { n_i" } & Контроль~ \frac { n_i^2 } { n_i" } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } =3,63985 \\ \hline \end{array}

$\chi _ { кр } ^2 ({ 0,05,3 })=7,8$

$\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$

Вывод отвергать гипотезу нет оснований.