Параметрические и непараметрические методы проверки статистических гипотез. Т-критерий Вилкоксона для зависимых выборок

Основные методы математической статистики - оценка параметров распределения, проверка статистических гипотез, дисперсионный анализ - применяются в предположении, что распределение генеральной совокупности известно. В частности, t - критерий для сравнения средних двух генеральных совокупностей и однофакторный дисперсионный анализ для сравнения средних нескольких совокупностей пригодны только в случае нормального распределения последних. Однако нередко встречаются данные, для которых эти предположения не выполняются. Например, результаты социологических опросов обычно имеют форму ответов типа "да" или "нет" и представляются в виде таблиц, содержащих частоты положительных и отрицательных ответов. Традиционные методы математической статистики не могут использоваться для обработки таких данных. В этих случаях обращаются к непараметрическим методам, т.е. методам, не зависящим от распределения генеральной совокупности.

Непараметрические методы применяются для качественных данных, представленных в номинальной шкале, данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов), а также количественных данных в том случае, когда распределение генеральной совокупности нельзя определить, так как выборка мала, либо когда распределение не следует

нормальному закону и параметрические методы не применимы.

В пакете STATISTICA непараметрические

Рис .4.1. Стартовая панель модуля Nonpametrics/Distrib

процедуры выполняются в модуле

Nonpametrics/Distrib. Стартовая панель модуля приведена на рис.4.1.

Опишем последовательно соответствующие методы

и приведем примеры выполнения процедур.

В модуле Nonpametrics/Distrib содержится большое количество процедур. При решении конкретной задачи необходимо выбрать определенный метод. Помощь в таком выборе может оказать следующая классификация непараметрических методов, используемых для проверки гипотезы о том, что анализируемые данные - это выборки из однородных генеральных совокупностей. Заметим, что понятие однородности генеральных совокупностей понимается достаточно широко: это могут быть генеральные совокупности, имеющие одну и ту же

4) меры статистической зависимости: ранговый коэффициент корреляции Спирмена, коэффициент корреляции τ Кендалла.

2. Исходные данные: k независимых выборок объемами

n 1 ,n 2 , …,n k .

1) однофакторный дисперсионный анализ Краскела

Уоллиса.

2) медианный критерий.

3. Исходные данные: две связанные выборки объемами n .

Проверяемая гипотеза H 0 : выборки принадлежат однородным генеральным совокупностям.

1) критерий знаков;

2) критерий Вилкоксона.

4. Исходные данные: k связанных выборок объемамиn .

Проверяемая гипотеза H 0 : выборки принадлежат однородным генеральным совокупностям.

1) однофакторный анализ Фридмана;

2) меры связи - коэффициент конкордации Кендалла.

5. Связанные выборки, измеряемые в номинальной шкале.

5а) Исходные данные: две связанные выборки объемов n переменных X иY , каждая из которых

принимает

значения

Метод: критерий Макнимара.

5б) Исходные данные: две связанные выборки объемов n переменных X 1 ,X 2 , ...,X k , каждая из которых принимает два значения.

Проверяемая гипотеза H 0 : эффект воздействия отсутствует.

Метод : критерий Кокрена.

6. Независимые выборки, измеряемые в номинальной шкале.

6а) Исходные данные: выборки двух случайных переменных

X и Y , каждая из которых принимает два значения.

Проверяемая гипотеза H 0 :X иY независимы.Метод: анализ таблицы сопряженности2× 2

(точный критерий Фишера, критерий χ 2 ).

6б) Исходные данные: выборки k случайных переменных, каждая из которых принимаетr значений.

Проверяемая гипотеза H 0 : выборки получены из одной генеральной совокупности.

Метод: анализ таблицы сопряженностиk × r (критерийχ 2 ). Анализ таких таблиц проводится в

4.1. Таблицы сопряженности 2 × 2, статистикиχ 2 , φ, критерий Макнимара, точный критерий Фишера (2× 2 Tables

Xi/Vi/Phi, McNemar, Fisher exact)

В таблице сопряженности 2× 2 записываются частоты для двух случайных переменныхX иY , каждая из которых принимает два значения: 0 и 1, "да" и "нет" и т.д.

Пример 4.1. Чтобы определить отношение телезрителей разного пола к телевизионной передаче опросили 60 человек: 35 мужчин и 25 женщин. Оказалось, что 25 мужчин одобряют, а 10 - не одобряют передачу. В то же время 16 женщин высказывают свое отрицательное отношение к передаче, а 9 - положительное.

Выяснить, зависит ли отношение к передаче от пола телезрителей.

Решение. Данные можно записать в виде таблицы сопряженности2× 2 :

Отношение к передаче

Формально задача состоит в определении независимости двух рассматриваемых признаков X (пол) иY (отношение к передаче) или в проверке нулевой гипотезыH 0 : отношение к передаче не зависит

от пола при альтернативной гипотезе Н 1 : отношение к

передаче зависит от пола.

Эквивалентная формулировка такова. Рассмотрим две выборки: 35 мужчин и 25 женщин. Проверяется нулевая гипотеза H 0 : доля мужчин, одобряющих передачу (р 1 ), равна доле женщин, одобряющих

передачу (р 2 ), при альтернативной гипотезеН 1 : доли

мужчин и женщин, одобряющих передачу не равны. Нулевая гипотеза есть гипотеза о равенстве параметров р 1 ир 2 двух генеральных совокупностей, имеющих

биноминальное распределение.

Для проверки гипотезы H 0 применяется критерий Фишера , позволяющий рассчитать точные значения вероятностей наблюдаемых результатов и результатов с более крайними распределениями (см. , с. 345). Односторонние (one-tailed ) и двусторонние (twotailed ) уровни значимости p для критерия Фишера (Fisher exact p ) вычисляются и приводятся в таблице результатов выполнения процедуры для таблицы сопряженности 2× 2.

При объеме выборки n ³ 30 менее трудоемкой процедурой являетсякритерий χ 2 . Чтобы пояснить

необходимые расчеты, запишем таблицу сопряженности 2× 2 в следующем виде:

Отношение к передаче

n 11= a

n1* = a+ b

n 21= c

n2* = c+ d

n = a+ c

n = b+ d

n = a+ b+ c+ d

столбцам

В рассматриваемом примере эта таблица имеет вид:

Отношение к передаче

столбцам

Статистика критерия c 2

использует разности между

наблюдаемыми частотами a ,b ,c ,d и ожидаемыми частотамиa 0 , b 0 , c 0 , d 0 , вычисляемыми при условии, что гипотезаH 0 верна:

a 0 =(a + b ) (a + c ) =35 × 34 »19,83; n 60

b 0 = (a+ b) n (b+ d) = 35 60 × 26 » 15,17;

c 0 = (c + d ) (a + c ) = 25 × 34 » 14,17; n60

d 0 = (c+ d) n (b+ d) = 25 60 × 26 » 10,83.

Выборочное значение статистики c в 2 вычисляется по формуле:

(a - a

(b - b

(c - c

(d - d

n(ad - bc) 2

(a+ b)(c+ d)(a+ c)(b+ d)

При n → ∞ статистикаc в 2 имеет распределениеc 2 с одной степенью свободы. Если ожидаемые частоты≤ 5 , то выборочное значение статистикиc в 2 вычисляют с поправкой Йетса на непрерывность:

c2 =(

a - a0

0,5) 2

b - b0

0,5) 2

c - c0

0,5) 2

d - d0

0,5)

nç ad- bc-

(a+ b) (c+ d) (a+ c)(b+ d)

Гипотеза H 0 принимается на уровне значимостиα ,

если c 2 < c 2

(1 ) , гдеc 2

Квантиль распределения c 2

с одной степенью свободы порядка 1 – α.

выборочное

значение

c в 2 = 7,45,

с поправкой

Йетса c в 2 = 6,08 .

c 0,95 2 (1) = 3,84

(проверьте,

используя

статистический

калькулятор!) и c в 2 < 3,84 , то гипотезаH 0 отклоняется: на

значимости

отношение к передаче зависит от пола.

Эти же результаты получим, введя данные в соответствующую процедуру пакета STATISTICA. Таблица результатов приведена на рис.4.2.

Рис .4.2. Результаты процедуры2× 2 Tables…

Р -значения для статистикиχ 2 , статистикиχ 2 ,

скорректированной по Йетсу, и точного критерия Фишера для двусторонней проверки соответственно равны 0,0063; 0,0137 и 0,0087. Таким образом, на уровне значимости α = 0,05 гипотеза H 0 отклоняется. В таблице результатов приводится мера связи между переменными

X и Y - коэффициент фи- квадрат (средний коэффициент сопряженности):

ϕ2 =χ в 2 = 0,124. n

Значение ϕ 2 изменяется от 0 (между переменными

нет зависимости) до 1 (между переменными имеется абсолютная зависимость, т.е. все частоты расположены на диагонали таблицы 2× 2 ).

Критерий значимости изменений Макнимара

применяется, если исходные данные - две связанные выборки. Над одним и тем же объектом или индивидуумом проводятся два наблюдения: одно до, другое после некоторого воздействия (приема лекарства, обучения, рекламной компании и т.д.).

2.1. Основные понятия

Параметрические методы обработки экспериментальных данных опираются на основополагающий факт, в соответствии с которым свойства результатов экспериментальных исследований, рассматриваемых как случайные объекты, описываются некоторым законом распределения. При этом предполагается, что анализ экспериментальных данных позволяет с достаточной степенью точности определить вид и конкретную форму закона распределения или значения его параметров, если нет необходимости в использовании самого закона. Такая информация даёт возможность в полном объёме использовать методы теории вероятностей для решения задач обработки.

Так как действительный закон распределения и значения его параметров неизвестны, то параметрические методы оперируют с их приближениями – статистическими законами распределения и оценками параметров распределения.

Статистическим законом распределения случайной величины называется закон распределения данной величины, установленный с помощью статистических методов обработки данных.

Статистический закон распределения может быть определён в виде статистической функции распределения , статистической плотности распределения или статистического ряда распределения P * (x i ), .

Статистическими оценками параметров закона распределения случайной величины называются приближённые значения данных параметров (статистики), полученные с помощью статистических методов обработки данных.

В дальнейшем статистические оценки для краткости называются просто оценками.

Если некоторый закон распределения характеризуется параметрами a 1 , a 2 ,…, a m , то их оценки будем обозначать в виде , ,…,. Наиболее распространёнными видами параметров законов распределения при обработке экспериментальных данных являются математическое ожидание , дисперсия или среднее квадратическое отклонение , а для системы случайных величин – корреляционный момент или коэффициент корреляции . Иногда используются центральные моменты третьего и четвёртого порядков. Соответственно при обработке данных используются их статистические аналоги – оценки математического ожидания, корреляционного момента и т.д.

Таким образом, если имеется совокупность экспериментальных данных x 1 , x 2 ,…, x n , то и статистический закон распределения, например функция , и оценки его параметров представляют собой некоторые функции этих данных:

, . (2.1.2)

Вид статистик y и f j определяет качество оценок и . В связи с этим возникает ряд проблем, основной из которых является проблема определения условий, при которых оценки (2.1.1) и (2.1.2) могут с требуемой достоверностью представлять теоретические законы распределения и их параметры. Эти условия формируются предельными теоремами теории вероятностей. Именно они служат тем фундаментом параметрических методов обработки экспериментальных данных, на основе которого могут быть получены подходящие оценки законов и параметров распределения наблюдаемых характеристик.

Вторая проблема состоит в выборе достаточной статистики , т.е. такой статистики, которая позволяет в конкретных условиях получать оценки заданного качества. Так как на основе результатов наблюдений x 1 , x 2 ,…, x n может быть образован большой спектр статистик (2.1.1) и (2.1.2), данная проблема сводится к выбору из них оптимальной в определённом смысле статистики. Решение проблемы осуществляется методами теории статистических решений.

Как видно из рис.1.1, к проблеме принятия решений при обработке экспериментальных данных сводится не только задача выбора достаточной статистики. Большинство задач обработки данных в разной степени может быть отнесено к задачам принятия решений. В связи с этим фундаментом параметрических методов обработки служат также принципы принятия статистических решений, на основе которых сформированы критерии принятия оптимальных в определённом смысле решений. Особую роль среди данных принципов играет принцип максимального правдоподобия и вытекающий из него для случая нормального закона распределения метод наименьших квадратов.

В настоящей брошюре рассматриваются вопросы параметрической обработки экспериментальных данных.

2.2. Предельные теоремы теории вероятностей

Использование параметрических методов обработки данных предполагает выявление условий, определяющих справедливость априорных предположений о виде закона распределения исследуемой случайной величины и свойствах его параметров. Эти условия формулируются в виде предельных теорем теории вероятностей. Ниже излагаются содержание и сущность теорем без доказательства, а также некоторые рекомендации по их практическому применению.

Одним из факторов, ограничивающих применения статистических критериев, основанных на предположении нормальности, является объем выборки. До тех пор, пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если нет уверенности в том, что распределение переменной в генеральной совокупности является нормальным. Тем не менее, если выборка мала, то параметрические критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако и для таких переменных нет способа проверить это предположение на малой выборке (статистические критерии проверки на нормальность эффективно начинают работать на выборке содержащей не менее чем 51 наблюдение).

Непараметрические методы наиболее приемлемы, когда объем выборок мал и данные отнесены к порядковым или номинальным шкалам. Если же эмпирических данных достаточно много (например, n>100), то часто не имеет смысла и даже видится некорректным использовать непараметрическую статистику. Если размер выборки очень мал (например, n=10 или меньше), то уровни значимости р для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.



Применение критериев, основанных на предположении нормальности, кроме того, ограничено принадлежностью исследуемых признаков к определенной шкале измерений. Такие статистические методы, как, например, t-критерий Стьюдента (для зависимых и независимых выборок), линейная корреляция Пирсона, а также регрессионный, кластерный и факторный анализ предполагают, что исходные данные непрерывны (значения изучаемых переменных отнесены к интервальной шкале или шкале отношений). Однако имеются случаи, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно. Тогда целесообразным видится использовать такие статистические критерии, как, например, Т-критерий Вилкоксона, G-критерий знаков, U-критерий Манна‑Уитни, Z-критерий Валъда‑Волъфовица, ранговая корреляция Спирмена и др. На номинальных данных будут работать свои статистические методы, например, корреляция качественных признаков, ХИ-квадрат критерий, Q-критерий Кохрена и др. Выбор того или иного критерия сопряжен с гипотезой, которую выдвигает исследователь в ходе научных изысканий, и далее пытается ее доказать на эмпирическом уровне.

Итак, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива. В общем, эти процедуры попадают в одну из следующих категорий: (1) оценка степени зависимости между переменными; (2) критерии различия для независимых выборок; (3) критерии различия для зависимых выборок.

Для оценки зависимости (взаимосвязи), или степени тесноты (плотности, силы) связи, вычисляют коэффициент корреляции Пирсона (r). Строго говоря, его применение имеет также ограничения, связанные, например, с типом шкалы, в которой измерены данные и нелинейностью зависимости. Поэтому в качестве альтернативы используются непараметрические, или так называемые ранговые коэффициенты корреляции (например, коэффициент ранговой корреляции Спирмена (ρ), статистики тау Кендалла (τ), Гамма (Gamma)), применяемые для порядковых (ранжированных) данных. Если имеется более двух переменных, то используют коэффициент конкордации Кендалла (Kendall Coeff. of Concordance). Он применяется, например, для оценки согласованности мнений независимых экспертов (например, баллов, выставленных одному и тому же испытуемому, участнику конкурса).

Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий ХИ‑квадрат Пирсона с различными вариациями и поправками на точность.

Различия между независимыми группами . Если имеются две выборки (например, юноши и девушки), которые нужно сравнить относительно некоторого среднего значения, например, креативного мышления, то можно использовать t-критерий для независимых выборок (t-test for independent samples). Непараметрическими альтернативами этому тесту являются критерий серий Валъда‑Волъфовица (Wald-Wolfowitz runs test), U-критерий Манна-Уитни (Mann‑Whitney U test) и двухвыборочный критерий Колмогорова-Смирнова (Kolmogorov‑Smirnov two‑sample test). Следует помнить, что двухвыборочный критерий Колмогорова-Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением исследователь имеет дело.

Различия между зависимыми группами . Если надо сравнить две переменные, относящиеся к одной и той же выборке, например, показатели агрессивности одних и тех же испытуемых до и после коррекционной работы, то обычно используется t-критерий для зависимых выборок (t-test for dependent samples). Альтернативными непараметрическими тестами являются критерий знаков (Sign Test) и критерий Вилкоксона парных сравнений (Wilcoxon matched pair test). Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин.

Если рассматриваемые переменные категориальные (номинальные), то подходящим является ХИ-квадрат Макнемара (McNemar Chi-square). Если же имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: ХИ-квадрат (Chi-square), ФИ-коэффициент (Phi-square), точный критерий Фишера (Fisher exact).

В ниже приведенной таблице представлены параметрические критерии и их непараметрические альтернативы с учетом следующих категорий: 1) оценка степени зависимости между переменными; 2) критерии различия.

Таблица 4.1 - Параметрические и непараметрические критерии

Параметрические критерии Непараметрические критерии
оценка зависимости (взаимосвязи)
коэффициент корреляции Пирсона (r) ранговые коэффициенты корреляции (коэффициент ранговой корреляции Спирмена ρ), статистики тау Кендалла (τ), Гамма (Gamma)); ХИ‑квадрат Пирсона (для номинальных данных)
различия между независимыми группами
t-критерий Стьюдента для независимых выборок (t-test for independent samples) Z-критерий серий Валъда‑Волъфовица (Wald-Wolfowitz runs test), U-критерий Манна-Уитни (Mann‑Whitney U test), двухвыборочный критерий Колмогорова-Смирнова (Kolmogorov-Smirnov two‑sample test)
различия между зависимыми группами
t-критерий Стьюдента для зависимых выборок (t-test for dependent samples) G-критерий знаков (Sign Test), T-критерий Вилкоксона парных сравнений (Wilcoxon matched pair test); ХИ-квадрат Макнемара (McNemar Chi-square), ХИ-квадрат (Chi-square), коэффициент ФИ-квадрат (Phi-square), точный критерий Фишера (Fisher exact) (для номинальных данных)

Если рассматривается более двух переменных, относящихся к одной и той же выборке (например, до коррекции, после коррекции-1 и после коррекции-2), то обычно используется дисперсионный анализ с повторными измерениями, который можно рассматривать как обобщение t-критерия для зависимых выборок, позволяющее увеличить чувствительность анализа. Английское сокращение дисперсионного анализа - ANOVA (Analysis of Variation). Дисперсионный анализ позволяет одновременно контролировать не только базовый уровень зависимой переменной, но и другие факторы, а также включать в план эксперимента более одной зависимой переменной. Альтернативными непараметрическими методами являются дисперсионный анализ Краскела-Уоллиса и медианный тест (Kruskal-Wallis ANOVA, median test), ранговый дисперсионный анализ Фридмана (Friedman ANOVA by Ranks).

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Красноярского края

Государственное образовательное учреждение

высшего профессионального образования

«Сибирский государственный аэрокосмический университет

имени академика М.Ф. Решетнева»

Кафедра системного анализа и исследования операций

по теме: «Параметрические и непараметрические методы оценивания»

Выполнил студент

группы БС 11-01

Малаховский М. А.

Проверил преподаватель

Медведев А.В.

Красноярск 2013

ВВЕДЕНИЕ

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Параметрические методы оценки

Непараметрические методы оценки

ПРАКТИЧЕСКАЯ ЧАСТЬ

Практическая часть №1

Практическая часть №2

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

В последние годы сравнительно остро возникла проблема решения разнообразных задач кибернетики в условиях, когда объем априорной информации об исследуемом процессе или объекте оказывается довольно малым, и сведения о функции цели, ограничениях, действующих на него, не являются исчерпывающими. Это объясняется тем фактом, что быстрая замена одних технологических процессов другими, замена технологического оборудования или его модернизация приводят к необходимости развития методов и подходов построения разнообразных адаптивных систем, способных в процессе функционирования, с целью рационального ведения этих процессов, улучшать свои рабочие характеристики. Потребность в построении обучающихся систем возникает не только в технологических и производственных процессах, но и в других областях деятельности человека (экономика, медицина, социология, биология и т.п.). По существу речь идет об исследуемом объекте и достаточному для математической постановки задачи, которая имеет место в каждом конкретном случае.

Непараметрическая статистика, в частности стохастические аппроксимации различных типов, явились основой для разработки соответствующих адаптивных систем. Последние сохраняют основные свойства стохастических аппроксимаций, которые были положены в основу при их синтезе, и тесно связаны с объемом априорной информации. В данном реферате основное внимание уделяется изложению информации о параметрических и непараметрических системах адаптации.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Параметрические методы оценки

Процедура Роббинса-Монро

Пусть f(x) - некоторая неизвестная функция, значения которой могут быть измерены в любой точке x E 1 . Функция f(x) - монотонная, непрерывная и имеет единственный корень f(x)=0 в точке x 0 . Задача состоит в том, чтобы выработать такой план эксперимента, чтобы x s x 0 при s. Наблюдения y s =f(x s) статически независимы. Тогда имеем

y s +1 (x s , )=f (x s )+g (s +1,x s , (s +1, )),

где (s,) - последовательность независимых случайных величин, определенным на некотором вероятностном пространстве (,U,P) - элементарные случайные события, причем M{g(s,x,)}=0 при любых xE 1 . Для решения этой задачи Роббинса-Монро предложена следующая процедура

x s +1 =x s + s f s +1 (x s , ),

где x 0 - произвольное число. Последовательность положительных чисел s удовлетворяет условиям Роббинса-Монро

Первое из этих условий необходимо для сходимости x s к x 0 при s даже при отсутствии случайных ошибок. Иными словами, необходимо, чтобы s были не слишком малыми. с другой стороны s должны быть не слишком большими, в противном случае случайные ошибки нарушают эту сходимость, поэтому необходимо выполнение второго условия (1.4.5).

Теорема 1.1. Пусть выполнены неравенства:

1) sup f (x )(x-x 0)<0 >0,

<x-x 0 < -1 ,

2) f 2 (x )+M {g 2 (s,x, )}<b (1-x 2), b>0 - постоянная.

Тогда при выполнении условий Роббинса-Монро для любого xЕ 1 , процесс x s , определяемый (1.4.4), сходится с вероятностью 1 при s к корню уравнения f(x)=0, т.е. к x 0 и

P {lim x s =x 0 }=1.

Можно также показать, что x s сходится к x 0 в среднеквадратическом.

Алгоритм Литвакова

Алгоритм Литвакова позволяет отыскать близкое к оптимальному значение вектора параметров с помощью следующей процедуры

при не оптимальном.

Сущность его состоит в следующем.

Пусть дана обучающая выборка объема. Положив и, где а - некоторая постоянная, осуществляется итеративный процесс вычислений по формуле на п -ом шаге находится, которое принимается в качестве нового начального условия и процесс вычислений продолжается по той же самой выборке.

В результате получаем оценку. Продолжая этот процесс к -раз, найдем оценку. Результат Литвакова и состоит в том, что оценка для достаточно больших к (точнее) приближается к. Во многих практических задачах к не превышает 5.

Алгоритм Кестена

Известно, что скорость сходимости рекуррентных вероятностных алгоритмов типа при определяется степенным знаком - это следствие влияние помех. Если бы помехи отсутствовали, то следовало бы и скорость сходимости при этом возрастает и определяется показательным законом.

Сущность алгоритма Кестена состоит в том, что вдали от роль помех при измерениях мала и разность будет иметь постоянный знак, а вблизи знак уже существенно зависит от помех и будет меняться. Поэтому в алгоритме Кестена не меняется, когда разность уже не меняет своего знака, и меняется, если знак изменяется.

Чтобы определить разность необходимо по крайней мере два наблюдения. Поэтому и выбираются произвольно (обычно равными единице). Дальнейшее определение подчинено правилу

где целочисленная функция, определяемая выражением

где z - произвольный аргумент.

Непараметрические методы оценки

Здесь мы рассмотрим стохастические аппроксимации непараметрического типа. Основным их отличительным свойством от известных является отсутствие этапа выбора конкретной формы аппроксимирующего полинома с точностью до вектора параметров.

Непараметрические аппроксимации основаны на соответствующих оценках плотности вероятности, введенных Парзеном Е. в 1962 г.

Непараметрическая оценка плотности вероятности

Пусть х i ., статически независимые наблюдения случайной величины х, распределенной с плотностью вероятности р(х). Естественно связать с каждой точкой дельта функцию, тогда статистика

оказывается несмещенной оценкой р(х) .

Действительно, вычислим M{p(x)}:

Поскольку p(x 1)=p(x 2)=…=p(x n),то и

Следовательно,

Применяя известное свойство д-функции, получим а это и означает несмещенность данной оценки, но она не может быть использована в конкретных расчетах, поэтому естественно д-функцию "размазать" в окрестности точки

где уже не дельта-функция, но обращается в последнюю при n>?.Далее, в качестве мы будем рассматривать следующий тип колоколообразных функций

Тогда оценка p n (x)примет вид

где интегрируемая с квадратом функция Ф такова, что

а параметр С n (коэффициент размытости) удовлетворяет условиям:

C n >0, n=1,2…,

Непараметрическая оценка кривой регрессии

Пусть имеется статически независимые наблюдения двух случайных величин (х,у)=(х 1 ,у 1),…,(х n ,у n), распределенных с неизвестной плотностью вероятности Р(х,у). Предполагается, что р(х)>0 x(x). При аппроксимации неизвестных стохастических зависимостей у от х часто используют регрессию у по х:

непараметрическая оценка которой, как известно, имеет вид

Данную оценку можно получить из подстановкой в нее непараметрической оценки двумерной плотности вероятности Р(х,у) и при условии, что

Выполнение последнего требования всюду в дальнейшем предполагается.

ПРАКТИЧЕСКАЯ ЧАСТЬ

Практическая часть №1

Постановка цели

В первой части практической работы необходимо получить приближение зависимости, используя параметрические методы оценки.

Заранее известна функция, для которой нужно получить приближение - 1)y=0,35*cos(0.5x) - пробный эксперимент; 2)y=sin(0.5x). Исходя из зависимости, необходимо сформировать выборку, с помощью которой собственно и необходимо оценить параметры для приближения.

Практические результаты

Хотелось бы отметить, что, так как зависимость заранее известна и на заданном промежутке данная кривая схожа с прямой, параметр оценки всего один. Это сделано, прежде всего, для лучшего понимания процесса.

Для приближения не случайно выбрана несовпадающая структура, это вносит некоторые помехи в выборочные значения.

В данной работе использовалось процедура Робинса-Монро, которая была оптимизирована с помощью алгоритмов Литвакова и Кестона. В результате этой оптимизации, параметр не влияет на оценку параметра. Доказательством чего является процесс сходимости при разных.

1)y=0,35*cos(0.5x) - пробный эксперимент

В качестве приближения была выбрана следующая зависимость -

При выборке n=100

Увеличим выборку (n=400):

В качестве приближения возьмем -

При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу, требуют знания структуры.

В качестве приближения была выбрана следующая зависимость -

В целом, можно отметить, что полученные результаты достаточно неплохи, потому что график функции и приближения схожи, а значение среднеквадратической ошибки не так велико.

Вывод: При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу, требуют знания структуры. Если структура выбрана верно, то с увеличением выборки аппроксимация становится лучше.

Практическая часть №2

параметрический стохастический аппроксимация регрессия

Постановка задачи

В данной части работы необходимо получить приближение зависимости с помощью непараметрических методов оценки.

Также как и в первой работе, изначально известна функция - y=7 cos(x), для которой необходимо получить приближение. Исходя из данной зависимости, необходимо получить выборку значений. После чего, полученные выборочные значения должны быть использованы для получения зависимости. Зависимость нужно восстановить, используя методы непараметрической оценки.

Практические результаты

В данной работе получение приближения осуществлялось с помощью следующей оценки:

Параметр размытости (сглаживания) был определен следующим образом - =0,4. В результате получилось следующее приближение:

При выборке n=100

Попробуем увеличить выборку (n=400)

Аппроксимация становится лучше.

Для того чтобы убедиться в правильности работы процедуры, данная непараметрическая оценка была применена к другой функции: y=sin(x)

При выборке n=400

В данной работе проводились эксперименты со значением параметра размытости. Значение сначала было увеличено, затем уменьшено. Итогом увеличения параметра стало следующее приближение:

При выборке n=100 и =7

Аппроксимация хуже, что еще раз доказывает правильность работы процедуры.

А при выборке n=100 и =0.2:

Уменьшение же параметра не привило, к каким либо кардинальным изменениям, в силу того, значение параметра =0,4 достаточно мало, чтобы получить достойное приближение.

Попробуем одновременно увеличить выборку и параметр размытости:

Точная аппроксимация, совпадение с истиной.

Вывод: При увеличении объема выборки и уменьшении параметра размытости аппроксимация улучшается, независимо от функции, для которой необходимо получить приближение, не требуется знание структуры.

ЗАКЛЮЧЕНИЕ

Таким образом, можно сделать следующие выводы:

«Параметрический подход» подразумевает, что мы знаем структуру исследуемого процесса или объекта, но не знаем параметры этой структуры, эти параметры необходимо определить.

От уровня априорной информации зависит то, с каким видом алгоритма (параметрическим или непараметрическим) мы будем работать. Если априорной информации достаточно для выбора структуры объекта, то можно работать с параметрическими алгоритмами. Непараметрический подход используется в случаях недостаточной априорной информации об изучаемом процессе, объекте. Непараметрический и параметрический подходы имеют свои преимущества и недостатки.

Преимущества параметрических алгоритмов:

· Менее ресурсоемкие алгоритмы (требует меньшего количества вычислительных операций в сравнении с непараметрическими алгоритмами);

· После определения неизвестных коэффициентов мы можем определить характер поведения объекта или процесса в любой части допустимой области.

Недостатки параметрических алгоритмов:

· Требуют знания структуры объекта, процесса;

· При сходимости по параметрам, но при неправильном выборе структуры, модель может быть неадекватной реальному объекту или процессу.

Преимущества непараметрических алгоритмов (непараметрическая аппроксимация):

· Отсутствие необходимости выбора структуры объекта с точностью до вектора неизвестных параметров;

· Универсальность алгоритмов позволяет работать с различными зависимостями;

· При увеличении объема выборки, согласно среднеквадратичной сходимости, оценка функциональной зависимости сходится к истинной зависимости.

Недостатки непараметрических алгоритмов (непараметрическая аппроксимация):

· Большое число вычислительных операций (в сравнении с параметрическим подходом);

· Являются более сложными методами обработки исходной информации (выборки).

СПИСОК ЛИТЕРАТУРЫ

1. Медведев А.В. Математические основы теории адаптивных систем. Красноярск, СибГАУ, 2007.

2. Методы стохастической аппроксимации.

Размещено на Allbest.ru

Подобные документы

    Главная задача спектрального анализа временных рядов. Параметрические и непараметрические методы спектрального анализа. Сущность понятия "временный ряд". График оценки спектральной плотности для окна Дирихле, при центрированном случайном процессе.

    курсовая работа , добавлен 17.09.2009

    Первые два момента состоятельной оценки спектральной плотности, исследование асимптотического поведения математического ожидания и дисперсии построенной оценки. Сравнительный анализ оценки спектральной плотности в зависимости от окон просмотра данных.

    курсовая работа , добавлен 12.04.2012

    Формализм Якверта. Оценка физической плотности вероятности для оценки риск-нейтральной плотности. Оценка опционов на покупку по теореме Бридена–Литценбергера. Использование свойств функции полезности Канемана–Тверски для прогнозирования финансовых рынков.

    контрольная работа , добавлен 17.10.2016

    Исследование первого момента состоятельной оценки взаимной спектральной плотности. Задачи спектрального анализа временных рядов. Графики оценки для временного ряда, представляющего собой последовательность наблюдений температуры воздуха в городе Бресте.

    курсовая работа , добавлен 16.08.2011

    Исследование кривой второго порядка. Определение типа кривой с помощью инвариантов. Приведение к каноническому виду, построение графиков. Исследование поверхности второго порядка. Определение типа поверхности. Анализ формы поверхности методом сечений.

    курсовая работа , добавлен 28.06.2009

    Оценивание параметров закона распределения случайной величины. Точечная и интервальная оценки параметров распределения. Проверка статистической гипотезы о виде закона распределения, нахождение параметров системы. График оценки плотности вероятности.

    курсовая работа , добавлен 28.09.2014

    Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа , добавлен 30.11.2013

    Подходы к оценке кредитного риска: недостатки методик Базеля II. Модели оценки: качество и прозрачность методик, структура данных. Скоринговые методики, кластерный и дискриминантный анализ, нейронные сети и дерево классификаций, data mining и регрессии.

    курсовая работа , добавлен 21.08.2008

    Понятие вероятности события. Петербургский парадокс. Выявление наличия взаимосвязи между признаками в регрессионном анализе. Сравнение коэффициентов корреляции и регрессии. Нахождение тренда с прогнозами в Excel. Методы математического программирования.

    контрольная работа , добавлен 12.02.2014

    Определение вероятности наступления определенного события по законам теории вероятности. Вычисление математического ожидания, дисперсии и среднего квадратичного отклонения. Нахождение выборочного уравнения регрессии по данным корреляционной таблицы.

Статистические шкалы

Статистическая обработка данных исследования

Статистические данные применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в эксперименте, возможно больше полезной информации.

Применение тех или иных статистических методов определяется тем, к какой статистической шкале относится полученный материал.

Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству, а порядок не важен. Например, распределение участников конференции. При статистической обработке таких материалов нужно считаться с тем, каким числом единиц представлен каждый объект.

Шкала порядка. Порядок следования объектов находится в центре внимания. К этой шкале в статистике относятся такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше – меньше, выше – ниже и т.п.

Проще всего показать типические особенности шкалы порядка, если обратиться к итогам любых спортивных соревнований. В них последовательно перечисляются участники, занявшие соответственно первое, второе, третье и прочие

по порядку места, а сведения о фактических достижениях спортсменов отходят на второй план, или отсутствуют.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения, которая была ба при всех повторных измерениях тождественной самой себе.

Шкала отношений. К этой шкале относятся материалы, в которых учитывается не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет.

Если данные, которыми располагает исследователь, при их внимательном рассмотрении лишь в незначительной степени расходятся с кривой нормального распределения Гаусса, то это дает право исследователю применять в статистической обработке параметрические методы, исходные положения которых основываются на нормальной кривой распределения Гаусса. Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее арифметическое, значение которого должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение – величины, характеризующей размах колебаний данной кривой.

При невозможности применить параметрические методы, надлежит обратиться к непараметрическим.