Оценка распределения эмпирических данных. Эмпирическая функция распределения

Теоретической базой для математической статистики служит теория вероятностей, которая изучает закономерности случайных явлений в абстрактном виде. На основе этих закономерностей разрабатываются модели или законы распределения случайных величии.

Закон распределения дискретной величины - это задание вероятностей ее возможных значений X = х i . Закон распределения непрерывной случайной величины представляют в виде функции распределения значений X < x i , т. е. в интегральной форме и в виде плотности распределения. Вероятность отдельного значения непрерывной случайной величины равна 0, а вероятность значений, входящих в заданную градацию, равна приращению функции распределения на участке, занимаемом данной градацией Δх.

Каждое теоретическое распределение имеет характеристики, аналогичные характеристикам статистических распределений (математическое ожидание М, дисперсию D, коэффициенты вариации, асимметрии и эксцесса). Эти или другие константы, связанные с ними, носят название параметров распределения.

Подыскание теоретического распределения, соответствующего эмпирическому, или «выравнивание» его является одной из важных задач климатологической обработки. Если найдено и найдено удачно теоретическое распределение, то климатолог получает не только удобную форму представления изучаемой величины, которую можно закладывать в машинные расчеты, но и возможность расчета характеристик, непосредственно не содержащихся в исходном ряду, а также выявления определенных закономерностей. Так, наблюдавшиеся в пункте экстремумы, безусловно, представляют интерес. Однако их появление в имеющейся выборке в значительной степени случайно, поэтому они плохо картируются и иногда существенно различаются на соседних станциях. Если же с помощью найденных распределений определять экстремальные характеристики определенной обеспеченности, то они в значительной мере свободны от указанных недостатков и поэтому являются более представительными. Именно на расчетных экстремумах основаны различные нормативные требования. Поэтому подысканию теоретического распределения и проверке его правильности должно быть уделено особое внимание.

Параметры распределения можно определить разными способами, наиболее точным, но и одновременно сложным является метод максимума правдоподобия. В климатологической практике используется метод моментов.

Статистические характеристики рассматриваются как оценки параметров распределений, характеризующих генеральную совокупность значений данной случайной величины.

Метод моментов определения оценок параметров состоит в следующем. Математическое ожидание, теоретические коэффициенты асимметрии и эксцесса просто заменяются эмпирическим средним и эмпирическими коэффициентами; теоретическая дисперсия равна эмпирической, умноженной на . Если параметрами служат функции моментов, то они вычисляются по эмпирическим моментам.


Рассмотрим некоторые вероятностные модели, часто используемые в климатологии.

Для дискретных случайных величин используются биномиальные распределения и распределения Пуассона (простое и сложное).

Биномиальное распределение (Бернулли) возникает в результате повторения при постоянных условиях одного и того же испытания, имеющего два исхода: появления или непоявления события (в климатологии, например, отсутствие или наличие явления в каждый день года или месяца).

Случайная дискретная величина понимается при этом как число случаев осуществления некоторого случайного события (явления) из n возможных случаев и может принимать значения 0, 1, 2, ..., n.

Аналитическое выражение биномиального закона распределения имеет вид (5.1)

Закон определяет вероятность того, что событие, вероятность которого р, будет наблюдаться х раз при n испытаниях. Например, в климатологии день может быть либо с явлением, либо без явления (с туманом, с определенным количеством осадков, температурой воздуха определенных градаций и т. д.). Во всех этих случаях возможны два исхода, и на вопрос, сколько раз будет наблюдаться событие (например, день с туманом), ответ можно получить с помощью биномиального закона (5.1). При этом р принимается равным р*, т. е. относительной частоте - отношению числа случаев с явлением к общему числу случаев (формула (2.3)).

Например, если рассматривается число дней с туманом в августе и по многолетнему ряду установлено, что в среднем в августе бывает 5 дней с туманом, то относительная частота (вероятность) дня с туманом в августе {31 день) равна

Параметрами биномиального распределения являются n и р, которые связаны с математическим ожиданием (средним значением), средним квадратическим отклонением, коэффициентами асимметрии и эксцесса этого распределения следующими выражениями:

На рис. 5.1 приведены графики биномиального распределения при разных параметрах n и р.

Рассчитаем, например, пользуясь биномиальным законом, вероятность того, что в августе на станции будет наблюдаться три дня с туманом, если вероятность образования тумана в любой день августа (т. е. отношение среднего числа дней с туманом в августе к общему числу дней за месяц) составляет 0,16.

Так как n= 31, а 1 - р = 0,84, по формуле (5.1) получим

p(3)=0.1334≈0.13

Пределом биномиального распределения при условии, что рассматриваются маловероятные события в длинной серии независимых испытаний (наблюдений), является распределение Пуассона.

Случайная величина, распределенная по закону Пуассона, может принимать ряд значений, образующих бесконечную последовательность целых чисел 0, 1, 2, ∞ с вероятностью

где λ. -параметр, являющийся математическим ожиданием распределения.

Закон определяет вероятность того, что случайная величина будет наблюдаться х раз, если среднее ее значение (математическое ожидание) равно λ.

Обратим внимание на то, что параметром биномиального закона служит вероятность события р, и поэтому надо указать, из какого общего количества случаев n определяется вероятность р(х). В законе Пуассона параметром является среднее число случаев λ за рассматриваемый период, поэтому продолжительность периода непосредственно не входит в формулу.

Дисперсия распределения Пуассона и третий центральный момент равны математическому ожиданию, т. е. тоже равны λ.

При больших различиях между средним и дисперсией законом Пуассона пользоваться нельзя. Распределение Пуассона затабулировано и приводится во всех сборниках статистических таблиц, справочниках и учебниках по статистике. На рис. 5.2 приведено распределение числа дней с грозой (редкое событие) по закону Пуассона. Для Архангельска за год λ,= 11 дней и за июль λ = 4 дня. Как видно из рис. 5.2, в Архангельске вероятность восьми дней с грозой в июле составляет примерно 0,03, а вероятность восьми дней в году -около 0,10. Обратим внимание на одно обстоятельство. Часто среднее число дней с явлением в году λ при λ≤1 трактуют как величину, обратную периоду повторения T (например, λ= 0,3 - один день в три года, λ = 1-практически ежегодно).

Такой «осредненный» подход чреват ошибками, тем большим, чем больше λ. Даже если дни с явлением не связаны между собой, вероятны годы не с одним, а с несколькими днями. В результат соотношение Т = 1/λ оказывается неправильным. Так, при λ= 1 явление, как легко убедиться из формулы закона Пуассона, наблюдается не ежегодно, а только в 6-7 годах из 10. Вероятность того, что в году явление наблюдаться не будет, равна вероятности, что будет один день с явлением (0,37) и почти такая же, как вероятность, что будет два и более дней. Только при λ≤ 0,2 указанным соотношением можно пользоваться с достаточным основанием; потому что вероятность двух и более дней в году в этом случае менее 0,02 (реже, чем один раз в 50 лет).

Применение закона Пуассона к редким метеорологическим явлениям не всегда оказывается полезным. Например, иногда редкие явления могут следовать одно за другим вследствие того, что условия, их вызывающие, сохраняются длительное время, и условия закона Пуассона не выполняются.

Больше соответствует природе редких метеорологических явлений сложное распределение Пуассона (отрицательное биномиальное распределение). Оно возникает, когда ряд явлений можно рассматривать как значения разных случайных величин (выборки из разных генеральных совокупностей). Все эти величины имеют распределение Пуассона, но с разными параметрами λ 1 , λ 2 ..., λ k .

Сложное распределение Пуассона зависит с одной стороны от распределения совокупности параметров, а с другой - от распределения каждой из величин. Выражение для вероятности в случае данного распределения имеет вид

(5.2)

или в более удобной для расчетов форме

Математическое ожидание М и дисперсия D этого распределения связаны с его параметрами γ и λ формулами

(5.3)

Заменяя величины М и D их оценками и , получим

(5.4)

Расчеты p(x) можно упростить, пользуясь тем, что существует равенство

, (5.5)

. (5.6)

Следовательно,

Пример расчета . Рассчитаем распределение числа дней с сильным ветром на ст. Чулым для июля, если =1 день, σ=1,7 дня. Определим α и γ:

α≈

γ≈

Вероятность того, что не будет ни одного дня с сильным ветром, составит

p(0)=

Вероятность того, что будет один день с сильным ветром, равна p(1)= . График сложного распределения Пуассона представлен на рис. 5.3.

Для непрерывных случайных величин в климатологии чаще всего используются нормальное, логнормальное распределения, распределение Шарлье, гамма-распределение, распределения Вейбулла и Гумбеля, а также композиционный закон нормальной и равномерной плотности.

Наибольшее теоретическое и практическое значение имеет нормальный, или гауссовский, закон распределения. Этот закон является предельным для многих других теоретических распределений и образуется тогда, когда каждое значение случайной величины можно рассматривать как сумму достаточно большого числа независимых случайных величин.

Нормальный закон задается выражениями для плотности и функции распределения вида

Для определения способов математически-статистической обработки необходимо оценить характер распределения данных по всем параметрам (признакам). Для параметров, имеющих нормальный или близкий к нормальному распределение, можно использовать методы параметрической статистики, которые часто являются более результативными, чем методы непараметрической. Преимущество их состоит в возможности проверять статистические гипотезы независимо от формы распределения.

Нормальное распределение - вид распределения переменных, наблюдается при изменении признака (переменной) под влиянием многих относительно независимых факторов. Такое воздействие характерен для психических явлений, поэтому исследователь часто рассчитывает нормальное распределение для статистического описания совокупности эмпирических данных, оценки генеральной совокупности по выборке, для стандартного нормирования тестовых баллов и перевод их в шкальные оценки. На свойствах нормального распределения основываются статистические критерии проверки гипотез (г-критерий, критерий х2 "f-критерий Фишера, и критерий Стьюдента и т.п.). Основной целью выявления нормального распределения определение методов математически-статистической обработки данных.

При нормальном распределения показателей психологического признака или приближенного к нему, что описывает кривая Гаусса, можно использовать параметрические методы математической статистики как простые, надежные и достоверные: сравнительный анализ, расчет достоверности различий признаки между выборками по t-критерию Стьюдента, f-критерию Фишера, коэффициентом корреляции Пирсона и др.

Если кривая распределения показателей психологического признака удаленная от нормальной, исследователь вынужден использовать методы не параметрической статистики: расчет достоверности различий по критерию Q Розенбаума (для малых выборок), по U-критерию Манна - Уитни, коэффициент ранговой корреляции Спирмена, факторные, многофакторные, кластерный и другие методы анализа.

По характеру распределения можно получить общее представление об особенностях выборки испытуемых по определенному признаку и валидность методики по выборки.

Статистические выводы, сформированные на основе модели, приближенной к нормальному распределению, тоже приблизительными. Оценка приближения практической кривой с параметрами нормали осуществляется путем расчета коэффициентов асимметрии, эксцесса и критериев согласованности Пирсона, Колмогорова и Ястремского.

Коэффициент асимметрии Аs оценивает размещения вершины практической кривой по теоретической, показывает величину смещения вершины по расчетной вершины по горизонтали (вправо "+"; влево "-") (рис. 2.3).

Рис. 2.3. Социометрический распределение эмпирических данных

Коэффициент асимметрии - показатель скошенности распределения в левый или правый бок по оси абсцисс на рис. 2.4.

Рис. 2.4. Асимметричное распределение эмпирических данных

Если правая ветвь кривой длиннее левой, речь идет о правостороннюю (положительную) асимметрию, а если левая ветвь длиннее правой - о левосторонняя (отрицательную) асимметрию (рис. 2.5).

Рис. 2.5. Бимодальное распределение эмпирических данных (право - и левосторонняя асимметрия)

Коэффициент асимметрии Аs рассчитывают по формуле:

Коэффициент эксцесса Эх, то есть определенных "участков" (групп частот) практической кривой по теоретической нормали, определяет смещение практической кривой (вершины) (по вертикали - вверх "+"; вниз "-"). Эксцесс является показателем гостроверхости. Кривые, выше в средней части (островерхие) называют ексцесивнимы. При уменьшении величины эксцесса кривая становится плоской, приобретая вид плато, а затем и седловидным, то есть с прогибом в средней части (рис. 2.6).

Рис. 2.6. Показатели ексцесивности распределения

Эти параметры помогают получить первое приближенное представление о характере распределения:

В нормальном распределении редко можно найти коэффициент асимметрии, приближенный к единице и больше нее (1 и 1);

Эксцесс признаков с нормальным распределением обычно имеет величину в диапазоне 2-4.

В простом варианте показатели асимметрии и эксцесса с их ошибками репрезентативности определяют по следующим формулам:

Вычислить показатели асимметрии и эксцесса эмпирического распределения можно, используя функцию "Описательная статистика" в программе Excel.

Показатели асимметрии и эксцесса свидетельствуют о достоверной отличие эмпирических распределений от нормального в том случае, если они превышают по абсолютной величине свою ошибку репрезентативности в 3 и более раз:

Общей причиной отклонения формы выборочного распределения признака от нормального вида чаще всего является особенность процедуры измерения: шкала, которую используют, может иметь неравномерную чувствительность к свойству, измеряющие, в разных частях диапазона изменчивости.

Такие эмпирические отклонения от нормального вида, как право - или левосторонняя асимметрия или незначительный эксцесс (или бимодальное распределение) часто наблюдаются на практике. Связано это с особенностями экспериментальной выборки и измерительными процедурами, которые применяют.

Методы статистического анализа эмпирических данных допускают отклонения от нормального распределения (одни - в большей степени, другие - в меньшей). Однако если требуется убедительное обоснование полученных результатов и сделанных на их основе вычислений, как дополнительные следует использовать несложные методы нэп ара метрической статистики.

Кривая распределения тестовых баллов Гаусса в характеристике психологических явлений (оценок, результатов выполнения заданий и т.д.) отражает свойства пунктов, из которых составлен тест (задачи), а также характеризует состав выборки испытуемых (насколько успешно они выполняют задачи, насколько тест или задание дифференцируют выборку по соответствующей качеством, признаком).

Если кривая имеет правостороннюю асимметрию, это означает, что в тесте преобладают тяжелые задачи (для указанной выборки) если кривая имеет левостороннюю асимметрию, это свидетельствует, что большинство пунктов в тесте легкие. Это может быть обусловлено следующими причинами:

Тест (задания) плохо дифференцирует испытуемых с низким уровнем развития способностей (свойств, качеств, характеристик): большинство испытуемых получают примерно одинаковый низкий балл

Тест плохо дифференцирует испытуемых с высоким развитием способностей (свойств, качеств, характеристик): большинство испытуемых получают высокую оценку.

Анализ эксцесса кривой распределения позволяет сделать следующие выводы в зависимости от формы распределения показателей (данных, вариант) психологического признака:

1) когда возникает значительный положительный эксцесс (ексцесив - на кривая) и баллы концентрируются вблизи среднего значения (рис. 2.6, а), это могут вызывать такие причины:

Ключ составлен неправильно, то есть при подсчете соединены негативно связанные признаки, взаимно нейтрализуют балла. Использование валидных и надежных методик делает невозможным возникновение такой проблемы;

Испытуемые применяют, разгадав направленность теста (опросника), специальную тактику "медианного балла": искусственно балансируют ответы "за" и "против" в одном из полюсов психологического признака, измеряемая;

2) по подбору пунктов, тесно положительно коррелируют между собой (т.е. испытания не являются статистически независимыми), в распределении баллов возникает отрицательный эксцесс, что приобретает форму плато (рис. 2.6, б);

3) отрицательный эксцесс достигает максимальных величин с увеличением вогнутости вершины распределения до образования двух вершин - двух мод (с прогибом между ними, рис. 2.6, в). Такая бимодального конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории, подгруппы (с плавным переходом между ними): одни справились с большинством задач (согласились с большинством вопросов), другие - не справились (не согласились). Распределение свидетельствует, что в основе задач (пунктов) есть одна общая для всех признак, который соответствует определенной свойства испытуемых: если в исследуемых имеется это свойство (способность, знания, умения), то они справляются с большинством пунктов, задач, а при отсутствии ее - не справляются.

Первичные статистики чувствительны к наличию вариант, выпадают. Большие величины эксцесса и асимметрии часто являются индикатором ошибок при подсчетах вручную или при вводе данных с клавиатуры для компьютерного обработки. Грубые ошибки при вводе данных можно найти, сравнив величины сигм в аналогичных параметрах. Сигма может указывать на ошибки.

При этом соблюдаются правила, по которым все действия следует выполнять дважды (особо ответственные - трижды), желательно разными способами, с вариацией последовательности обращения к числового массива.

Большие показатели эксцесса и асимметрии могут быть вызваны недостаточной надежностью и валидностью методик.

В отдельной выборке нельзя полностью охарактеризовать целое (генеральную совокупность, популяцию), всегда есть вероятность недостаточно точной, даже ошибочной оценки генеральной совокупности на основе выборочных данных. Ошибки, обобщения, экстраполяции, связанные с переносом результатов, полученных при изучении выборки, на всю генеральную совокупность, их называют ошибками репрезентативности.

Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) частичные результаты, полученные на основе конкретных выборок. Величина ошибки тем выше, чем больше варьирования признака и чем меньше выборка. Это отражают формулы для вычисления статистических ошибок, характеризующие варьирование выборочных показателей вокруг их генеральных параметров. Поэтому в первичных статистик обязательно причисляют статистическую ошибку среднего арифметического. ее вычисляют по формуле:

Основные методы параметрической и непараметрической статистики позволяют обосновать результаты эмпирического психологического исследования.

Выборочная средняя.

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Выборочная дисперсия.

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения, вводят сводную характеристику- выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения признака выборки различны, то

Исправленная дисперсия.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии, т.е. математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно

Для исправления выборочной дисперсии достаточно умножить ее на дробь

Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

23. Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты и соединяют точки отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению . Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) . Площадь i–го прямоугольника равна – сумме частот вариант i–о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Эмпирическая функция распределения

где n x - число выборочных значений, меньших x ; n - объем выборки.

22Определим основные понятия математической статистики

. Основные понятия математической статистики. Генеральная совокупность и выборка. Вариационный ряд, статистический ряд. Группированная выборка. Группированный статистический ряд. Полигон частот. Выборочная функция распределения и гистограмма.

Генеральная совокупность – все множество имеющихся объектов.

Выборка – набор объектов, случайно отобранных из генеральной совокупности.

Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – стати-стическим рядом :чайно отобранных из генеральной совокупности.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению .

Выборочной (эмпирической) функцией распределения называют функцию F* (x ), определяющую для каждого значения х относительную частоту события X < x.

Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку . Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h , а затем находят для каждого частичного интервала n i – сумму частот вариант, попавших в i -й интервал.

20. Под законом больших чисел не следует понимать какой-то один общий закон, связанный с большими числами. Закон больших чисел - это обобщенное название нескольких теорем, из которых следует, что при неограниченном увеличении числа испытаний средние величины стремятся к некоторым постоянным.

К ним относятся теоремы Чебышева и Бернулли. Теорема Чебышева является наиболее общим законом больших чисел.

В основе доказательства теорем, объединенных термином "закон больших чисел", лежит неравенство Чебышева, по которому устанавливается вероятность отклонения от ее математического ожидания:

19Распределение Пирсона (хи - квадрат) – распределение случайной величины

где случайные величины X 1 , X 2 ,…, X n независимы и имеют одно и тоже распределение N (0,1). При этом число слагаемых, т.е. n , называется «числом степеней свободы» распределения хи – квадрат.

Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости,

Распределение t Стьюдента – это распределение случайной величины

где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределение N (0,1), а X – распределение хи – квадрат с n степенями свободы. При этом n называется «числом степеней свободы» распределения Стьюдента.

Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости,

Распределение Фишера – это распределение случайной величины

Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики

18Линейная регрессия является статистическим инструментом, используемым для прогнозирования будущих цен исходя из прошлых данных, и обычно применяется, чтобы определить, когда цены являются перегретыми. Используется метод наименьшего квадрата для построения «наиболее подходящей» прямой линии через ряд точек ценовых значений. Ценовыми точками, используемыми в качестве входных данных, может быть любое из следующих значений: открытие, закрытие, максимум, минимум,

17. двумерной случайной величиной называют упорядоченный набор из двух случайных величин или .

Пример.Подбрасываются два игральных кубика. – число очков, выпавших на первом и втором кубиках соответственно

Универсальный способ задания закона распределения двумерной случайной величины – это функция распределения.

15.м.о Дискретные случайные величины

Свойства:

1) M (C ) = C , C - постоянная;

2) M (CX ) = CM (X );

3) M (X 1 + X 2 ) = M (X 1 ) + M (X 2 ), где X 1 , X 2 - независимые случайные величины;

4) M (X 1 X 2 ) = M (X 1 )M (X 2 ).

Математическое ожидание суммы случайных величин равно сумме их математических ожиданий, т.е.

Математическое ожидание разности случайных величин равно разности их математических ожиданий, т.е.

Математическое ожидание произведения случайных величин равно произведению их математических ожиданий, т.е.

Если все значения случайной величины увеличить (уменьшить) на одно и тоже число С, то ее математическое ожидание увеличится (уменьшиться) на это же число

14. Показательный (экспоненциальный ) закон распределения X имеет показательный (экспоненциальный) закон распределения с параметром λ >0, если ее плотность вероятности имеет вид:

Математическое ожидание: .

Дисперсия: .

Показательный закон распределения играет большую роль в теории массового обслуживания и теории надежности.

13. Нормальный закон распределения характеризуется частотой отказов a (t) или плотностью вероятности отказов f (t) вида:

, (5.36)

где σ– среднеквадратическое отклонение СВ x ;

mx – математическое ожидание СВ x . Этот параметр часто называют центром рассеивания или наиболее вероятным значением СВ Х .

x – случайная величина, за которую можно принять время, значение тока, значение электрического напряжения и других аргументов.

Нормальный закон – это двухпараметрический закон, для записи которого нужно знать mx и σ.

Нормальное распределение (распределение Гаусса) используется при оценке надежности изделий, на которые воздействует ряд случайных факторов, каждый из которых незначительно влияет на результирующий эффект

12. Равномерный закон распределения . Непрерывная случайная величина X имеет равномерный закон распределения на отрезке [a , b ], если ее плотность вероятности постоянна на этом отрезке и равна нулю вне его, т.е.

Обозначение: .

Математическое ожидание: .

Дисперсия: .

Случайная величина Х , распределенная по равномерному закону на отрезке называется случайным числом от 0 до 1. Она служит исходным материалом для получения случайных величин с любым законом распределения. Равномерный закон распределения используется при анализе ошибок округления при проведении числовых расчетов, в ряде задача массового обслуживания, при статистическом моделировании наблюдений, подчиненных заданному распределению.

11. Определение. Плотностью распределения вероятностей непрерывной случайной величины Х называется функция f(x) – первая производная от функции распределения F(x).

Плотность распределения также называют дифференциальной функцией . Для описания дискретной случайной величины плотность распределения неприемлема.

Смысл плотности распределения состоит в том, что она показывает как часто появляется случайная величина Х в некоторой окрестности точки х при повторении опытов.

После введения функций распределения и плотности распределения можно дать следующее определение непрерывной случайной величины.

10. Плотность вероятности, плотность распределения вероятностей случайной величины x, - функция p(x) такая, что

и при любых a < b вероятность события a < x < b равна
.

Если p(x) непрерывна, то при достаточно малых ∆x вероятность неравенства x < X < x+∆x приближенно равна p(x) ∆x (с точностью до малых более высокого порядка). Функция распределения F(x) случайной величины x, связана с плотностью распределения соотношениями

и, если F(x) дифференцируема, то

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2017-12-29

Эмпирическая функция распределения

Методы обработки ЭД опираются на базовые понятия теории вероятностей и математической статистики. К их числу относятся понятия генеральной совокупности, выборки, эмпирической функции распределения .

Под генеральной совокупностью понимают все возможные значения параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом. Такая совокупность состоит из бесконечного множества элементов. В результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра x 1 , x 2 , …, x n . С формальной точки зрения такие данные представляют собой выборку из генеральной совокупности .

Будем считать, что выборка содержит полные наработки до системных событий (цензурирование отсутствует). Наблюдаемые значения x i называют вариантами , а их количество – объемом выборки n . Для того чтобы по результатам наблюдения можно было делать какие-либо выводы, выборка должна быть репрезентативной (представительной), т. е. правильно представлять пропорции генеральной совокупности. Это требование выполняется, если объем выборки достаточно велик, а каждый элемент генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Пусть в полученной выборке значение x 1 параметра наблюдалось n 1 раз, значение x 2 – n 2 раз, значение x k n k раз, n 1 +n 2 + … +n k =n .

Совокупность значений, записанных в порядке их возрастания, называют вариационным рядом , величины n i – частотами , а их отношения к объему выборки n i =n i /n относительными частотами (частостями). Очевидно, что сумма относительных частот равна единице.

Под распределением понимают соответствие между наблюдаемыми вариантами и их частотами или частостями. Пусть n x – количество наблюдений, при которых случайные значения параметра Х меньше x. Частость события Xравна n x /n . Это отношение является функцией от x и от объема выборки: F n (x )=n x /n . Величина F n (x ) обладает всеми свойствами функции:

распределения: F n (x ) неубывающая функция, ее значения принадлежат отрезку ;

если x 1 – наименьшее значение параметра, а x k – наибольшее, то F n (x )= 0, когда x <x 1 , и F п (x k )= 1, когда x >=x k .

Функция F n (x ) определяется по ЭД, поэтому ее называют эмпирической функцией распределения . В отличие от эмпирической функции F n (x ) функцию распределения F (x ) генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события X <x . Из теоремы Бернулли вытекает, что частость F n (x ) стремится по вероятности к вероятности F (x ) при неограниченном увеличении n . Следовательно, при большом объеме наблюдений теоретическую функцию распределения F (x ) можно заменить эмпирической функцией F n (x ).

График эмпирической функции F n (x ) представляет собой ломаную линию. В промежутках между соседними членами вариационного ряда F n (x ) сохраняет постоянное значение. При переходе через точки оси x , равные членам выборки, F n (x ) претерпевает разрыв, скачком возрастая на величину 1/n , а при совпадении l наблюдений – на l /n .

Пример 2.1 . Построить вариационный ряд и график эмпирической функции распределения по результатам наблюдений, табл. 2.1.

Таблица 2.1

Искомая эмпирическая функция, рис. 2.1:

Рис. 2.1. Эмпирическая функция распределения

При большом объеме выборки (понятие «большой объем» зависит от целей и методов обработки, в данном случае будем считать п большим, если n >40) в целях удобства обработки и хранения сведений прибегают к группированию ЭД в интервалы. Количество интервалов следует выбрать так, чтобы в необходимой мере отразилось разнообразие значений параметра в совокупности и в то же время закономерность распределения не искажалась случайными колебаниями частот по отдельным разрядам. Существуют нестрогие рекомендации по выбору количества y и размера h таких интервалов, в частности:

в каждом интервале должно находиться не менее 5 – 7 элементов. В крайних разрядах допустимо всего два элемента;

количество интервалов не должно быть очень большим или очень маленьким. Минимальное значение y должно быть не менее 6 – 7. При объеме выборки, не превышающем несколько сотен элементов, величину y задают в пределах от 10 до 20. Для очень большого объема выборки (n >1000) количество интервалов может превышать указанные значения. Некоторые исследователи рекомендуют пользоваться соотношением y=1,441*ln(n )+1;

при относительно небольшой неравномерности длины интервалов удобно выбирать одинаковыми и равными величине

h= (x max – x min)/y,

где x max – максимальное и x min – минимальное значение параметра. При существенной неравномерности закона распределения длины интервалов можно задавать меньшего размера в области быстрого изменения плотности распределения;

при значительной неравномерности лучше в каждый разряд назначать примерно одинаковое количество элементов выборки. Тогда длина конкретного интервала будет определять крайними значениями элементов выборки, сгруппироваными в этот интервал, т.е. будет различна для разных интервалов (в этом случае при построении гистограммы нормировка по длине интервала обязательна - в противном случае высота каждого элемента гистограммы будет одинакова).

Группирование результатов наблюдений по интервалам предусматривает: определение размаха изменений параметра х ; выбор количества интервалов и их величины; подсчет для каждого i- го интервала [x i x i +1 ] частоты n i или относительной частоты (частости n i ) попадания варианты в интервал. В результате формируется представление ЭД в виде интервального или статистического ряда .

Графически статистический ряд отображают в виде гистограммы, полигона и ступенчатой линии. Часто гистограмму представляют как фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиною h , а высоты равны соответствующей частости. Однако такой подход неточен. Высоту i- го прямоугольника z i следует выбрать равной n i / (nh ). Такую гистограмму можно интерпретировать как графическое представление эмпирической функции плотности распределения f n (x ), в ней суммарная площадь всех прямоугольников составит единицу. Гистограмма помогает подобрать вид теоретической функции распределения для аппроксимации ЭД.



Полигоном называют ломаную линию, отрезки которой соединяют точки с координатами по оси абсцисс, равными серединам интервалов, а по оси ординат – соответствующим частостям. Эмпирическая функция распределения отображается ступенчатой ломаной линией: над каждым интервалом проводится отрезок горизонтальной линии на высоте, пропорциональной накопленной частости в текущем интервале. Накопленная частость равна сумме всех частостей, начиная с первого и до данного интервала включительно.

Пример 2.2 . Имеются результаты регистрации значений затухания сигнала x i на частоте 1000 Гц коммутируемого канала телефонной сети. Эти значения, измеренные в дБ, в виде вариационного ряда представлены в табл. 2.3. Необходимо построить статистический ряд.

Таблица 2.3

i
x i 25,79 25,98 25,98 26,12 26,13 26,49 26,52 26,60 26,66 26,69 26,74
i
x i 26,85 26,90 26,91 26,96 27,02 27,11 27,19 27,21 27,28 27,30 27,38
i
x i 27,40 27,49 27,64 27,66 27,71 27,78 27,89 27,89 28,01 28,10 28,11
i
x i 28,37 28,38 28,50 28,63 28,67 28,90 28,99 28,99 29,03 29,12 29,28

Решение . Количество разрядов статистического ряда следует выбрать минимальным, чтобы обеспечить достаточное количество попаданий в каждый из них, возьмем y = 6. Определим размер разряда

h = (x max – x min)/y =(29,28 – 25,79)/6 = 0,58.

Сгруппируем наблюдения по разрядам, табл. 2.4.

Таблица 2.4

i
x i 25,79 26,37 26,95 27,5 3 28,12 28,70
n i
n i =n i /n 0,114 0,205 0,227 0,205 0,11 4 0,136
z i = n i /h 0,196 0,353 0,392 0,353 0,196 0,235

На основе статистического ряда построим гистограмму, рис. 2.2, и график эмпирической функции распределения, рис. 2.3.

График эмпирической функции распределения, рис. 2.3, отличается от графика, представленного на рис. 2.1 равенством шага изменения варианты и величиной шага приращения функции (при построении по вариационному ряду шаг приращения кратен

1/ n , а по статистическому ряду – зависит от частости в конкретном разряде).

Рассмотренные представления ЭД являются исходными для последующей обработки и вычисления различных параметров.

30. Теоретические и эмпирические распределения как модели рядов распределения

Эмпирическое распределение отличается от теоретического тем, что

на значения признака в нем влияют случайные факторы. С увеличением

объема статистической совокупности влияние случайных факторов

ослабевает, и эмпирическое распределение все менее отличается от

теоретического.

Для оценки близости распределений используются особые

показатели – критерии согласия. Они основаны на использовании

различных мер расстояний между эмпирическим и теоретическим

распределением.

Если нужно получить теоретические частоты f" при выравнивании вариационного ряда по кривой нормального распределения, то можно воспользоваться формулой

где - сумма всех эмпирических частот вариационного ряда; h - величина интервала в группах; - cреднее квадратическое отклонение; - нормированное отклонение вариантов от средней арифметической; все остальные величины легко вычисляются по специальным таблицам.

При помощи этой формулы мы получаем теоретическое (вероятностное) распределение, заменяя им эмпирическое (фактическое) распределение, по характеру они не должны отличаться друг от друга.

При выравнивании эмпирических данных теоретические частоты можно определить по формуле

Сравнивая полученные величины теоретических частот f" c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.

Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.

Наиболее распространенным является критерий согласия К. Пирсона , который можно представить как сумму отношений квадратов расхождений между f" и f к теоретическим частотам:

(7.10)

Вычисленное значение критерия необходимо сравнить с табличным (критическим) значением . Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n 50), при этом если в некоторых интервалах теоретические частоты 5.

Если , то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.

В том случае, если отсутствуют таблицы для оценки случайности расхождения теоретических и эмпирических частот, можно использовать критерий согласия В.И. Романовского КРом, который, используя величину , предложил оценивать близость эмпирического распределения кривой нормального распределения при помощи отношения

теоретического распределения, вычисляется по формуле

где D - максимальное значение разности между накопленными эмпирическими и теоретическими частотами; - сумма эмпирических частот.

31 Выборочное наблюдение Годин С 127,ошибка выборки 130

32 Ряды динамики С 210

33 Сглаживание рядов динамики С 220

Уравнение тренда

Экстраполяция на основе функции тренда, полученной в результате аналитического выравнивания, относится к наиболее распространенным и практически применяемым методам прогнозирования.

Нахождение по имеющимся данным за определенный период времени некоторых недостающих значений признака внутри этого периода называется интерполяцией . Нахождение значений признака за пределами анализируемого периода называется экстраполяцией .

Применение экстраполяции для прогнозирования должно основываться на предположении, что найденная закономерность развития внутри динамического ряда сохраняется и вне этого ряда. Это означает, что основные факторы, сформировавшие выявленную закономерность изменений уровней ряда во времени, сохранится в будущем.

При составлении прогнозов уровней социально-экономических явлений обычно оперируют не точечной, а интервальной оценкой, рассчитывая так называемые доверительные интервалы прогноза . Границы интервалов определяются по формуле

, (1.61)

где – точечный прогноз, рассчитанный по модели тренда;

коэффициент доверия по распределению Стьюдента при уровне значимости
и числе степеней свободы = n -1 ;

– ошибка аппроксимации.

Уровень значимости связан с вероятностью следующей формулой

. (1.62)

Ошибка аппроксимации (среднее квадратическое отклонение тренда) определяется по следующей формуле

где и – соответственно фактические и теоретические (расчетные) значения уровней ряда динамики;

n – число уровней ряда;

k – число параметров (членов) в уравнении тренда.

34 Элементы статистического прогнозирования

Разновидность математических методов прогнозирования, позволяющих построить динамические ряды на перспективу. Статистические методы прогнозирования охватывают разработку, изучение и применение современных математико-статистических методов прогнозирования на основе объективных данных (в том числе непараметрических методов наименьших квадратов с оцениванием точности прогноза, адаптивных методов, методов авторегрессии и других); развитие теории и практики вероятностно-статистического моделирования экспертных методов прогнозирования, в том числе методов анализа субъективных экспертных оценок на основе статистики нечисловых данных; разработку, изучение и применение методов прогнозирования в условиях риска и комбинированных методов прогнозирования с использованием совместно экономико-математических и эконометрических (как математико-статистических, так и экспертных) моделей. Научная база статистических методов прогнозирования - прикладная статистика и теория принятия решений. Простейшие методы восстановления используемых для прогнозирования зависимостей исходят из заданного временного ряда, то есть функции, определенной в конечном числе точек на оси времени. При этом временной ряд часто рассматривается в рамках той или иной вероятностной модели, вводятся другие факторы (независимые переменные) помимо времени, напр., объем денежной массы. Временной ряд может быть многомерным. Основные решаемые задачи - интерполяция и экстраполяция. Метод наименьших квадратов в простейшем случае (линейная функция от одного фактора) был разработан К. Гауссом в 1794-1795 гг. Могут оказаться полезными предварительные преобразования переменных, например, логарифмирование. Наиболее часто используется метод наименьших квадратов при нескольких факторах. Метод наименьших модулей, сплайны и другие методы экстраполяции применяются реже, хотя их статистические свойства зачастую лучше. Накоплен опыт прогнозирования индекса инфляции и стоимости потребительской корзины. Оказалось полезным преобразование (логарифмирование) переменной - текущего индекса инфляции. Оценивание точности прогноза (в частности, с помощью доверительных интервалов) - необходимая часть процедуры прогнозирования. Обычно используют вероятностно-статистические модели восстановления зависимости, напр., строят наилучший прогноз по методу максимального правдоподобия. Разработаны параметрические (обычно на основе модели нормальных ошибок) и непараметрические оценки точности прогноза и доверительные границы для него (на основе Центральной Предельной Теоремы теории вероятностей). Так, предложены непараметрические методы доверительного оценивания точки наложения (встречи) двух временных рядов для оценки динамики технического уровня собственной продукции и продукции конкурентов, представленной на мировом рынке. Применяются также эвристические приемы, не основанные на вероятностно статистической теории: метод скользящих средних, метод экспоненциального сглаживания. Многомерная регрессия, в том числе с использованием непараметрических оценок плотности распределения, - основной на настоящий момент статистический аппарат прогнозирования. Подчеркнем, что нереалистическое предположение о нормальности погрешностей измерений и отклонений от линии (поверхности) регрессии использовать не обязательно. Однако для отказа от предположения нормальности необходимо опереться на иной математический аппарат, основанный на многомерной Центральной Предельной Теореме теории вероятностей, технологии линеаризации и наследования сходимости. Он позволяет проводить точечное и интервальное оценивание параметров, проверять значимость их отличия от ноля в непараметрической постановке, строить доверительные границы для прогноза. Весьма важна проблема проверки адекватности модели, а также проблема отбора факторов.

35 Функциональные и статистические связи С 146

Статистич. связь- изменение вариации одного признака в зависимости от второго и => может отражаться не только в изменении его средней величины (кореляц завис-ость) но и любой другой характеристики вариации

36 Формы, виды, теснота связей, линейный коэф. Корреляции . С 156 изм тесноты связи- С 169

Связи: прямолинейная, криволинейная, слабая, умеренная, заметная, высокая, тесная, весьма тесная, полная обратная, полная прямая, частично прямая, частично обратная

прямолинейная

(8.1)

криволинейная в виде:

(8.2)

гиперболы

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

прямолинейная

криволинейная в виде:

параболы второго порядка (или высших порядков)

гиперболы

показательной функции

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Если связь выражена параболой второго порядка (), то систему нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения :

(8.7)

где - дисперсия в ряду выравненных значений результативного показателя ; - дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, для расчета которого можно использовать, например, две следующие формулы:

(8.8)

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.

37 уравнение парной линейной корреляции.

Он показывает, насколько тесно две переменные связаны между

Формула для вычисления парного коэффициента корреляции:

38 понятие множественной корреляции.

Множественная корреляция - корреляция между одной зависимой переменной и комбинацией двух или более независимых переменных, которая дает оценку смешанного влияния на зависимую переменную.

такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

При прямолинейной форме связи коэффициент множественной корреляции (совокупный коэффициент корреляции по некоторому числу факторов) может быть вычислен по формуле

где Ry xz – коэффициент множественной корреляции у по x,z;

ryx, ryz, rxz – полные парные коэффициенты корреляции факторов-признаков у, x, z.

В общем случае чем выше значение коэффициента множественной корреляции, тем лучше подобрано уравнение. Обычно при интерпретации расчетов используется величина R-квадрат (R2, коэффициент детерминации).

При предположении криволинейной зависимости следует выбрать (как и при парной корреляции) определенный тип кривой линии и представить ее в виде алгебраического выражения. Последующие расчеты связаны с выявлением показателей по формулам прямолинейной зависимости в множественной корреляции (регрессии). Часто в этих расчетах прибегают к помощи логарифмов.

39. Понятие индексов агрегатные и индивидуальные

Индекс - это результат сравнения двух одноименных показателей, при исчислении которого следует различать числитель индексного отношения (сравниваемый или отчетный уровень) и знаменатель индексного отношения (базисный уровень, с которым производится сравнение). Выбор базы зависит от цели исследования. Если изучается динамика, то за базисную величину может быть взят размер показателя в периоде, предшествующем отчетному. Если необходимо осуществить территориальное сравнение, то за базу можно принять данные другой территории. За базу сравнения могут приниматься плановые показатели, если необходимо использовать индексы как показатели выполнения плана

Агрегатные Индексами называют сравнительные относительные величины, которые характеризуют изменение сложных социально-экономических показателей (показатели, состоящие из несуммируемых элементов) во времени, в пространстве, по сравнению с планом.

Агрегатный индекс является основной формой сводного индекса. "Агрегатным" он называется потому, что его числитель и знаменатель представляют собой набор "агрегат" (от латинского aggregatus складываемый, суммируемый) непосредственно несоизмеримых и не поддающихся суммированию элементов сумму произведений двух величин, одна из которых меняется (индексируется), а другая остается неизменной в числителе и знаменателе (вес индекса). Вес индекса служит для соизмерения индексируемых величин.

Индивидуальные

Индивидуальные индексы обозначаются i и снабжаются подстрочным знаком индексируемого показателя: iq - индивидуальный индекс объема произведенной продукции отдельного вида или количества (объема) проданного товара данного вида, ip индивидуальный индекс цен и т.д.

Индивидуальные индексы относятся к одному элементу (явлению) и не требуют суммирования данных. Они представ-ляют собой относительные величины динамики, выполнения обя-зательств, сравнения. Выбор базы сравнения определяется целью исследования.

Расчет индивидуальных индексов прост, их определяют вычислением отношения двух индексируемых величин:

ip = Р1/Р0 - индивидуальный индекс цен, где Р1 Р0 - цены единицы продукции в текущем (отчетном) и базисном периодах.

iq = q1/q0 ~ индивидуальный индекс физического объема продукции.

41 Средние индексы

Средние индексы – это сочетание индекса в агрегатной форме и индивидуальных индексов. Применяются в том случае, когда отсутствуют какие-либо данные в отчетном или базисном периодах.
Если отсутствуют данные о количестве проданных товаров, но зарегистрированы показатели выручки и индексы цен на отдельные товары, то на базе индекса Пааше можно рассчитать средний гармонический индекс цен. Выводим его через индекс Паше