Для многих начинающих исследователей статистическая обработка данных это что-то вроде завершающего аккорда при написании научн. Теоретический материал Основные инструменты анализа экономических данных

Статистическое моделирование

Статистическое и эконометрическое модели́рование - исследование объектов познания на их статистических моделях ; построение и изучение моделей реально существующих предметов, процессов или явлений (например: экономических процессов в эконометрике) с целью получения объяснений этих явлений, а также для предсказания явлений или показателей, интересующих исследователя.

Оценка параметров таких моделей производится с помощью статистическиx методов . Например: метод максимального правдоподобия , метод наименьших квадратов , метод моментов .

Y = b_1 + b_2×X

где Y - расходы, X - доход, b_1 и b_2 - параметры уравнения (parameters), u - стохастическая ошибка (disturbance, error term).

Виды статистических и эконометрических моделей

Линейная регрессия (OLS) Регрессии на бинальные переменные Авторегрессионная модель Система одновременных уравнений (SEM) Модель линейной вероятности (LPM) Логит модель (Logit) Пробит модель (Probit) и др.

Wikimedia Foundation . 2010 .

Смотреть что такое "Статистическое моделирование" в других словарях:

    Статистическое моделирование - способ исследования процессов поведения вероятностных систем в условиях, когда неизвестны внутренние взаимодействия в этих системах. Он заключается в машинной имитации изучаемого процесса, который как бы копируется на… … Экономико-математический словарь

    Метод прикладной и вычислительной математики, состоящий в реализации на ЭВМ специально разрабатываемых стохастич. моделей изучаемых явлений или объектов. Расширение области применения С. м. связано с быстрым развитием техники и особенно… … Математическая энциклопедия

    Численный метод решения математических задач, при котором искомые величины представляют вероятностными характеристиками какого либо случайного явления, это явление моделируется, после чего нужные характеристики приближённо определяют… … Большая советская энциклопедия

    Моделирование ситуаций с использованием статистических закономерностей, присущих рассматриваемому явлению. Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов

    Моделирование исследование объектов познания на их моделях; построение и изучение моделей реально существующих объектов, процессов или явлений с целью получения объяснений этих явлений, а также для предсказания явлений, интересующих… … Википедия

    МОДЕЛИРОВАНИЕ ИМИТАЦИОННОЕ в социологии - вид моделирования математического, состоящий в воспроизведении на ЭВМ социального процесса либо функционирования социальной системы. Почти всегда предполагает воспроизведение случайных факторов, влияющих на изучаемое явление, и, как следствие,… … Социология: Энциклопедия

    МОДЕЛИРОВАНИЕ, СТАТИСТИЧЕСКОЕ - разработка разнообразных моделей, которые отображают статистические закономерности описываемого объекта, явления. Общей специфической чертой этих моделей является учет случайных возмущений или отклонений. Объектами С.м. являются различные… … Большой экономический словарь

    МОДЕЛИРОВАНИЕ СТАТИСТИЧЕСКОЕ - представление или описание некоторого феномена или системы взаимосвязей между явлениями посредством набора переменных (показателей, признаков) и статистических взаимосвязей между ними. Цель М.С. (как и любого другого моделирования) представить… … Социология: Энциклопедия

    Для улучшения этой статьи желательно?: Исправить статью согласно стилистическим правилам Википедии. Имитационное моделирование (ситуационное … Википедия

    ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ - (...от франц. modele образец) метод исследования каких либо явлений и процессов методом статистических испытаний (метод Монте Карло) с помощью ЭВМ. Метод основан на розыгрыше (имитации) воздействия случайных факторов на изучаемое явление или… … Энциклопедический словарь по психологии и педагогике

Книги

  • Статистическое моделирование. Методы Монте-Карло. Учебное пособие для бакалавриата и магистратуры , Михайлов Г.А.. Учебное пособие посвящено особенностям моделирования случайных величин, процессов и полей. Особое внимание уделяется численному интегрированию, в частности методу Монте-Карло. Дается решение…

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНОБРНАУКИ РОССИИ

Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Южный федеральный университет»

Кафедра «Информационно- измерительная техника и технология»

Специальность

230201 Информационные системы и технологии

РЕФЕРАТ

По предмету: «Организация исследований и разработок»

На тему: «Методы математического моделирования в статистике»

Выполнил студент: Строцев Василий Андреевич

Преподаватель: Гусенко Тамара Григорьевна

1. Элементы математической статистики

Математической статистикой называют раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. Статистические данные здесь понимаются как сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Главная цель математической статистики - получение осмысленных, научно обоснованных выводов из подверженных случайному разбросу данных. При этом само изучаемое явление, генерирующее эти данные, чаще всего слишком сложно, чтобы можно было составить его полное описание, отражающее все детали. Поэтому статистические выводы делаются на основе некоторой математической вероятностной модели реального случайного явления, которая должна воспроизводить его существенные черты и исключать те, которые предполагаются несущественными. Методы математической статистики позволяют по наблюдениям над изучаемым явлением определить вероятностные характеристики случайных величин, участвующих в математической модели, описывающей это явление.

Задача математической статистики - установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных- результатов наблюдений. Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.

Первая задача математической статистики - указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики - разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования, в ходе исследования и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.

Здача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

1.1 Генеральная и выборочная совокупность статистических данных

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.

Качественными признаками объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Иногда проводиться сплошное обследование, т.е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности.

Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.

Генеральной (основной) совокупностью называют совокупность, объектов из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n =100. Число объектов генеральной совокупности N значительно превосходит объем выборки n.

1.2 Способы выборки

При составлении выборки можно поступать двумя способами: после того как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В соответствии со сказанным выборки подразделяют на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли (выборка должна правильно представлять пропорции генеральной совокупности) - выборка должна быть репрезентативной (представительной).

Выборка будет репрезентативной, если:

· каждый объект выборки отобран случайно из генеральной совокупности;

· все объекты имеют одинаковую вероятность попасть в выборку.

1.3 Способы группировки статистических данных

1.3.1 Дискретный вариационный ряд

Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке.

Пример 1. Проводились наблюдения над числом Х оценок полученных студентами ВУЗа на экзаменах. Наблюдения в течение часа дали следующие результаты: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5. Здесь число Х является дискретной случайной величиной, а полученные о ней сведения представляют собой статистические (наблюдаемые) данные.

Расположив приведенные выше данные в порядке неубывания и сгруппировав их так, что в каждой отдельной группе значения случайной величины будут одинаковы, получают ранжированный ряд данных наблюдения.

В примере 1 имеем четыре группы со следующими значениями случайной величины: 2; 3; 4; 5. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называют вариантом, а изменение этого значения варьированием.

Варианты обозначают малыми буквами латинского алфавита с соответствующими порядковому номеру группы индексами - xi . Число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений называют частотой варианта и обозначают соответственно - ni .

Сумма всех частот ряда - объем выборки. Отношение частоты варианта к объему выборки ni / n = wi называют относительной частотой.

Статистическим распределением выборки называют перечень вариантов и соответствующих им частот или относительных частот (табл. 1, табл. 2).

Пример 2. Задано распределение частот выборки объема n = 20 :

Таблица 1

Контроль : 0,15 + 0,50 + 0, 35 = 1.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Дискретным вариационным рядом распределения называют ранжированную совокупность вариантов xi с соответствующими им частотами ni или относительными частотами wi .

Для рассмотренного выше примера 1 дискретный вариационный ряд имеет вид:

Таблица 3

Контроль : сумма всех частот вариационного ряда (сумма значений второй строки таблицы 3) есть объем выборки (в примере 1 n = 60 ); сумма относительных частот вариационного ряда должна быть равна 1 (сумма значений третьей строки таблицы 3)

1.3.2 Интервальный вариационный ряд

Если изучаемая случайная величина является непрерывной, то ранжирование и группировка наблюдаемых значений зачастую не позволяют выделить характерные черты варьирования ее значений. Это объясняется тем, что отдельные значения случайной величины могут как угодно мало отличаться друг от друга и поэтому в совокупности наблюдаемых данных одинаковые значения величины могут встречаться редко, а частоты вариантов мало отличаются друг от друга.

Нецелесообразно также построение дискретного ряда для дискретной случайной величины, число возможных значений которой велико. В подобных случаях следует строить интервальный вариационный ряд распределения.

Для построения такого ряда весь интервал варьирования наблюдаемых значений случайной величины разбивают на ряд частичных интервалов и подсчитывают частоту попадания значений величины в каждый частичный интервал.

Интервальным вариационным рядом называют упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или относительными частотами попаданий в каждый из них значений величины.

Для построения интервального ряда необходимо:

1. определить величину частичных интервалов;

2. определить ширину интервалов;

3. установить для каждого интервала его верхнюю и нижнюю границы;

4. сгруппировать результаты наблюдении.

1. Вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке.

Приблизительно число интервалов k можно оценить исходя только из объема выборки n одним из следующих способов:

· по формуле Стержеса : k = 1 + 3,32·lg n ;

· с помощью таблицы 1.

Таблица 1

2. Обычно предпочтительны интервалы одинаковой ширины. Для определения ширины интервалов h вычисляют:

· размах варьирования R - значений выборки: R = xmax - xmin , где xmax и xmin - максимальная и минимальная варианты выборки;

· ширину каждого из интервалов h определяют по следующей формуле: h = R/k .

3. Нижняя граница первого интервала xh1 выбирается так, чтобы минимальная варианта выборки xmin попадала примерно в середину этого интервала: xh1 = xmin - 0,5·h .

Промежуточные интервалы получают прибавляя к концу предыдущего интервала длину частичного интервала h :

xhi = xhi-1 +h .

Построение шкалы интервалов на основе вычисления границ интервалов продолжается до тех пор, пока величина xhi удовлетворяет соотношению:

xhi < xmax + 0,5·h .

4. В соответствии со шкалой интервалов производится группирование значений признака - для каждого частичного интервала вычисляется сумма частот ni вариант, попавших в i -й интервал. При этом в интервал включают значения случайной величины, большие или равные нижней границе и меньшие верхней границы интервала.

1.4 Полигон и гистограмма

Для наглядности строят различные графики статистического распределения. По данным дискретного вариационного ряда строят полигон частот или относительных частот.

Полигоном частот называют ломанную, отрезки которой соединяют точки (x1 ; n1 ), (x2 ; n2 ),..., (xk ; nk ). Для построения полигона частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им частоты ni . Точки (xi ; ni ) соединяют отрезками прямых и получают полигон частот (Рис. 1).

Полигоном относительных частот называют ломанную, отрезки которой соединяют точки (x1 ; W1 ), (x2 ; W2 ),..., (xk ; Wk ). Для построения полигона относительных частот на оси абсцисс откладывают варианты xi , а на оси ординат - соответствующие им относительные частоты Wi . Точки (xi ; Wi ) соединяют отрезками прямых и получают полигон относительных частот. В случае непрерывного признака целесообразно строить гистограмму.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению ni / h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni / h .

Площадь i hni / h = ni - сумме частот вариант i - го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частотназывают ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h , а высоты равны отношению Wi / h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии Wi / h (Рис. 2).

Площадьi - го частичного прямоугольника равна hWi / h = Wi - относительной частоте вариант попавших в i - й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

1.5 Оценка параметров генеральной совокупности

Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) М(Х) и среднее квадратическое отклонение s . Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.

Точечной оценкой генеральной средней является выборочное среднее.

Выборочным средним называется среднее арифметическое значение признака выборочной совокупности.

Если все значения x1, x2,..., xn признака выборки различны (или если данные не сгруппированы), то:

x1, x2,..., xn n1, n2,..., nk , причем n1 + n2 +...+ nk = n (или если выборочное среднее вычисляется по вариационному ряду), то

В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).

Для оценки с тепени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) - это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году.

Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения.

Если все значения x1, x2,..., xn признака выборки объема n различны, то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk , причем n1 + n2 +...+ nk = n , то

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Среднее квадратическое отклонение (стандартное отклонение), (от английского standard deviation) вычисляется как корень квадратный из дисперсии.

Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Непараметрическими характеристиками положения являются мода и медиана.

Модой Mo называется варианта, имеющая наибольшую частоту или относительную частоту.

Медианой Me называется варианта, которая делит вариационный ряд на две части, равные по числу вариант.

При нечетном числе вариант (n=2k+1)

Me = xk+1 ,

а при четном числе вариант (n=2k)

Me = (xk + xk+1)/2 .

2. Корреляционный и регрессионный анализ

2.1 Корреляционный анализ

математический статистический группировка корреляционный

Корреляционный анализ предусматривает установление статистической связи между случайными величинами. Он может быть использован в педагогических исследованиях для оценки влияния одних факторов на другие и установления связи между ними в совокупности с другими параметрами - математическими ожиданиями и среднеквадратическими отклонениями. Корреляционный анализ непосредственно не может быть применен к выявлению причинно-следственных связей между случайными процессами. Он только устанавливает связь статистических характеристик связанных случайных процессов.

Пусть имеется две случайные величины X и Y c математическими ожиданиями mx и my соответственно. Корреляционный момент

Kxy =M((X-mx)(Y-my))

будет характеризовать связь между величинами X и Y. Для удобства использования корреляционные моменты нормируют по формуле

где уx и уy - среднеквадратические отклонения величин X и Y. Величина Kk - называется коэффициентом корреляции величин X и Y.

Для дискретных случайных величин, с которыми мы имеем дело, оценка коэффициента корреляции вычисляется по формуле

Формула для вычисления коэффициента корреляции справедлива при условии, что связь между случайными величинами линейна и каждая из этих величин подчинена нормальному закону.

Оценить статистическую связь между уровнем школьной подготовки и успеваемостью студентов первого курса по дисциплине «Информатика» Школьная подготовка оценивается путем тестирования при поступлении в вуз (величина X). Успеваемость студентов оценивается по результатам экзамена после первого семестра (величина Y). Номер студента обозначен N.

Исходные данные для расчета сведены в таблицу

Подставив данные из таблицы в выражение (1), получаем Kk=0,78.

Видим, что статистические характеристики величин X и Y близки друг к другу.

2.2 Регрессионный анализ

Регрессионный анализ ставит перед собой задачу статистического исследования зависимости между зависимой переменной и независимой переменной (регрессором или предикатором). В простейшем случае предполагается, что эта зависимость является линейной. Решается задача построения линейной зависимости вида y=ax+b, где хi и yi независимая и зависимая переменный соответственно (i=1,2,3,…). Решение находится методом наименьших квадратов. Минимизируется величина

min находятся коэффициенты a и b.

Расчетные формулы имеют следующий вид:

По существу, совокупность экспериментально полученных точек приближенно заменяется аналитической зависимостью y=ax+b. Такая замена существенно упрощает математические преобразования и может быть использована при построении аналитических моделей. В общем случае для построения регрессионной зависимости может быть выбрана не только линейная, но и любая другая функция. Естественно, формулы вычисления искомых параметров усложняются.

3. Математические методы оптимизации экспериментов

3.1 Симплексный метод оптимизации

Симплексом называется правильный многогранник, имеющий п+1 вершину, где п - число факторов, влияющих на процесс. Так, например, если факторов два, то симплексом является правильный треугольник.

Рис. 1 Оптимизация по симплексному методу

Начальная серия опытов соответствует вершинам исходного симплекса (точки 1, 2 и 3). Условия этих первых опытов берутся из области значений факторов, соответствующих наиболее благоприятным из известных режимов оптимизируемого процесса. Сравнивая между собой результаты опытов в точках 1, 2 и 3, находят среди них самый «плохой», с точки зрения выбранного критерия оптимальности. Пусть, например, самым «неудачным» оказался опыт в точке 1. Этот опыт исключают из рассмотрения, а вместо него в состав симплекса вводят опыт в точке 4, которая симметрична точке 1 относительно противоположной стороны треугольника, соединяющей точки 2 и 3.

Далее сравнивают между собой результаты опытов в вершинах нового симплекса, отбрасывают самый «неудачный» из них и переносят соответствующую вершину симплекса в точку 5. Затем рассмотренная процедура повторяется в течение всего процесса оптимизации.

Если экстремум критерия оптимальности достигнут, то дальнейшее движение симплекса прекращается. Это значит, что новый шаг возвращает исследователя в предыдущую точку факторного пространства.

Если существует несколько экстремумов критерия оптимальности, то этот метод позволяет найти тот из них, который расположен ближе к точкам исходного симплекса. Поэтому, если есть подозрение о существовании нескольких экстремумов критерия оптимальности, нужно осуществить их поиск, каждый раз начиная оптимизацию из новой области факторного пространства. Затем следует сравнить между собой найденные оптимальные условия и из всех вариантов выбрать наилучший.

При оптимизации необходимо принимать во внимание ограничения, наложенные на влияющие факторы и функции отклика.

Важно отметить, что при пользовании симплексным методом не обязательно дублировать опыты. Дело в том, что ошибка в отдельном опыте может только несколько замедлить оптимизацию. Если же последующие опыты выполняются безупречно, то движение к оптимуму продолжается.

Матрица опытов исходного симплекса в кодированных переменных приведена в табл.11.

Величины, входящие в эту таблицу, рассчитываются по следующим формулам:

Здесь i--номер фактора в матрице планирования. Символом 0 обозначены координаты центра плана, т. е. основной уровень.

Таблица 11

Матрица исходного симплекса

Номер опыта

X 2

Функция отклика

K 2

K 2

Опыты, представленные в табл. 11, соответствуют вершинам симплекса, сторона которого равна единице, а центр совпадает с началом координат (в кодированных переменных).

Результаты расчетов, выполненных на основании табл. 11 и формул (*).приведены в табл. 12.

Таблица 12

Условия начальной серии опытов

Номер опыта

Очевидно, наибольшее количество опытов приходится ставить в начале эксперимента. Затем на каждом шаге оптимизации выполняется только один опыт.

Приступая к оптимизации, необходимо с помощью табл. 11 или 12 рассчитать матрицу исходной серии опытов в физических переменных, пользуясь формулой

В дальнейшем все операции производятся только с физическими1. переменными.

Условия каждого нового опыта рассчитываются по формуле:

где п-- число факторов в матрице планирования;

j -- номер опыта;

i--номер фактора;

Значение i-го фактора в самом «неудачном» опыте предыдущего симплекса.

Следует отметить, что на любом шаге оптимизации, осуществляемой симплексным методом, можно включить в программу исследований новый фактор, который до тех пор не принимался во внимание, но оставался на постоянном уровне.

При этом значения всех ранее рассматриваемых факторов рассчитываются по формуле:

где 1= 1, 2,..., п, то есть являются средними арифметическими значениями соответствующих координат предыдущего симплекса.

Значение вновь вводимого фактора определяется по формуле:

где x0(n+1)--основной уровень этого фактора;

Дxn+1--выбранный шаг варьирования для данного фактора;

Rn +1, kn +1 --величины, рассчитываемые по формулам (*).

Отметим, что добавление нового фактора в состав полного «факторного эксперимента сопровождается увеличением количества опытов вдвое. В этом смысле симплексный метод имеет очевидное преимущество.

Пример 3.2. Пусть требуется с помощью симплексного метода оптимизировать выход целевого продукта у (%), который получается при взаимодействии двух реагентов с концентрациями x1 и x2 () при температуре x3 (°С).

Выберем основные уровни и шаги варьирования факторов и сведем их в табл. 13.

Таблица 13

Значения уровней факторов и шагов варьирования

Основной уровень

Шаг варьирования

Пользуясь формулой (3.5) и табл. 12, рассчитаем условия проведения первых четырех опытов и полученные результаты сведем в табл. 14. Так, например, для третьего опыта

x31=1+0,1*0==1; x32== 1,50 +0,2 (--0,578) ==1,38; x33=60+5*0,204==61.

Таблица 14

Оптимизация симплексным методом

Номер опыта

Функция отклика

Сравнивая между собой результаты первых четырех опытов, видим, что самый низкий выход целевого продукта получился в третьем опыте. Этот опыт следует исключить из дальнейшего рассмотрения.

Заменим его опытом 5, условия проведения которого рассчитаем по формуле (**):

В новом симплексе, образованном опытами 1, 2, 4 и 5, самым «неудачным» является опыт 4. Его заменим опытом 6, условия которого найдем, пользуясь той же формулой (**).

Рассмотрим теперь вопрос о том, как включить в программу исследований еще один фактор, например скорость вращения мешалки. Пусть до этих пор она была постоянной и равной 500 об/мин. Теперь будем считать эту величину фактором x4 и примем для нее шаг варьирования Дx4==100 об/мин.

Предыдущий симплекс для трех факторов (см. табл. 14) состоит из опытов 1, 2, 5 и 6. Чтобы из него получить новый симплекс для четырех факторов, введем опыт 7 (табл. 15).

Таблица 15

Добавление нового фактора в программу оптимизации

Номер опыта

Функция отклика

Условия проведения 7-го опыта найдем по формулам (3.7) и (3.8):

Размещено на Allbest.ru

...

Подобные документы

    Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат , добавлен 10.12.2010

    Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа , добавлен 13.12.2014

    Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа , добавлен 10.04.2011

    Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа , добавлен 18.01.2016

    Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.

    презентация , добавлен 19.12.2012

    Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа , добавлен 21.09.2009

    Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат , добавлен 12.11.2009

    Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа , добавлен 01.04.2014

    Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа , добавлен 29.03.2013

    Первичная обработка статистических данных по количеству зарегистрированных абонентских терминалов сотовой связи за 2008 год на 1000 населения в регионах России. Интервальное оценивание параметров. Гипотеза о виде распределения. Регрессионный анализ.

Математическая статистика - раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей случайных явлений и процессов. В зависимости от математической природы конкретных результатов наблюдений математическая статистика делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Математическая статистика объединяет различные методы статистического анализа, базирующиеся на использовании статистических закономерностей или их характеристик.

Историю статистики обычно рассматривают начиная с задачи восстановления зависимостей, с момента разработки К. Гауссом в 1794 г. (по другим данным - в 1795 г.) метода наименьших квадратов. Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ, различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) и др. В начале XX в. теорию математической статистики развивал А. А. Чупров. В теорию случайных процессов значительный вклад внесли А. А. Марков, Е. Е. Слуцкий, А. Н. Колмогоров, А. Я. Хинчин и др. Разработанную в первой трети XX в. теорию анализа данных называют параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Наиболее популярным было нормальное распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

В 1954 г. академик АН УССР Б. В. Гнеденко дал следующее определение: "Статистика состоит из трех разделов:

  • 1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;
  • 2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
  • 3) разработка приемов статистического наблюдения и анализа статистических данных.

Последний раздел, собственно, и составляет содержание математической статистики".

По степени специфичности методов, сопряженной с погруженностью в конкретные проблемы, выделяют три вида научной и прикладной деятельности в области статистических методов анализа данных:

  • а) разработка и исследование методов общего назначения, без учета специфики области применения;
  • б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
  • в) применение статистических методов и моделей для статистического анализа конкретных данных.

Наиболее распространенными методами статистического анализа являются:

  • регрессионный анализ (основан на сравнении математических ожиданий);
  • дисперсионный анализ (основан на сравнении дисперсий);
  • корреляционный анализ (учитывает математические ожидания, дисперсии и характеристики связей между событиями или процессами);
  • факторный анализ (статистическая обработка многофакторного эксперимента);
  • ранговая корреляция (сочетание корреляционного и факторного анализов).

При применении различных методов математической статистики статистические закономерности или их характеристики получают различными способами: путем наблюдения и исследования выборок, с помощью приближенных методов, основанных на различных способах преобразования или разбиения выборки в форму вариационного ряда, разбиения выборок на потоки, разрезы, случайные интервалы времени и т.д.

Математическая статистика используется в различных сферах управления.

Термин "статистика" первоначально использовался для описания экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: "статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом". И в настоящее время деятельность государственных статистических служб вполне укладывается в это определение. Статистику определяли как отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.

Слово "статистика" происходит от латинского status - состояние дел. В науку термин "статистика" ввел немецкий ученый Готфрид Ахенвалль в 1746 г., предложив заменить название курса "Государствоведение", преподававшегося в университетах Германии, на "Статистика", положив тем самым начало развитию статистики как науки и учебной дисциплины.

В статистике применяется специальная методология исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Развитие вычислительной техники оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов послужили причиной повышенного интереса к нелинейным моделям, таким как искусственные нейронные сети, и привели к разработке сложных статистических моделей, например обобщенной линейной модели и иерархической модели. Получили широкое распространение вычислительные методы, основанные на повторной выборке. В настоящее время развивается вычислительная статистика, существует разнообразное статистическое программное обеспечение общего и специализированного назначения. Статистические методы используются в направлении, называемом "Интеллектуальный анализ данных" (см. гл. 8).

Математическая статистика – раздел прикладной математики, непосредственно примыкающий и основанный на теории вероятностей. Как и любая математическая теория, математическая статистика развивается в рамках некоторой модели, описывающей определенный круг реальных явлений. Чтобы определить статистическую модель и объяснить специфику задач математической статистики, напомним некоторые положения из теории вероятностей.

Математическая модель случайных явлений, изучаемых в теории вероятностей, основывается на понятии вероятностного пространства . При этом в каждой конкретной ситуации вероятность считается полностью известной числовой функцией на -алгебре , то есть для любого полностью определено число . Основной задачей теории вероятностей является разработка методов нахождения вероятностей различных сложных событий по известным вероятностям более простых (например, по известным законам распределения случайных величин определяются их числовые характеристики и законы распределения функций от случайных величин).

Однако на практике при изучении конкретного случайного эксперимента вероятность , как правило, неизвестна или известна частично. Можно только предположить, что истинная вероятность является элементом некоторого класса вероятностей (в худшем случае - класс всевозможных вероятностей, которые можно задать на ). Класс называют совокупностью допустимых для описания данного эксперимента вероятностей , а набор - статистической моделью эксперимента. В общем случае задачей математической статистики является уточнение вероятностной модели изучаемого случайного явления (то есть отыскание истинной или близкой к ней вероятности ), используя информацию, доставляемую наблюдаемыми исходами эксперимента, которые называют статистическими данными.

В классической математической статистике, изучением которой мы будем заниматься далее, имеют дело со случайными экспериментами, состоящими в проведении n повторных независимых наблюдений над некоторой случайной величиной , имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения . В этом случае множество всех возможных значений наблюдаемой случайной величины называют генеральной совокупностью , имеющей функцию распределения или распределенной согласно . Числа , являющиеся результатом независимых наблюдений над случайной величиной , называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число наблюдений называется объемом выборки.

Основная задача математической статистики состоит в том, как по выборке из генеральной совокупности, извлекая из нее максимум информации, сделать обоснованные выводы относительно неизвестных вероятностных характеристик наблюдаемой случайной величины .

Под статистической моделью, отвечающей повторным независимым наблюдениям над случайной величиной , естественно, вместо понимать набор , где - генеральная совокупность, - -алгебра борелевских подмножеств из , - класс допустимых функций распределения для данной случайной величины , которому принадлежит и истинная неизвестная функция распределения .

Часто тройку называют статистическим экспериментом.

Если функции распределения из заданы с точностью до значений некоторого параметра , то есть ( - параметрическое множество), то такая модель называется параметрической . Говорят, что в этом случае известен тип распределения наблюдаемой случайной величины, а неизвестен только параметр, от которого распределение зависит. Параметр может быть как скалярным, так и векторным.

Статистическая модель называется непрерывной или дискретной , если таковыми являются все составляющие класс функции распределения соответственно.

Пример 1 . Предположим, что распределение наблюдаемой случайной величины является гауссовским с известной дисперсией и неизвестным математическим ожиданием .

В этом случае статистическая модель является непрерывной и имеет вид:

Если и дисперсия неизвестна, то статистическая модель имеет вид:

а функция распределения имеет плотность вероятностей

Это, так называемая, общая нормальная модель, обозначаемая .

Пример 2 . Предположим, что распределение наблюдаемой случайной величины является пуассоновским с неизвестным параметром . В этом случае статистическая модель является дискретной и имеет вид: , случайными величинами (при этом говорят, что случайные величины - копии ), и который еще не принял конкретного значения в результате эксперимента. Переход от выборки конкретной к выборке случайной будет неоднократно использоваться далее при решении теоретических вопросов и задач для получения выводов, справедливых для любой выборки из генеральной совокупности.

Основные задачи, рассматриваемые в математической статистике, можно разбить на две большие группы:

1. Задачи, связанные с определением неизвестного закона распределения наблюдаемой случайной величины и параметров в него входящих (они рассматриваются в рамках статистической теории оценивания).

2. Задачи, связанные с проверкой гипотез относительно закона распределения наблюдаемой случайной величины (решаются в рамках теории проверки статистических гипотез).

4.1.1. Статистическая модель. При статистическом (стохастическом) моделировании основными объектами моделирования являются случайные события, случайные величины и случайные функции.

При проведении экспериментов исследователь фиксирует появление или не появления интересующих событий, а также осуществляет измерения значений параметров, которые носят случайный характер и по своей сути являются значениями реализации некоторой случайной величины.

Статистическое моделирование дает возможность не проводя реальных экспериментов над исследуемым объектом (что в большинстве случаев требует больших материальных и финансовых затрат) получать соответствующую информацию о появлении или не появлении тех или иных событий происходящих в реальном объекте. о выборочных значениях случайных величин на основе имеющихся вероятностных характеристик моделируемых событий и случайных величин. Данный вид моделирования предполагает проведение предварительного сбора информации о моделируемых показателях и дальнейшей статистической обработки полученных результатов с целью получения обоснованных статистических оценок, требуемых для моделирования вероятностных характеристик.

Стохастические модели применяются в основном в двух случаях:

1) объект моделирования плохо изучен – не имеется достаточно хорошо разработанных количественных закономерностей, описывающих рассматриваемые процессы и явления, а так же нет возможности найти приемлемое аналитическое решение данной проблемы;

2) моделируемый объект изучен достаточно хорошо в детерминированном плане, но без учета случайных факторов, оказывающих влияние на изучаемые процессы и явления.

В первом случае на основе словесного описания исследуемого объекта производится выбор количественных показателей с расчетом их физической размерности состоящих из двух групп. Одна из групп рассматривается в качестве входных величин модели, а другая – выходных величин. Далее, применяя научные теоретические результаты полученные другими исследователями в данной области и возможно применяя ряд необходимых допущений, а так же возможно уже имеемые экспериментальные данные о входных и выходных величинах (например, об их законах распределения) устанавливают детерминированные или стохастические зависимости между входными выходными величинами модели. Совокупность полученных соотношений между входными и выходными величинами (обычно записываются в виде уравнений) называют статистической моделью.

В ходе реализации статистической модели на основе выбранных законов распределения случайных величин и выбранными вероятностями моделируемых событий методами математической статистики определяются выборочные до экспериментальные значения случайных величин и квазиэмпирические последовательности появления или не появления моделируемых событий. Далее, по уравнениям модели определяют соответствующие выборочные значения ее выходных величин. А многократная реализация построенной модели позволяет исследователю построить модельную выборку ее выходных величин, которая вновь подвергается статистическому анализу (корреляционному, регрессивному, дисперсионному, спектральному) с целью получения оценок характеристик выходных параметров модели или проверки выдвигаемых гипотез. На основе полученных результатов делаются заключения по объекту исследования, а также обоснования по практическому применению построенной модели.

Методы статистического моделирования широко применяются при решении задач массового обслуживания, теории оптимизации, теории управления, теоретической физике и т.д.

Теоретической основой метода статистического моделирования на компьютере являются предельные теоремы теории вероятностей.

4.1.2. Неравенство Чебышева . Для неотрицательной функции случайной величины и выполняется неравенство

.

4.1.3. Теорема Бернулли . Если проводятся независимых испытаний, в каждом из которых некоторое событие осуществляется с вероятностью , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к , т.е. при

4.1.4. Теорема Пуассона . Если проводятся независимых испытаний и вероятность осуществления события в том испытании равна , то относительная чистота появления события ( число благоприятных исходов испытания) при сходится по вероятности к среднему из вероятностей , т.е. при

4.1.5. Теорема Чебышева . Если в независимых испытаниях наблюдаются значения случайной величины , то при среднее арифметическое значений случайной величины сходится по вероятности к ее математическому ожиданию , т.е. при

4.1.6. Обобщенная теорема Чебышева . Если независимые случайные величины с математическими ожиданиями и дисперсиями ограниченными сверху одним и тем же числом, то при среднее арифметическое значений случайной величины сходится по вероятности к среднему арифметическому их математических ожиданий

4.1.7. Теорема Маркова .. Теорема Чебышева будет справедлива и для зависимых случайных величин , если

4.1.8. Центральная предельная теорема . Если независимые одинаково распределенные случайные величины с математическое ожидание и дисперсию , то при закон распределения суммы неограниченно приближается к нормальному закону распределения

где функция Лапласа

4.1.9. Теорема Лапласа . Если в каждом из независимых испытаний событие появляется с вероятностью , то