Неоднородная совокупность в статистике. Статистическая совокупность

Объектами статистических исследований являются статистические совокупности, состоящие из отдельных единиц, характеризуемых различными признаками. В результате исследований выявляются статистические закономерности, на основе использования моделей социально-экономических явлений и методов обработки и анализа экономико-статистической информации.

Статистическая совокупность - множество объектов, явлений, объединенных какими-либо общими свойствами (признаками) и подвергающихся статистическому исследованию. Например, совокупность промышленных предприятий страны. Отдельные объекты явления, составляющие статистическую совокупность и называемые единицами совокупности, обладая некоторыми общими признаками, могут различаться между собой по другим признакам. Поэтому совокупности могут быть однородными (качественно однородными) и неоднородными (качественно неоднородными).

В однородной совокупности объекты (единицы совокупности) сходны между собой по существенным для данного исследования признакам и относятся к одному и тому же типу явления. Однородная совокупность, будучи однородной по одним признакам, может быть разнородной по другим.

Элементы (единицы) неоднородной совокупности относятся к различным типам изучаемых явлений. Для неоднородной совокупности исчисление обобщающих характеристик, в особенности в виде средней величины, неправомерно. С помощью метода группировок и метода таксономии в неоднородной совокупности могут быть образованы однородные группы.

Вся совокупность реально существующих объектов, характеризующих какое-либо явление, называется генеральной. Для статистического исследования из генеральной совокупности по определенным правилам может быть отобрана совокупность единиц, которые образуют выборочную совокупностью.

Каждая единица совокупности характеризуется различными признаками - отличительными чертами, свойствами, качеством.

Варьирующий признак - признак, принимающий в пределах статистической совокупности разные значения у единиц статистической совокупности. Это, однако, не исключает повторений отдельных значений (вариантов) признака, у нескольких единиц совокупности значения признака могут быть одинаковыми. Примером варьирующего признака может служить размер месячной заработной платы рабочих предприятия.

Качественный признак (атрибутивный) - признак, отдельные значения которого выражаются в виде понятий, наименований. Например, профессия рабочего (слесарь, сборщик), уровень образования (начальное, среднее, высшее).

Количественный признак - признак, отдельные значения которого имеют количественное выражение (например, себестоимость продукции по различным предприятиям одной отрасли).

Результативный признак - зависимый признак, то есть изменяющий свое значение под влиянием другого, связанного с ним факторного признака.

Факторный признак (фактор) - признак, оказывающий влияние на другой, связанный с ним результативный признак, и обусловливающий его изменение (вариацию). Роль этих признаков в различных задачах может меняться, в одной задача он выступает как факторный, в другой - как результативный. Например, производительность труда выступает фактором изменения (снижения) себестоимости единицы продукции, и в то же время, производительность труда в связи с квалификацией рабочего является результативным признаком.

В результате статистического исследования устанавливается статистическая закономерность, которая рассматривается как количественная закономерность изменения в пространстве и во времени массовых явлений и процессов общественной жизни, состоящих из множества элементов (единиц совокупности). Она свойственна не отдельным единицам совокупности, а всей совокупности в целом. В силу этого закономерность, присущая данному явлению (процессу), проявляется только при достаточно большом числе наблюдений и только в среднем. Таким образом, это средняя закономерность массовых явлений и процессов. В большом числе наблюдений происходит взаимопогашение индивидуальных отклонений от средней в ту и другую стороны, вызванных случайными причинами, и проявляется закономерность. Это связывает статистическую закономерность с законом больших чисел, По мере увеличения пространственно-временных интервалов развития явления его закономерность становится все более устойчивой.

Таким образом, зная статистическую закономерность конкретного массового явления, можно с определенной вероятностью предвидеть его дальнейшее развитие, определить величину изучаемого признака (показателя). Однако необходимо учитывать, что значительные изменения условий существования этого явления могут привести к существенным изменениям силы этой зависимости.

В социально-экономической статистике закон больших чисел представляет собой общий принцип, в силу которого количественные закономерности, присущие массовым общественным явлениям, отчетливо проявляются лишь в достаточно большом числе наблюдений. Закон больших чисел порожден особыми свойствами массовых социальных явлений. Последние в силу своей индивидуальности, с одной стороны, отличаются друг от друга, а с другой - имеют нечто общее, обусловленное их принадлежностью к определенному виду, классу, к определенным группам. Единичные явления в большей степени подвержены воздействию случайных и несущественных факторов, чем масса в целом. В большом числе наблюдений взаимно погашаются случайные отклонения в противоположные стороны от закономерностей. В результате взаимопогашения случайных отклонений средние, вычисленные для величин одного и того же вида, становятся типичными, отражающими действие постоянных и существенных факторов в данных условиях места и времени. Тенденции и закономерности, вскрытые с помощью закона больших чисел - это массовые статистические тенденции.

Статистическое исследование социально-экономических явлений осуществляется различными методами с использованием моделей этих явлений.

Моделью называется отображение, аналог явления или процесса в основных, существенных для целей исследования чертах. Процесс создания модели называется моделированием. Модель должна учитывать все важные взаимосвязи, закономерности и условия развития таким образом, чтобы на ее основе можно было выполнить эксперименты, цель которых - определение “поведения” объекта моделирования в различных возможных (часто ненаблюдаемых в действительности) условиях. Экономические явления и процессы моделируются с помощью экономико-математических моделей.

Экономико-математическая модель - описание экономического явления или процесса с помощью одного или нескольких математических выражений (уравнений, функций, неравенств, тождеств). Математические выражения характеризуют важнейшие взаимосвязи явлений и процессов, условия и закономерности их развития, ограничения, требования и т.д. Экономико-математическая модель представляет собой обобщение существенной качественной и количественной информации об объекте анализа и служит базой для проведения расчетных экспериментов, которые позволяют получить различные характеристики и параметры изучаемого объекта для заданных условий его развития. Разработка и применение экономико-математических моделей существенно расширяют возможности экономического анализа. Основные преимущества использования экономико-математических моделей заключаются в следующем:

Одновременный учет в модели большого числа требований, условий и предположений, а также достаточная свобода в пересмотре этих условий в ходе работы с моделью;

Непротиворечивость (совместность) получаемых по модели системы показателей;

Возможность получения вариантов поведения изучаемого явления для широкого диапазона и сочетания исходных условий и предположений (например, вариантов прогноза экономического развития).

Экономико-математические модели по назначению делятся на теоретико-экономические и прикладные модели. Многие прикладные модели являются экономико-статистическими моделями или включают последние в качестве составных частей.

Теоретико-экономические - это экономико-математические модели, предназначенные для качественного анализа экономических систем, процессов и явлений, Значения параметров и даже функциональный вид входящих в теоретико-экономическую модель соотношений обычно не конкретизируется. Выводы, которые получаются с помощью этих моделей, как правило, носят общий характер. Типичным примером является вывод об устойчивости (неустойчивости) изучаемой экономической системы, если ее параметры удовлетворяют определенным требованиям, о существовании (отсутствии) сбалансированных или оптимальных решений. Теоретико-экономические модели широко используются в теоретических экономических исследованиях. В настоящее время построение и исследование теоретико-экономических моделей является предметом математической экономики. Для их исследования применяется развитый математический аппарат (теория дифференциальных уравнений, теория матриц, оптимизационные и теоретико-игровые методы и т.д.).

Экономико-статистическая модель - это система математических соотношений, описывающая некоторый экономический объект, процесс или явление, параметры которой определяются (оцениваются) на основе фактических данных с помощью статистических данных (в отличие от теоретико-экономической модели). Структура и конкретный вид экономико-статистической модели определяются спецификой моделируемого объекта, теоретическими представлениями исследователя, целями исследования, доступностью информации, используемыми методами обработки данных. Процесс построения модели распадается на два взаимосвязанных этапа: определение общего вида соотношений модели и входящих в них переменных и статистическое оценивание значений параметров на основе данных наблюдений. К наиболее часто используемым экономико-статистическим моделям относятся тренды, модели временных рядов, изолированные уравнения регрессии, эконометрические модели. Экономико-статистические модели широко применяются при планировании и анализе экономических систем, исследовании их реакции на изменение внешних и внутренних условий функционирования, а также при прогнозировании и определении различных вариантов будущего развития.

Для оценивания параметров эконометрической модели необходимы специальные методы одновременного оценивания (доказано, что обычный метод наименьших квадратов, примененный к каждому уравнению эконометрической модели изолированно, приводит к несостоятельным оценкам). Наиболее употребительными методами одновременного оценивания эконометрической модели являются двухшаговый и трехшаговый метод наименьших квадратов.

Слово «статистика» имеет латинское происхождение (от status , что означает «определенное положение вещей» – состояние). В средние века оно использовалось для характеристики политического состояния государства и употреблялось в значении слова «государствоведение», (Готфрид Ахенваль, XVIII в., Германия). Как наука статистика возникла только в XVII в., когда правительства различных западноевропейских стран стали заниматься сбором разного рода информации о своих гражданах. Однако статистический учет существовал уже в глубокой древности, упоминания о статистических обследованиях встречаются и в библейские времена.

Еще за 5 тыс. лет до н.э. проводились переписи населения в Китае, велся учет имущества граждан в Древнем Риме, использование средней было хорошо известно еще при жизни Пифагора. В средние века осуществлялось сравнение военного потенциала разных стран, численности их населения, домашнего имущества, земель.

У истоков статистической науки стояли две школы – немецкая описательная и английская школа политических арифметиков.

Представители описательной школы (Г. Конринг (1606-1661), Г. Ахенваль (1719-1772), А. Бюшинг (1724-1793) и др. считали, что задачей статистики является описание достопримечательностей государства: территории, населения, климата, вероисповедания, ведения хозяйства и т. п. – только в словесной форме, без цифр и вне динамики, т. е. без отражения особенностей развития государств в те или иные периоды, а только лишь на момент наблюдения. Они были «политические арифметики», которые ставили целью изучать общественные явления с помощью числовых характеристик – меры веса и числа. Политические арифметики видели основное назначение статистики в изучении массовых общественных явлений, осознавали необходимость учета в статистическом исследовании требований закона больших чисел, поскольку закономерность может проявиться лишь при достаточно большом объеме анализируемой совокупности. Виднейшим представителем и основателем этого направления был В. Петти (1623-1687). Именно школа политических арифметиков стала основообразующей в развитии современной статистики.

В XIX в. получило развитие учение бельгийского статистика Адольфа Кетле (1796-1874), который первым применил современные методы сбора данных, его считают основоположником учения о средних величинах. Математическое направление в статистике развивалось в работах англичан – сэра Фрэнсиса Гальтона (1822-1911) и Карла Пирсона (1857-1936), Рональда Фишера, которые внесли значительный вклад в развитие теории корреляции и оказали существенное воздействие на современную статистику. * Примечание. Знаком (*) отмечены издания, на основании которых составлен тематический обзор.

Прогрессу статистической методологии способствовали труды российских статистиков – А.А. Чупрова (1874-1926), B.C. Немчинова (1894-1964), С.Г. Струмилина (1877 – 1974), В.Н. Старовского (1905-1975) и др.

Развитие статистической науки, расширение сферы практической статистической работы привели к изменению содержания самого понятия «статистика». В настоящее время данный термин употребляется в трех значениях:

Во-первых , под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о различных явлениях общественной жизни. Осуществляется сбор данных в каждом регионе и по стране в целом о численности и составе населения, ведется подсчет предприятий и организаций, собираются данные об объемах производства и объемах продаж и т.д. Эту деятельность на профессиональном уровне осуществляет Федеральная служба государственной статистики (Госкомстат РФ) и система ее учреждений, организованных, по административно-территориальному признаку, например, Ростовский областной комитет государственной статистики или Таганрогский межрайоннный отдел государственной статистики и т. д.

Во-вторых , статистикой называют цифровые материалы, служащие для характеристики какой-либо области общественных явлений или территориального распределения какого-то показателя, публикуемые в периодической прессе, справочниках, сборниках. Например, динамика цены на бензин в Ростовской области представленная за летние месяцы текущего года.

В-третьих , статистикой называется отрасль знания, особая научная дисциплина, которая в широком понимании разрабатывает методы сбора, систематизации, анализа, интерпретации и отображения результатов наблюдений массовых случайных явлений и процессов целью выявления существующих в них закономерностей. Например, исследования взаимосвязи между качеством трудовых ресурсов и экономическим ростом в регионах РФ.

Итак, статистика – это вид научно-практической деятельности, направленной на получение, обработку, анализ и хранение информации, характеризующей количественные закономерности жизни общества во всём ее многообразии в неразрывной связи с её качественным содержанием.

Если рассматривать статистику как инструмент изучения социально-экономических явлений и процессов, то предмет статистики состоит в изучении размеров и количественных соотношений массовых общественных явлений в конкретных условиях места и времени, а так же числовое выражение проявляющихся в них закономерностей.

Свой предмет статистика изучает при помощи определенных категорий, т.е. понятий, которые отражают наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира. Закономерность, выявленная на основе массового наблюдения, то есть проявляющаяся лишь в большой массе явлений через преодоление свойственной её единичным элементам случайности, называется статистической закономерностью .

Свойство статистических закономерностей проявляться лишь в массе явлений при обобщении данных по достаточно большому числу единиц, находит свое отражение в законе больших чисел, сущность которого состоит в том, что по мере увеличения числа наблюдений влияние случайных факторов взаимопогашается и на поверхность выступает действие основных факторов, которые и определяют закономерность. Например, характеристика экологической ситуации предполагает изучение закономерности динамики выбросов загрязняющих веществ в атмосферный воздух регионов от динамики физического объема валового регионального продукта.

Познание закономерностей возможно только в том случае, если изучаются не отдельные явления, а совокупности явлений. То есть объектом статистического изучения является статистическая совокупность – множество единиц изучаемого явления, объединенных качественной однородностью, определенной целостностью, взаимозависимостью состояний отдельных единиц и наличием вариации. Таковы, например, совокупность домохозяйств, совокупность предприятий и фирм, совокупность нефтяных месторождений, совокупность регионов и т. п.

Однородная совокупность – это вид совокупности, в которой один или несколько научаемых существенных признаков являются общими для всех единиц. Например, принадлежность предприятий к одной и той же отрасли – заводы металлургического комплекса или регионы, относящиеся к одной природно-климатической зоне.

Разнородная совокупность – это вид совокупности, в которую входят явления разного типа. Совокупность может быть однородна в одном отношении и разнородна в другом. Регионы, включенные в одну группу по природно-климатическим характеристикам, различаются по уровню социально-экономического развития. Заводы, входящие в металлургический комплекс России, различаются по своей специализации – выделяются группы заводов по производству труб, или по производству листового проката и т.п. В каждом отдельном случае однородность совокупности устанавливается путем проведения качественного анализа, выяснения содержания изучаемого общественного явления.

Статистическая совокупность состоит из единиц совокупности. Единицы статистической совокупности представляют собой качественно однородные первичные элементы этой совокупности. Каждая единица совокупности представляет собой частный случай проявления изучаемой закономерности. Решение вопроса о единице и границах изучаемой совокупности определяется целью исследования. Это связано со сложной природой социально-экономических явлений. В каждом отдельном явлении одновременно реализуются различные процессы. Например, при изучении совокупности работников, каждый работник может рассматриваться как член определенной социально-профессиональной группы, как работник предприятия, как житель города поселка и т.д., то есть единица совокупности – это предел дробления объекта исследования, при котором сохраняются все свойства изучаемого процесса.

Единицы совокупности обладают определенными свойствами, качествами, которые принято называть признаками. Признак – качественная особенность единицы совокупности. Например, признаки человека: возраст, пол, образование, вес, семейное положение и т. д. Признаки предприятия: форма собственности, отрасль, численность работников, величина уставного фонда и т.д. Статистика изучает явления через их признаки: чем более однородна совокупность, тем больше общих признаков имеют ее единицы, тем меньше варьируют её значения.

По характеру отображения свойств единиц изучаемой совокупности признаки делятся на две основные группы:

признаки, имеющие непосредственное количественное выражение, например, площадь территории, численность жителей города и т. д. Они могут быть дискретно или непрерывно варьируемыми. Дискретно варьируемые признаки – это признаки, отдельные значения которых отличаются друг от друга на некоторую конечную величину (обычно целое число). Так, дискретные признаки мы используем, когда проводится группировка, например, магазинов по числу в них отделов или касс. В магазинах может быть один, два, три и т.д. отдела, но не может быть полтора или два с половиной отдела. Существует множество признаков, значения которых отличаются друг от друга на сколько угодно малую величину и могут принимать любые значения на некотором интервале. Такие признаки называют непрерывно варьирующими или непрерывными признаками. К ним относятся индексы экономического состояния, среднедушевые доходы, весовые и объемные характеристики товаров;

признаки, не имеющие непосредственного количественного выражения. В этом случае отдельные единицы совокупности различаются своим содержанием, например, отраслевая специализация предприятий и организаций; деление природных ресурсов по их происхождению: минеральные, водные, земельные или деление населения по полу – мужчины и женщины и т.д. Такие признаки обычно называют атрибутивными (в философии «атрибут» – неотъемлемое свойство предмета). В случае, когда имеются противоположные по значению варианты признака, говорят об альтернативном признаке (да, нет). Например, продукция может быть годной или бракованной (не годной); каждое лицо может состоять в браке или нет и т. д.

Особенностью статистического исследования является, то, что в нем изучаются только варьирующие признаки, т.е. признаки, принимающие различные значения (для атрибутивных, альтернативных признаков) или имеющие различные количественные уровни у отдельных единиц совокупности.

Поскольку статистика, как уже сказано, изучает количественную сторону массовых явлений, то возникает необходимость в обобщающих характеристиках статистической совокупности. Эту роль выполняет статистический показатель, являющийся количественной характеристикой какого-то свойства совокупности.

Статистический показатель это количественная оценка свойства изучаемого явления. Статистические показатели можно подразделить на два основных вида. Первый вид - это учетно-оценочные показатели, которые показывают размеры, объемы, уровни изучаемого явления, например, объем промышленной продукции в РФ в 2003 г, составил 8498,0 млрд. рублей или оборот розничной торговли – 4483,5 млрд. рублей. Второй вид показателей – аналитические, которые показывают, как развивается изучаемое явление, из каких частей состоит целое, т.е. в каком соотношении находятся части целого между собой и как распространяется явление в пространстве. Так, в составе Северо-Кавказского экономического района территория Ростовской области составляет 28,4%, а Республики Адыгея – 2,1 %. К аналитическим относят относительные и средние величины, показатели вариации и т.д. Например, среднедушевые денежные доходы населения в 2003 г. в РФ составляли 5129 рублей в месяц.

Лекция 1.3

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Основные узловые моменты разведочного анализа

Слайд 2

Цель разведочного анализа – представить наблюдаемые данные компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Разведочный анализ включает преобразование данных и способы наглядного их представления, выявление аномальных значений, грубую оценку типа распределения, сглаживание.

Термин разведочный анализ применяется также в более широком смысле, чем предварительная обработка данных. Например, в многомерных процедурах, таких как факторный анализ, многомерное шкалирование данных, цель разведочного анализа, кроме анализа первичных данных, заключается в определении минимального числа факторов, которые удовлетворительно воспроизводят ковариационную (корреляционную) матрицу или матрицу близостей наблюдаемых переменных

Слайд 3

Согласно предыдущей лекции считаем, что у исследователя имеются наблюдения в виде матрицы «объект-признак» или вектора признака и частичное или полное отсутствие априорной информации о причинно-следственном механизме этих данных. При анализе обычно возникают следующие вопросы

1. Какой обработке подвергнуть наблюдения?

2. Какую модель выбрать?

3. Какие заключения можно сделать?

Для выбора способа обработки необходима модель наблюдаемых данных. Прежде чем произвести наблюдение необходимо указать природу и свойства измеряемой величины, т.е. использовать априорную информацию. Чем полнее априорная информация, тем точнее и с меньшими затратами можно получить необходимые результаты. Поэтому большое значение имеет формализация методов сбора, обработки и использования априорной информации. На основе анализа этой информации строится модель исследуемого явления, выбирается аппаратура, разрабатывается методика проведения эксперимента.

Слайд 4

Для получения более полной информации об изучаемом явлении проводится первичный анализ данных, получивший название разведочного анализа (Exploratory data analysis). Разведочный анализ необходим во всех случаях, за исключением лишь очень простых задач. Например, выбору семейства моделей исследуемого явления в большинстве случаев должен предшествовать предварительный и графический анализ данных. Для иллюстрации сказанного рассмотрим модель простой одномерной линейной регрессии. В соответствии с этой моделью предполагается, что наблюдения n пар (x 1 ,Y 1), …, (x n ,Y n ) можно описать уравнением



В качестве минимального предварительного анализа можно рассматривать график рассеяния точек (x j ,Y j ). В результате анализа графиков можно сделать заключение о постоянстве дисперсии Y i , о целесообразности преобразования переменных, выявить наличие аномальных наблюдений, для исключения которых необходимы специальные исследования. После такой обработки данных, предполагая, что верна модель (1), необходимо оценить параметры b 0 , b 1 и провести графический анализ остатков между наблюдаемыми и оцененными значениями Y i . На основе этого анализа можно подтвердить или предложить другую модель.

Слайд 5

Рассмотрим простейшие процедуры разведочного анализа, относящиеся к предварительной обработке данных . Они дополняют методы, изложенные в первой лекции при рассмотрении конкретных форм представления данных. Поясним необходимость проведения разведочного анализа на конкретных вопросах оценивания.

Оценка среднего . Рассмотрим простейший пример оценки истинного среднего m независимой случайной величины x по выборкеобъема n . Если вычислена оценка среднего, то возникает вопрос: «насколько сильно отличается оценка от ненаблюдаемого истинного значения?» Так как истинное значение m недоступно, то определяется доверительный интервал , который с заданной вероятностью накрывает истинное значение.

Отношение имеет t- распределение Стьюдента. Очень часто строят 95%-е доверительные интервалы, считая, что величина t распределена нормально. Для нормального распределения величина t будет равна 1,96, тогда как для t- распределения при числе степеней свободы v (v = n – 1), равных 1; 3 и 12, величина t , соответственно, равна 12,7; 4,3 и 2,18. Поэтому при малых объемах выборок использование нормального распределения вместо t- распределения приводит к большим ошибкам в интервальной оценке. Большое различие интервальных оценок связано с различием t- распределения от нормального в хвостах распределения.

Слайд 6

Хвосты реальных распределений имеют, как правило, больший разброс, чем у нормального распределения. Природа отличия реального распределения от нормального может быть различной:

1. Большинство измерений проводится в конкретных единицах, например, в миллиграммах, микронах, и их значения ограничены. Для нормального же закона распределения значения изменяются от – ¥ до + ¥.

2. Резкая асимметрия некоторых распределений (например,c 2 , F ) при малых выборках, обрывистые края у равномерного распределения.

3. Поведение на «хвостах» распределения. Одно или несколько резко выделяющихся значений от основной массы наблюдений могут существенно изменить среднее и катастрофически дисперсию. Неправдоподобные значения почти неизбежны в экспериментальных данных. Количество таких значений в медицинских данных достигает до 30%, а в специально поставленных экспериментах оно составляет около 1% от всех данных.

Оценка среднего среднеарифметическим имеет большие достоинства: несмещенность для генеральных совокупностей, имеющих математическое ожидание, достаточность, полнота и, соответственно, полная эффективность для нормального, пуассоновского, гамма-распределений и при достаточно широких условиях удобное асимптотически нормальное распределение, которое во многих случаях приближенно достигается уже при средних объемах выборок n . Имеются и недостатки такой оценки: эффективность ее равна нулю для равномерного распределения, а для некоторых выборок уже одно неправдоподобно большое наблюдение может сделать среднеарифметическую оценку бесполезной.

Слайд 7

Если нормальность распределения нарушается резко выделяющимися данными, то желательно применять робастные (robust – крепкий, здоровый, дюжий) оценки . Примером робастной оценки среднего, терпимой к отклонению хвостов распределения от нормального является медиана распределения. Она, как срединное значение наблюдений, не зависит от одного или нескольких неправдоподобно больших измерений.

Медиана, как робастная, не является эффективной оценкой относительно среднеарифметической оценки для нормального распределения.

Слайд 8

Мера разброса . На практике для характеристики величины разброса данных используются следующие меры: среднеквадратическое отклонение s или его квадрат – дисперсия s 2 , а также размах R. Оценки этих величин обозначают соответственно S , S 2 , R . Оценка разброса по S широко применяется, и оно полезно при линейных преобразованиях типа Y = b + aX. Для некоторых распределений s 2 = ∞, а размах применим; неправдоподобно большие отклонения в наблюдениях также могут сделать оценку дисперсии очень большой, что приводит к типу распределения, отличному от истинного.

Оценка разброса по выборочному размаху относится к быстрым процедурам. В связи с появлением быстродействующих ЭВМ вычислительные преимущества R по сравнению с S становятся все менее важными, но остаются преимущества, связанные с простотой вычисления R и возможностью для неспециалистов применять эту статистику. Так, размах практически совсем вытеснил S из систем контроля качества, в которых выборки малых объемов берутся через короткие интервалы времени и по средним значениям и размахам строятся контрольные карты.

Следует отметить, что размах можно использовать для распознавания больших неправдоподобных ошибок в вычислениях S для выборок из любой генеральной совокупности. Это следует из ограниченности отношения S/R .

Слайд 9

Подводя итог рассмотренным оценкам, необходимо сделать вывод, что имеются причины, чтобы не обрабатывать все данные одинаково. Прежде чем приступить к обработке наблюдений, необходимо проверить однородность выборки и, если она неоднородна, то разделить на слои. Наличие резко выделяющихся наблюдений также нарушает однородность выборки. В этом случае один из подходов базируется на обнаружении и удалении этих выделяющихся данных.

Удаление резко выделяющихся наблюдений обеспечивает безопасность оценки, однако обеспечивает эффективность только в случае определения четкой границы между удаленными и не удаленными данными. К явным резко выделяющимся данным примыкает зона «сомнительных» данных (рис. 1), которые не всегда можно распознать. Здесь легко допустить неправильные удаления и необоснованные сохранения, полной эффективности ожидать не приходится даже в идеале после удаления. Эти трудности можно преодолеть, применяя робастные методы оценивания. Робастные алгоритмы обеспечивают безопасность и эффективность оценивания при наличии резко выделяющихся и сомнительных данных.

Рис. 1. Плотность распределения. Разбиение данных на три группы.

Слайд 10

О качестве результатов Цель исследования – дать ответ на вопрос: можно полученные результаты применять на практике. Пригодность полученных результатов можно оценить методами перепроверок. Наиболее часто используются методики простой и двойной перепроверок.

Простая перепроверка. Проверка полученной модели проводится на данных, отличных от тех, по которым рассчитаны параметры модели. В этом случае можно выборку наблюдений делить на две (или больше) части. Одну часть используют для обработки, а другую – для проверки. После этого части можно менять местами, что может дать несколько больше информации, хотя здесь имеются определенные трудности, вытекающие из-за связи между двумя оценками качества модели.

Такую перепроверку можно осуществить и для многократного деления данных, например, можно выборку разделить на 10 равных частей. На любых 9 из них провести оценку модели, а на оставшейся одной части осуществить проверку. После этого повторить процедуру 9 раз, беря каждый раз новые 9 частей. В ряде случаев процедуру усложняют. Расчет осуществляют по всем данным без одного наблюдения, а проверку – на отброшенном значении. Расчеты повторяют для каждого из наблюдений выборки. Не следует обольщаться результатами простой проверки, так как контрольная выборка всегда будет больше похожа на рабочую, чем на выборку объектов, для которой будут использоваться результаты исследований.

Двойная перепроверка. Производится проверка на данных отличных, как от тех, по которым строилась модель, так и от тех, которые были использованы для расчета параметров модели. Медики такой метод проверки называют «дважды слепым». «Свежие данные» для перепроверки можно собирать после выбора модели и расчета параметров. Если получение таких данных невозможно, то можно обратиться к архивным данным при условии, что они оставались неизвестными, пока строилась модель и рассчитывались параметры этой модели. При двойной перепроверке важно, чтобы данные, используемые для проверки, являлись отличными от тех, по которым проводились оценки. Можно использовать данные разных лет, если они могут быть отнесены к одному времени, или данные других исследователей.

Слайд 11

Неоднородные выборки

Стандартные методы оценивания любой статистики выборочных данных построены на предположении, что выборка взята из однородной совокупности с простой структурой закона распределения. Между тем на практике выборки часто формируются под влиянием различных причин и условий, и они могут быть представлены в виде объединения некоторого множества однородных выборок, каждая из которых имеет простую структуру. Например, нельзя считать однородными доходы богатых и других граждан государства, так как они имеют различную экономическую основу; объекты различной стоимости, отличающиеся по народнохозяйственным последствиям . Примерами могут служить неоднородные последовательности динамических моделей в задачах анализа вибраций в машиностроении; сейсмограмм в геофизике; кардиограмм с нарушениями частоты биения сердца.

Природа неоднородности может быть различной. Например, возможны объединения из совокупностей с различными средними и дисперсиями или с одинаковыми средними, но с различными дисперсиями. Важный класс неоднородных выборок образуют также выборки, содержащие одно или несколько неправдоподобно больших или малых измерений . Обработка неоднородных

Пусть наблюдения состоят из трех однородных слоев, каждый из которых можно описать простой одномерной регрессией. Эти зависимости показаны на рис. 2, где прямые – линии регрессий каждой совокупности. Если обработать объединенную выборку этих совокупностей, то получим регрессионную зависимость, изображенную на рис. 2 пунктирной прямой. Очевидно, что регрессия по объединенным данным лишена всякого смысла.

Для определения однородности выборки необходим подробный содержательный анализ исследуемой совокупности. Этот анализ должен базироваться на существенном не случайном признаке, по которому исходная совокупность может быть представлена в виде объединения нескольких однородных совокупностей. Например, налоговые декларации можно разбить на группы по объемам доходов; учреждения – по числу служащих; фермы – по общей площади земель и валовым доходам. При разделении выборки на слои требуется ответить на вопросы, по какому признаку лучше производить расслоение, как определить границы между слоями, сколько должно быть слоев.

Слайд 12

Разделение неоднородной совокупности на однородные

Пусть выборка изучаемой совокупности x 1 , …, x n , содержит элементы двух независимых случайных величин с плотностями распределений f(x,q 1) и f(x,q 2). Обозначим через А – множество элементов выборки, принадлежащих к первой случайной величине, В – множество элементов выборки из второй совокупности. Требуется найти оценки 1 , 2 неизвестных параметров q 1 , q 2 и множества А и В. Для оценки этих четырех неизвестных используем метод максимума правдоподобия. Неизвестные q 1 , q 2 и А и В найдем из условия покоординатной максимизации функции правдоподобия

На каждом шаге максимизируется величина функции правдоподобия по одному из неизвестных . 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Недостатком алгоритма является то, что он останавливается на первом локальном максимуме функции правдоподобия. Частично этого недостаток можно избежать, решая задачу при различных начальных разбиениях на подмножества А и В. Если конечные результаты для нескольких начальных условий различны, то берется то решение, для которого значение функции правдоподобия больше. Отсюда следует, что приведенный алгоритм применим и для выборок, содержащих более двух слоев.

Известно, что наличие в совокупности двух групп индивидуумов (например, мужчин и женщин), средние значения изучаемых признаков которых различаются между собой, может привести к ложной корреляции. Ложная корреляция возникает тогда, когда неоднородность проявляется по тем признакам, между которыми определяют связь. На проблему неоднородности указывал Коллер . Корреляция может быть вызвана, например, различием между полами, хотя при рассмотрении групп, состоящих только из мужчин или из женщин, связь между исследуемыми признаками отсутствует. На рис. 8.4 схематично изображен этот случай. Неоднородность данных может, наоборот, затушевать корреляцию или изменить ее знак.

Рис. 8.4. Схематичный пример возникновения корреляции из-за неоднородности данных. Между изучаемыми признаками и у как для группы мужчин, так и для группы женщин не существует связи. Но так как у группы мужчин все значения признаков и у больше, чем у женщин, то коэффициент корреляции, вычисленный в целом по обеим группам, получается значительным по величине

Так как факторный анализ исходит из корреляций между переменными, то неоднородность данных оказывает влияние также на факторное решение. На это обращал внимание уже Тэрстоун . Далее на нескольких примерах, сконструированных как модели, показывается влияние неоднородности на факторную структуру. Для этого привлекается числовой пример, с которым мы уже ранее имели дело (табл. 7.5 и 7.6).

К матрице данных рассмотренного примера добавляется вторая матрица с данными, представляющими результат наблюдения над теми же самыми 10 переменными у 200 индивидуумов. Определяется корреляционная матрица по всем данным. При этом переменные и 2-й группы наблюдений приводятся к стандартной форме. Среднее значение стандартизованных переменных равно нулю, а стандартное отклонение - единице. Коэффициенты корреляции между этими переменными равны коэффициентам корреляции, указанным в табл. 7.6, т. е. факторная структура двух корреляционных матриц известна, и они идентичны. Если ко всем значениям переменных второй группы данных прибавить постоянную величину, то их средние значения станут равными этой постоянной величине. Коэффициенты корреляции между переменными для этой группы данных не изменятся.

Если принять эту постоянную величину а равной 3, то объединенная совокупность данных будет отличаться своей неоднородностью. Можно показать, что если первоначальный коэффициент корреляции между двумя переменными, принадлежащими двум группам данных, равен , то коэффициент корреляции, вычисленный по объединенной совокупности данных при указанных выше условиях, будет равен

где являются постоянными, на величину которых смещаются средние значения переменных х и у. Через X и У обозначены переменные объединенной совокупности данйых. Введем новую переменную, обозначив ее через Y. Причем она будет принимать значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и принимать значение, равное единице, для индивидуума, принадлежащего ко второй группе данных . Коэффициент корреляции между этой новой переменной Y и переменной X для объединенной совокупности данных равен:

С помощью этих двух формул были вычислены соответствующие коэффиценты корреляции по элементам корреляционной матрицы, приведенной в табл. 7.6, причем вводились различные условия, вызывающие неоднородность данных. Затем по полученным корреляционным матрицам был проведен факторный анализ, включающий в себя варимакс-вращение, и было проведено сравнение с результатом варимакс-решения в табл. 7.5.

Пример 1. Прибавляем ко всем значениям первой переменной во второй группе данных постоянную . Коэффициенты корреляции между ней и другими переменными изменяются по сравнению со значениями, приведенными в табл. 7.6. В табл. 8.1 представлены лишь те коэффициенты корреляции, величина которых изменилась по сравнению с указанными в табл. 7.6.

Пример 2. Включаем в матрицу данных 11-ю переменную, чтобы проследить влияние неоднородности данных на факторное решение. Маркировочная переменная принимает значение, равное нулю, для индивидуума, принадлежащего к первой группе данных, и значение, равное единице, для индивидуума, принадлежащего ко второй группе данных.

Таблица 8.1. Коэффициенты корреляции, изменившиеся по сравнению с приведенными в табл. 7.6 из-за неоднородности данных

Коэффициенты корреляции между этой переменной и остальными переменными, вычисленными по выборке, состоящей из 400 индивидуумов, также указаны в табл. 8.1. Результаты факторизации корреляционных матриц этих двух примеров с применением варимакс-вращения приведены в табл. 8.4, где они противопоставлены первоначальному факторному решению, полученному по однородным данным. Если причиной неоднородности является преобразование одной переменной, то факторное отображение изменяется лишь постольку, поскольку общность этой переменной уменьшается. Лишь во втором примере маркировочная переменная 11 вызывает появление третьего фактора, фактора неоднородности, и значительно его нагружает. В то время как отдельные коэффициенты корреляции при введении неоднородности уменьшились, факторное отображение изменилось незначительно. Неоднородность, обусловленная новой переменной, вызвала появление нового фактора.

Пример 3. К значениям первых трех переменных второй матрицы исходных данных прибавляем постоянную , т. е. усиливаем неоднородность данных.

Пример 4. Дополнительно к условиям примера 3 вводим маркировочную переменную 11.

Корреляционная матрица этих двух примеров приведена в нижнем углу табл. 8.2. При сравнении с табл. 7.6. бросается в глаза, что из-за неоднородности данных некоторые коэффициенты корреляции изменяются очень сильно (например, коэффициент корреляции между 2-й и 3-й переменными изменил свое значение - 0,546 на + 0,524!). Несмотря на это, факторное отображение изменилось мало, что видно из табл. 8.4, так как наряду с неоднородностью еще действуют первоначальные связи между переменными и факторами. Но нагрузки переменных 1-3 на первый фактор уменьшились. В обоих последних примерах возникает третий фактор, вызванный неоднородностью данных. Он имеет значительные нагрузки от переменных 1-3, а также 11.

Примеры 5 и 6. К значениям первых пяти переменных прибавляем постоянную величину . Эти переменные нагружают первый фактор. Следовательно, неоднородность присуща тем переменным, которые определяют первый фактор. Такая ситуация осложняет обнаружение влияния неоднородности на этот фактор. В примере 6 дополнительно вводится маркировочная переменная. Корреляционная матрица для этих двух примеров приведена в правом верхнем углу табл. 8.2.

Таблица 8.2. Корреляционные матрицы для примеров 3 и 4 (в нижнем левом углу) и для примеров 5 и 6 (в верхнем правом углу)

(см. скан)

Из табл. 8.4 видно, что в результате процедур факторного анализа -деляются три фактора. Третий фактор определяется переменными 1-5 и его появление вызвано введением неоднородности. По сравнению с исходным факторным отображением нагрузки второго фактора остаются практически без изменения, а у некоторых нагрузок первого фактора изменяются знаки. Нагрузки факторов I и III от переменных 1-5 положительны и носят противоположный характер. Содержательная интерпретация первого фактора в данном примере вызвала бы значительные затруднения. Маркировочная переменная в примере 6 показывает, что неоднородность данных сыграла определенную роль в изменении нагрузок первого фактора.

Примеры 7 и 8. К значениям 1-й и 3-й переменных прибавляется постоянная к значениям 2-й переменной - постоянная Корреляционная матрица приведена в левом нижнем углу табл. 8.3. Некоторые коэффициенты корреляции в этой матрице значительно изменились по сравнению с элементами исходной матрицы и матрицы примеров 3 и 4. В примере 7 неоднородность данных полностью обусловливает появление третьего фактора, который имеет высокие положительные нагрузки от 1-й и 3-й переменных и высокую отрицательную нагрузку от 2-й переменной. Следовательно, неоднородность здесь выступает как отдельный фактор - фактор неоднородности 1. Маркировочная переменная показывает, что неоднородность данных почти не повлияла на факторы I и II.

Примеры 9 и 10. К значениям 1, 3 и 5-й переменных прибавляется постоянная а к значениям 2-й и 4-й переменных - постоянная Корреляционная матрица приведена в верхнем правом углу табл. 8.3. В этом случае фактор неоднородности совпадает с первым фактором. Следствием этого является усиление связи первых пяти переменных с первым фактором, и его нагрузки от этих переменных увеличиваются по сравнению с исходными. Структура фактора и знаки его нагрузок не изменяются. Факторное решение примера 10 после применения процедуры варимакс-вращения совпадает в основном с факторным решением примера 9 и из-за отсутствия места в таблице не приводится 2.

Приведенные примеры, в которых моделировалась неоднородность, позволяют сделать следующие выводы:

1. Неоднородность данных может привести к появлению фактора, обусловленного только этой неоднородностью Если он совпадает с каким-либо фактором, то нагрузки этого фактора увеличиваются по сравнению с исходными.

Таблица 8.3. Корреляционные матрицы для примеров 7 и 8 (в нижнем левом углу) и для примеров 9 и 10 (в верхнем правом углу)

(см. скан)

Таблица 8.4. Варимакс-решения, полученные для различных примеров

(см. скан)

Введение маркировочной переменной помогает выявить влияние фактора неоднородности.

2. Неоднородность данных изменяет факторное отображение. При больших изменениях в корреляционной матрице в факторном отображении совершенно неожиданно могут произойти лишь незначительные изменения. Факторный анализ менее чувствителен к влиянию неоднородности, чем отдельные коэффициенты корреляции, потому что неоднородность может появиться в факторном решении как отдельный фактор и его можно исключить. Но в некоторых случаях фактор неоднородности может совпадать с каким-либо действующим фактором. Тогда отображение этого фактора изменится.

3. Факторы, которые выделяются по матрице коэффициентов корреляций между переменными с помощью техники R, могут являться следствием как корреляции между переменными, так и неоднородностей в материале исследования. Это следует помнить при интерпретации факторов. Итак, имеются два типа факторов: факторы, которые определяются действием связей между переменными, и факторы, причиной которых является неоднородность данных. Кроме того, имеются смешанные факторы. В наших примерах процедуры факторного анализа осуществлялись вслепую, но мы смогли выявить все типы факторов и определить влияние неоднородности в каждом случае.

Если бы анализировались связи между индивидуумами по выборке переменных (т. е. использовалась бы техника Q для определения независимых друг от друга группировок индивидуумов), то результаты были бы аналогичные, а именно получили бы факторы, характеризующие различные группировки, и фактор, вызванный неоднородностью данных. Такой результат не является неожиданным, так как матрица исходных данных для обеих техник одна и та же. В зависимости от постановки задачи неоднородность может рассматриваться как фактор, искажающий результаты исследования, который нужно исключать, либо, наоборот, как фактор, вводимый специально для того, чтобы проследить изменение факторного решения. В любом случае неоднородность в данных не является препятствием проведения факторного анализа. Неоднородность как раз может быть выявлена благодаря факторному анализу и исключена из решения, особенно если для признака неоднородности подобрать маркировочную переменную. В принципе оба типа факторов всегда присутствуют в экспериментальном материале.


Элементы которой принадлежат к различным типам явлений.

Словарь бизнес-терминов. Академик.ру . 2001 .

Смотреть что такое "Совокупность Неоднородная" в других словарях:

    неоднородная совокупность - (напр. ядерных энергетических установок) [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN heterogeneous population … Справочник технического переводчика

    СОВОКУПНОСТЬ, КАЧЕСТВЕННО НЕОДНОРОДНАЯ - статистическая совокупность, единицы (элементы) которой принадлежат к различным типам явлений. Качественно однородным и неоднородным совокупностям свойственна соответственно низкая или очень высокая вариация значений изучаемых признаков, для… … Большой экономический словарь

    Теория исключения неизвестных из системы алгебраич. уравнений. Более точно, пусть имеется система уравнений где fi многочлены с коэффициентами из заданного поля Р. Задача исключения неизвестных х 1 ,..., х k из системы (1) (неоднородная задача… … Математическая энциклопедия

    ГОСТ 16887-71: Разделение жидких неоднородных систем методами фильтрования и центрифугирования. Термины и определения - Терминология ГОСТ 16887 71: Разделение жидких неоднородных систем методами фильтрования и центрифугирования. Термины и определения оригинал документа: 70. Активная зона фильтра Участок фильтра непрерывного действия, на котором осуществляется тот… …

    ГОСТ 18238-72: Линии передачи сверхвысоких частот. Термины и определения - Терминология ГОСТ 18238 72: Линии передачи сверхвысоких частот. Термины и определения оригинал документа: 19. Бегущая волна Электромагнитная волна определенного типа, распространяющаяся в линии передачи только в одном направлении Определения… … Словарь-справочник терминов нормативно-технической документации

    Мировая экономика - (World Economy) Мировая экономика это совокупность национальных хозяйств, объединенных различными видами связей Становление и этапы развития мировой экономики, ее структура и формы, мировой экономический кризис и тенденции дальнейшего развития… … Энциклопедия инвестора

    Явление, возникающеепри падении звуковой волны на границу раздела двух упругих сред и состоящеев образовании волн, распространяющихся от границы раздела в ту же среду … Физическая энциклопедия

    Горная порода - (Rock) Горная порода это совокупнность минералов, образующая самостоятельное тело в земной коре, вследстие природных явлений Группы горных пород, магматические и метаморфические горные породы, осадочные и метасоматические горные породы, строение… … Энциклопедия инвестора

    Земля (от общеславянского зем пол, низ), третья по порядку от Солнца планета Солнечной системы, астрономический знак Å или, ♀. I. Введение З. занимает пятое место по размеру и массе среди больших планет, но из планет т. н. земной группы, в… …

    I Земля (от общеславянского зем пол, низ) третья по порядку от Солнца планета Солнечной системы, астрономический знак ⊕ или, ♀. I. Введение З. занимает пятое место по размеру и массе среди больших планет, но из планет т … Большая советская энциклопедия