ТОР 5 статей:

Методические подходы к анализу финансового состояния предприятия

Проблема периодизации русской литературы ХХ века. Краткая характеристика второй половины ХХ века

Ценовые и неценовые факторы

Характеристика шлифовальных кругов и ее маркировка

Служебные части речи. Предлог. Союз. Частицы

КАТЕГОРИИ:

Краткое обоснование алгоритма решения задач по исследованию связи номинальных признаков

12 Следующая ⇒

Дружининская И.М.

Решение задач математической статистики

по теме

«Изучение связи номинальных признаков»

Учебное пособие для студентов экономических специальностей

Москва - 2011

Аннотация:

В пособии рассмотрено решение задач по исследованию связи номинальных переменных на основе таблиц сопряженности. Цель пособия – показать на конкретных примерах приемы решения задач такого рода с целью адаптировать теоретические положения математической статистики для получения практически значимых выводов, причем акцент делается именно на алгоритмы решения задач без существенного углубления в теоретические обоснования подходов к решению.

Подробные пояснения при решении примеров будут полезны студентам при изучении соответствующего раздела математической статистики, причем особенно тем студентам, которые хотели бы более основательно освоить разделы, имеющие приложения в реальной исследовательской деятельности.

В пособии подобраны задачи экономической и социологической тематики. В частности, формулировки некоторых задач предложены студентами факультета менеджмента Национального исследовательского университета - Высшей школы экономики (НИУ-ВШЭ), на котором автор пособия в течение ряда лет читал курсы по теории вероятностей и математической статистике.

Пособие будет полезно студентам, изучающим курсы математической статистики на экономических, социологических и психологических факультетах вузов, в частности, при подготовке к выполнению домашних заданий, контрольных и курсовых работ.

Автор выражает особую признательность доценту кафедры высшей математики канд. физ.-мат. наук Матвееву В.Ф. за неоценимые советы и поддержку.

Краткое обоснование алгоритма решения задач по исследованию связи номинальных признаков

В пособии рассматриваются задачи, цель которых – установить наличие связи между так называемыми номинальными признаками. Примерами номинальных признаков (или категориальных переменных) являются пол (мужской, женский), возраст (юный, зрелый, пожилой), цвет глаз (голубой, карий), местность (город, пригород, сельская местность), ответ (да, нет). Во всех этих случаях введенным переменным нельзя приписать конкретные числовые значения, их нельзя проранжировать (иначе: перенумеровать их по мере ухудшения или улучшения какого-либо качества), т.е. указать, какая из предложенных категорий предпочтительнее, а какая менее предпочтительна. В приведенных примерах мы можем лишь разбить указанные объекты по классам (по категориям), причем объекты группируются по различным классам так, чтобы внутри класса они были идентичны по изучаемому признаку. Например, голубоглазых людей мы отнесем к одному классу, а кареглазых людей отнесем к другому классу.

Ставится задача – изучить наличие связи между выделенными классами объектов (между выделенными категориями). Например, нам бы хотелось количественно оценить тесноту связи между профессией и политическими убеждениями человека или же между уровнем его образования и музыкальными пристрастиями (классика, барды, шансон, фолк и т.д.). Мы должны научиться выявлять наличие или же отсутствие связи между выделенными категориями (иначе: между номинальными признаками). Если будет установлено наличие такой связи между признаками, то следует уметь количественно оценить тесноту связи между ними.

Алгоритм решения задачи такого рода будет показан на конкретном примере, что позволит избежать чрезмерной формализации при описании этапов решения.

Отметим также, что в пособии не анализируются такие понятия как ошибки первого и второго рода, мощность критерия, связь между ними, предпочтения, связанные с выбором значений этих ошибок. Игнорирование этой части теоретического обоснования решения проблемы принятия статистических гипотез сделано осознано, поскольку автор ставил целью сделать основной акцент на алгоритме решения задач без углубления в более тонкие, очень непростые и усложняющие алгоритм решения задачи аспекты.

Напомним, что постановка задачи по установлению справедливости некоторого высказанного утверждения (статистической гипотезы) начинается с выдвижения основного утверждения (основной или нулевой гипотезы Н₀), причем наряду с выдвинутой гипотезой всегда рассматривают и противоречащую ей гипотезу, которую называют конкурирующей или альтернативной гипотезой Н_1.

Далее на основе теоретических соображений конструируется специально подобранная случайная величина, являющаяся функцией от результатов наблюдений, распределение которой известно при выполнении гипотезы Н_0.Поведение этой случайной величины, которую называют статистическим критерием или просто критерием, служит основой для проверки справедливости нулевой гипотезы Н₀.

После выбора критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается на фоне конкурирующей гипотезы, а другое множество содержит значения критерия, при которых она отвергается и,следовательно, принимается конкурирующая гипотеза.

Областью принятия гипотезы называют совокупность значений критерия, при которых нулевую гипотезу принимают. Это такие значения критерия, которые характерны для известного при справедливости нулевой гипотезы распределения критерия. Характерными назовем такие значения критерия, которые возникают с большой вероятностью.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают в пользу конкурирующей гипотезы. Это такие значения критерия, которые не характерны, не правдоподобны для данного закона распределения. Имеются в виду значения критерия, возникающие с малой вероятностью при выполнении утверждения, высказанного в нулевой гипотезе.

Критическими точками называют точки, отделяющие критическую область от области принятия гипотезы.

Процедура проверки статистической гипотезы выглядит так:

1. Формируют нулевую гипотезу Н₀и альтернативную гипотезу Н₁на основе выборочных данных.

2. На основе результатов выборки конструируют критерий; распределение критерия в случае истинности гипотезы Н₀известно.

3. Вся область возможных значений критерия разбивается на два подмножества. Одно подмножество – это область естественных, т.е. наиболее вероятных для данного закона распределения значений. В это подмножество критерий попадает с высокой вероятностью g. Она носит название «доверительная вероятность» (иначе «уровень доверия»). Обычно для g задают следующие стандартные значения: g = 0,90; 0.95; 0,99).

Другое подмножество – это область редко возникающих для данного закона распределения значений (неправдоподобных значений), которые, напротив, являются характерными для альтернативной гипотезы Вероятность попадания критерия в эту область мала и равна a = 1-g; a носит название «уровень значимости» (стандартными значениями для a являются следующие значения: a= 0,10;0,05;0,01).

Могут быть заданы и другие, помимо указанных выше, значения a и g.

В условии задачи обязательно должно быть задано одно из этих значения (либо значение a, либо значение g).

Укажем на смысл значения величины a - это вероятность отклонить основную гипотезу и принять, следовательно, альтернативную гипотезу при условии, что справедливой является именно основная гипотеза.

4. На основе экспериментальных данных вычисляют значение критерия; получают тем самым наблюдаемое значение критерия. Если наблюдаемое значение критерияпопадает в область естественных для данного закона распределения значений, то с вероятностью g утверждают, что гипотеза Н₀не противоречит экспериментальным данным на фоне альтернативной гипотезы. Это дает основание считать справедливым утверждение, высказанное в основной гипотезе (с заданным уровнем доверия g к утверждению). Если наблюдаемое значение критерия попадает в область неправдоподобных для данного закона распределения значений, то гипотезу Н₀отвергают и принимают, следовательно, альтернативную гипотезу Н_1.

Что касается вида критической области, то он определяется типом альтернативной гипотезы. В общем случае при проверке статистических гипотез могут возникать левосторонние, правосторонние и двусторонние критические области.Однако при изучении связи номинальных признаков, как это будет ясно из дальнейшего изложения, может возникать только правосторонняя критическая область.

Конкретизируя сказанное выше применительно к анализируемой здесь проблеме изучения связи категориальных признаков, следует заметить, что в качестве основной гипотезы всегда рассматривается утверждение об отсутствии связи номинальных признаков, в то время как в альтернативной гипотезе утверждается, что связь между признаками имеется.

Рассмотримконкретный пример:

Социологи провели исследование с целью изучить отношение школьников разных полов (юношей и девушек) старших классов Москвы к компьютерным играм. Была произведена случайная выборка 270 московских школьников. Их попросили ответить на вопрос, какое количество времени в неделю они проводят за компьютерными играми. Были выделены три временных градации затрат времени на компьютерные игры: 1 – не более часа в неделю; 2 – от часа до четырех часов в неделю, 3 - более четырех часов в неделю. Кроме того, школьников разделили на две категории - юношей и девушек. Результаты опроса занесены в таблицу. В клетках таблицы указано количество школьников, отнесенных к данной категории.

Признак В

Затраченное на игры время Пол				Итого
Юноши
Девушки
Итого

Признак

Возникла таблица, которая носит название «таблица сопряженности» или «таблица кросстабуляции». В данном примере размер таблицы 2×3 (2 – число строк таблицы; 3 - число столбцов таблицы).

Мы в нашем примере для простоты ограничились лишь двумя признаками. Первый признак - это пол школьника (произвели разделение школьников по половому или гендерному признаку); второй признак - это затраты времени на компьютерные игры. Обозначим признаки заглавными буквами А и В.

Аналогичным образом устроены и более сложные таблицы сопряженности (с большим числом включенных в таблицу признаков).

Поставлена задача: установить, есть ли связь между пристрастием школьника к компьютерным играм и тем, является ли школьник девушкой или же юношей?

Формализуем данную задачу. Для этого сформулируем задачу по проверке статистической гипотезы о связи номинальных признаков. Введем две статистические гипотезы (основную гипотезу и противоречащую ей альтернативную гипотезу):

Постановка задачи:

Н₀: признаки независимы;

Н₁: признаки зависимы.

Признаки независимы – в данном случае это означает, что нет связи между полом школьника и временем, которое он проводит за компьютерными играми; признаки зависимы – это значит, что связь между полом школьника и временными затратами на компьютерные игры существует.

Конечно, данная постановка задачи должна быть дополнена заданием величины уровня значимости a. Пусть a = 5%. Отметим, что в задаче может быть задана и другая величина, а именно величина g – уровень доверия (доверительная вероятность), которая связана со значением a соотношением a+g=1.

Напомним, что смысл значения a следующий - это вероятность отвергнуть нулевую гипотезу при условии ее справедливости.

Укажем число градаций по каждому признаку:

признак А (гендерный признак) имеет r уровней; в нашем примере r = 2;

признак В (затраты времени на компьютерные игры) имеет s уровней; в нашем примере s = 3.

Введем обозначения:

i - номер строки (i=1,2,…,r)

j - номер столбца (j=1,2,…,s)

n_ij - частота события A_i ∩ B_j – это количество объектов, обладающих комбинацией уровней A_i и B_j признаков А и В.

Через ● будем обозначать суммирование по соответствующему признаку, тогда

Таблица сопряженности признаков А и В для нашей задачи может быть переписана следующим образом (в ней введены обозначения, которые используются в дальнейшем):

В А	B₁	B₂	B₃	Итого
A₁	n₁₁ =36 48,53	n₁₂ =59 63,56	n₁₃ =61 43,91	n₁_●=156
A₂	n₂₁ =48 35,47	n₂₂ =51 46,44	n₂₃ =15 32,09	n₂_●=114
Итого	n_●₁=84	n_●₂=110	n_●₃=76	n=270

Что означает, допустим, событие А₁ в данном примере? Событие А₁={случайно выбранный школьник относится к категории юношей}.

Как на основе результатов эксперимента приближенно вычислить вероятность этого события? Вероятность события может быть приближенно найдена как относительная частота этого события:

Что означает событие В₃ в данном примере? Событие В₃={случайно выбранный школьник тратит на компьютерные игры более четырех часов в неделю}.

Как найти вероятность события В₃? Также на основе экспериментальных данных можно приближенно вычислить вероятность этого события как относительную частоту этого события:

В общем случае вероятности событий приближенно определим так:

Согласно основным теоремам теории вероятностей справедливо равенство «Вероятность пересечения независимых событий равна произведению вероятностей этих событий»:

В предположении справедливости утверждения о независимости признаков, заложенного в нулевой гипотезе, будем считать справедливым данное соотношение, в котором перейдем к приближенным выражениям для вычисления вероятностей. Тогда получим следующее приближенное равенство:

Из данного соотношения после сокращения левой и правой частей равенства на n получим:

Величины называются ожидаемыми или теоретическими частотами (имеется в виду ожидаемыми при выполнении гипотезы H₀).

При выполнении гипотезы H₀ ожидаемые частоты не должны сильно отличаться от наблюдаемых частот n_ij. Наблюдаемые частоты – это частоты, полученные на основе эксперимента (на основе выборки).Эти частоты присутствуют в исходной таблице примера.

Наша задача заключается в следующем – выяснить, равенства (*) приблизительно выполняются или же, напротив, обнаруживаются существенные различия в значениях правой и левой частей соотношения (*).

Если будет найдено, что равенства (*) примерно выполняются, то гипотезу H₀ следует признать справедливой. Если же будет установлено, что равенства (*) плохо выполняются, то гипотезу H₀ отвергнем, т.е. отвергнем утверждение о независимости признаков и, следовательно, признаем справедливой альтернативную гипотезу H₁ о зависимости признаков.

Параллельно возникает еще один вопрос, на который нужно ответить. Что означает, что равенство (*) примерно выполняется (насколько примерно), и что означает, что равенство (*) выполняется плохо? Ответим на эти вопросы несколько позже.

Вычислим для нашего конкретного примера ожидаемые (теоретические) частоты:

Эти вычисленные величины частот проставим в каждую клетку ранее приведенной таблицы, причем расположим их ниже наклонных линий.

Если видимые различия между наблюдаемыми частотами (т.е.частотами, полученными на основе опытных данных) и ожидаемыми частотами (т.е. частотами, рассчитанными на основе гипотезы о независимости признаков) можно объяснить случайными колебаниями, то отвергать гипотезу о независимости признаков нет оснований. Поэтому снова следует вернуться к проблеме сопоставления, выяснения различий этих частот.

Применяется следующий общепринятый способ сопоставления этих частот. Чтобы сформулировать критерий Пирсона - Фишерав общем и легко запоминающемся виде, обозначим наблюдаемые частоты через Н, а ожидаемые или теоретические частоты обозначим через Т. Если модель о независимости признаков верна, то числа Н и Т должны быть близки друг другу, следовательно, сумма квадратов отклонений (Н-Т)² не должна быть большой. Эту разность нормируют на Т (ибо чем больше Т, тем больше Н может отклоняться от Т).

Мера согласия опытных данных с теоретической моделью:

В формуле сумма берется по всем ячейкам таблицы сопряженности. Именно этот критерий (эта случайная величина), обозначенная Х², используется в задачах по изучению связи номинальных признаков для ответа на вопрос о том, можно ли полагать изучаемые признаки независимыми или же, напротив, следует полагать их зависимыми, связанными друг с другом.

Для ответа на вопрос, какую величину следует принять за большое значение случайной величины Х², надо знать распределение этой случайной величины. Ответ на этот вопрос дает следующая теорема:

Теорема (К. Пирсон, Р. Фишер):

Если справедлива гипотеза Н₀, на основе которой рассчитаны теоретические частоты Т, то при неограниченном росте числа наблюдений n распределение случайной величины Х² стремится к распределению χ - квадрат (χ²).

Число степеней свободы этого распределения равно разности между числом событий и числом связей между частотами n_ij, заложенных в таблице сопряженности.

Посчитаем число степеней свободы k:

Число событий - это число ячеек в таблице сопряженности, оно равно r • s.

Изучим число связей между частотами, входящими в таблицу сопряженности:

- число таких независимых соотношений равно (r-1), т.е. на единицу меньше r, поскольку из-за наличия связи 1) любое из соотношений является следствием остальных соотношений;

- здесь аналогично число независимых соотношений равно (s-1).

Подсчитаем число степеней свободы:

Как было сказано, распределение χ² (или распределение Пирсона) является предельным для случайной величины Х², поэтому использовать его как приближение для реальных распределений Х²можно только при большом числе наблюдений n. Считается достаточным для возможности заменить распределение случайной величины Х²распределением случайной величины χ² выполнение следующего ограничения: для каждой ячейки теоретические частоты должны быть не меньше 5:

Какие же значения Х²считаются настолько большими, что они несопоставимы с гипотезой Н₀? Очевидно те, появление которых при выполнении гипотезы Н₀ маловероятно, т.е. те, которые превосходят критические значения распределения χ²,соответствующие выбранному уровню значимости.

В задачах данного типа всегда по смыслу рассматривается правосторонняя критическая область, т.к. если нулевая гипотеза неверна, то Х²принимает большое значение и, следовательно, χ² также принимает большое значение.

Обратим внимание на то, что для всех теоретических частот данного примера, которые записаны в таблице под наклонной линией, выполняется указанное выше ограничение – все они больше 5):

Продолжим вычисления:

Найдем наблюдаемое значение критерия:

Найдем число степеней свободы: k=(2-1)•(3-1)=2. На основе этого числа степеней свободы и заданного в условии задачи значения a = 5% найдем с использованием приведенной в приложении таблицы «Критические точки распределения χ²» критическое значение χ² _кр, которое оказалось равным χ² _кр = 6.0.Это значение при заданном уровне значимости отделяет область принятия нулевой гипотезы от области отказа от нулевой гипотезы и перехода тем самым к области принятия альтернативной гипотезы. Таким образом, найденное табличное значение χ² _кр =6.0 является тем граничным значением, выше которого значения критерия Х²следует считать большими и, следовательно, полагать, что изучаемые признаки связаны между собой. Если же значение критерия Х² оказывается меньше найденного критического значения, то, напротив, различия в наблюдаемых и теоретических частотах следует полагать мало отличающимися (говорят: незначимо различающимися), что позволяет

принять нулевую гипотезу.

Итак, опишем еще раз алгоритм решения задачи:

если наблюдаемое значение критерия (иначе: значение критерия, вычисленное на основе имеющихся экспериментальных данных) оказалось меньше критического значения критерия, которое определяется по таблице «Критические точки распределения χ²» на основе двух значений - вычисляемого в задаче числа степеней свободы и заданного условием задачи уровня значимости a, то принимается нулевая, т.е. основная, гипотеза об отсутствии связи между изучаемыми признаками как не противоречащая экспериментальным данным с уровнем значимости a (или с уровнем доверия g). Если же наблюдаемое значение критерия оказывается больше этого критического значения, то отвергаем нулевую гипотезу как противоречащую имеющимся наблюдениям и тем самым, переходя к альтернативе, полагаем справедливой конкурирующую гипотезу, которая говорит о наличии связи между признаками.

Для наглядности изобразим полученные результаты графически, используя график плотности распределения χ². При построении графика был использован один графиков плотности распределения Пирсона, приведенных в приложении (следует обратить внимание на то, что поведение графиков плотности меняется в зависимости от величины числа степеней свободы k; в нашем примере k=2):

Поскольку в примере наблюдаемое значение критерия, равное 53.72, попало в критическую область, то следует отвергнуть нулевую гипотезу как противоречащую экспериментальным данным и тем самым принять альтернативную гипотезу. Это означает, что наше исследование показало наличие зависимости между полом школьника старших классов и временем, которые затрачивается школьником на компьютерные игры. На основе исходной информации можно заметить повышенный интерес именно юношей к компьютерным играм.

Далее возникает естественный вопрос: если обнаружена связь между номинальными признаками, то как количественно определить тесноту (силу) этой связи, с помощью какого коэффициента?

Ответ на этот вопрос не столь однозначен, поскольку нет единого, повсеместно принятого для этой цели коэффициента. Это объясняется тем обстоятельством, что ни один из коэффициентов не может передать сложные связи признаков при анализе взаимовлияний большого числа признаков с несколькими уровнями. Каждый из используемых коэффициентов обладает определенными достоинствами и недостатками.

Из наиболее ранних и часто используемых коэффициентов можно упомянуть следующие:

Коэффициент «фи»

Здесь n - размер выборки; Х² - наблюдаемое значение критерия.

Достоинством этого коэффициента является простота вычисления; недостатком коэффициента является то, что он не нормирован, т.е. может принимать значения, большие единицы. Коэффициент «фи» не превосходит 1 лишь для таблиц сопряженности 2×2. Для таких простейших таблиц его значение, равное единице, означает наличие строгой линейной связи между признаками. Если одна из переменных таблицы сопряженности имеет более двух уровней, то значение коэффициента может превышать 1.

Для таблиц размера 2х2 может быть использован коэффициент контингенции, который вычисляется по формуле:

Удобство этого коэффициента заключается в том, что он принимает значения от (-1) до (+1), причем крайние значения возникают при наличии строгой обратной (-1)и строгой прямой (+1) зависимостей между признаками.

Также используется коэффициент взаимной сопряженности Пирсона:

Можно показать, что коэффициенты «фи» и K_П иногда могут давать весьма различные значения. Вычислим разность квадратов значений этих коэффициентов:

Можно с некоторой долей приближения предложить следующую градацию значений коэффициента связи между признаками в случае, когда коэффициент связи нормирован на единицу:

0-0.3 – слабая связь признаков;

0.3-0.7 – умеренная связь признаков;

0.7-1 – сильная связь признаков.

Для рассмотренного ранее примера вычислим тесноту связи признаков на основе нескольких коэффициентов:

В данном случае значения коэффициентов получились близкими, поскольку величина n велика. Величины коэффициентов говорят о наличии умеренной связи между признаками, т.е. между полом школьника и его пристрастием к компьютерным играм.

Замечание:

В частном случае сопряженности, когда признаки А и В принимают только

по два значения А₁, А₂и В₁, В₂(r=s=2)_, т.е. для таблиц сопряженности 2×2, формула для вычисления критерия Х²упрощается. Вычисления в данном случае удобнее вести на основе формулы, которая получена на основе исходной формулы, введенной в теореме Пирсона - Фишера:

Рассмотрим пример:

Один пытливый молодой человек решил провести собственное расследование. Он захотел установить, зависимы или нет такие два признака – цвет глаз девушки и любимый цвет ее одежды. Для облегчения ситуации он сам задал цветовую гамму всего из двух цветов – синего и коричневого. Каждая из опрошенных девушек должна была из двух цветов выбрать один более предпочтительный для нее цвет. Кроме того, он исключил из исследования зеленоглазых девушек. Случайным образом отобрав 100 девушек, он получил следующую таблицу сопряженности:

Предпочтительный цвет Цвет глаз девушки	Синий	Коричнев.
Голубые (серые)
Карие

На основе этой таблицы сопряженности следует установить, зависимы эти признаки или же нет на уровне значимости a = 5%.

Решение:

Постановка задачи:

Н₀: признаки независимы

Н₁: признаки зависимы

Очевидно, что это условие выполняется для всех ячеек таблицы, поскольку оно выполнено для наименьшей ожидаемой частоты.

Дополним исходную таблицу значениями частот, которые потребуются для дальнейших вычислений:

Предпочтительный цвет Цвет глаз девушки	Синий	Коричнев.	Итого
Голубые (серые)	38 (n₁₁)	18 (n₁₂)	56 (n₁_●)
Карие	27 (n₂₁)	17 (n₂₂)	44 (n₂_●)
Итого	65 (n_●₁)	35 (n_●₂)	100 (n)

Поскольку в данном случае имеет место таблица сопряженности 2×2, то для вычисления наблюдаемого значения критерия можно использовать более короткую и удобную формулу для вычисления критерия Х²:

Определим число степеней свободы: .

Для определения значения воспользуемся таблицей «Критические точки распределения », приведенной в приложении: .

Покажем полученные результаты на графике плотности распределения Пирсона, учтя, что число степеней свободы равно 1 (соответствующий график плотности см. в приложении):

Посколькузначение критерия Х² _набл попало в область принятия нулевой гипотезы, то это означает, что экспериментальные данные не противоречат нулевой гипотезе об отсутствии связи между признаками, поэтому нулевую гипотезу принимаем с уровнем доверия в 95% (или на уровне значимости в 5%). Иными словами скажем, что на основе экспериментальных данных можно утверждать: цвет глаз девушки и предпочтительный цвет ее одежды не связаны между собой.

Пример:

Проведено исследование по выяснению связи между такими признаками как регулярное занятие спортом и статусное положение менеджера в компании. Изучалось несколько крупных компаний, в которых были случайно выбраны и опрошены 150 менеджеров высшего и среднего звена по разным вопросам. В том числе выяснялось их отношение к спорту (в исследовании исключены топ - менеджеры, которых в компаниях очень мало). Заметим, что такие исследования, нацеленные на поиск ответа на вопрос: «Что такое хороший менеджер?», характерны для западных компаний.

Результаты исследования представлены таблицей:

Статус менеджера Отношение К спорту	Среднее звено	Высшее звено
Регулярно занимается
Изредка занимается

Выяснить на уровне значимости a = 5%. наличие взаимосвязи между положением менеджера в компании и его взаимоотношениями со спортом.

Решение:

Постановка задачи

Н₀: признаки независимы;

Н₁: признаки зависимы.

Следует для каждой ячейки проверить выполнение условия для теоретической частоты; она должна принимать значения, не меньшие 5:

Проверим самое неблагоприятное значение с наименьшей теоретической частотой. Если будет найдено, что для этой частоты ограничение выполняется, то ограничения будут выполняться и для больших частот:

Проверка выполнения этих ограничений позволит нам считать, что критерий Х² имеет закон распределения, который приближенно совпадает с законом распределения Пирсона.

Дополним исходную таблицу дополнительными значениями частот, необходимыми для дальнейших вычислений:

Статус менеджера Отношение к спорту	Среднее звено	Высшее звено	Итого
Регулярно занимается	39 (n₁₁)	45 (n₁₂)	84 (n₁_●)
Изредка занимается	51 (n₂₁)	15 (n₂₂)	66 (n₂_●)
Итого	90 (n_●₁)	60 (n_●₂)	150 (n)

Далее на основе экспериментальной информации следует вычислить наблюдаемое значение критерия:

Определим число степеней свободы и найдем критическую точку распределения Пирсона:

;

(для нахождения значения использована таблица «Критические точки распределения », которая дана в приложении).

Покажем полученные результаты на графике плотности распределения Пирсона (иначе: распределения χ²) для числа степеней свободы k=1:

Поскольку наблюдаемое значение критерия попало в критическую область, то отвергаем нулевую гипотезу и, следовательно, переходим к альтернативе, которая утверждает наличие значимой связи между признаками (статусом менеджера и его занятием спортом). О причинах зависимости признаков данное исследование, конечно, ничего сказать не может. Можно, например, предположить, что занятия спортом вырабатывают особые лидерские черты характера, которые помогают менеджеру добиваться более высокого положения на службе. Можно высказать и другое обоснование такой связи: более высокий статус менеджера способствуют тому, что человек более склонен обращать внимание на свой внешний облик и понимает, что внешний вид человека наилучшим образом формируют именно занятия спортом.

Далее получим количественную меру этой взаимосвязи, для этого вычислим введенные ранее коэффициенты:

И в этом случае значения коэффициентов получились очень близкими. Величины этих значений говорят о наличии слабой связи между признаками (но ближе к умеренной).

Замечание:

Используя одни и тех же исходные данные для получения статистических выводов на основе идеи проверки статистических гипотез можно применить разные подходы.

Покажем это на следующем примере:

На производстве работают старый и новый конвейеры по выпуску продукции. На основе контроля случайных выборок партий продукции со старого и нового конвейера выяснить, обеспечивает ли новый конвейер увеличение выхода качественной продукции. Принять уровень значимости равным 1%. Результаты обработки выборочных данных представлены в таблице:

Изделия Конвейер	Качественные изделия	Бракованные изделия
Новый
Старый

Первый способ решения задачи (на основе изучения связи номинальных признаков):

Постановка задачи

Н₀: признаки независимы (отсутствует зависимость количества качественных изделий от типа конвейера);

Н₁: признаки зависимы (зависимость количества качественных изделий от типа конвейеранаблюдается).

Дополним исходную таблицу нужными для дальнейших вычислений значениями:

Изделия Конвейер	Качественные изделия	Бракованные изделия	Итого
Новый	140 (n₁₁)	10 (n₁₂)	150 (n₁_●)
Старый	185 (n₂₁)	15 (n₂₂)	200 (n₂_●)
Итого	325 (n_●₁)	25 (n_●₂)	350 (n)

Проверим выполнение ограничения для ожидаемых (теоретических) частот, рассмотрев ячейку, которая дает наименьшее значение ожидаемой частоты, тогда очевидно, что для других ячеек ограничение также будет выполняться:

Вычислим наблюдаемое значение критерия:

Найдем число степеней свободы: . Найдем границу критической области: . Для определения значения использована представленная в приложении таблица «Критические точки распределения Пирсона».

Покажем полученные результаты на графике плотности распределения Пирсона для k=1:

Поскольку наблюдаемое значение критерия попало в область естественных значений критерия, то с уровнем доверия в 99% принимаем нулевую гипотезу об отсутствии связи между признаками, т.е. делаем вывод, что не наблюдается значимых различий в производстве количества качественной продукции на новом и старом конвейерах.

Второй способ решения задачи (на основе проверки статистической гипотезы о равенстве генеральных долей):

Постановка задачи

Н₀: W_1Г = W_2Г (на новом и старом конвейерах доли качественных

изделий одинаковы);

Н₁: W_1Г > W_2Г (на новом конвейере доля качественных изделий выше).

Здесь W_1Г - доля качественных изделий на новом конвейере для всей генеральной совокупности, т.е. для всех изделий, произведенных на новом конвейере;

W_2Г - доля качественных изделий на старом конвейере для всей другой генеральной совокупности, т.е. для всех изделий, произведенных на старом конвейере.

Вычислим на основе выборочных данных выборочные доли качественных изделий, произведенных на новом () и старом () конвейерах:

В данной постановке задачи используется критерий t, который определяется приведенной ниже формулой:

При справедливости гипотезы критерий t имеет стандартный нормальный закон распределения (здесь используем то, что выборки являются большими, т.е. больше 30).

Вычислим наблюдаемое значение критерия:

Альтернативная гипотеза порождает правостороннюю критическую область. Границу этой области найдем на основе табличного решения записанного ниже уравнения. В этом уравнении используется интеграл вероятностей (функция Ф₀), таблица значений которого приведена в приложении:

Покажем результаты на графике плотности стандартного нормального закона распределения:

График показывает, что наблюдаемое значение критерия попало в область принятия нулевой гипотезы, следовательно,нулевую гипотезу принимаем с уровнем значимости в 1% как не противоречащую экспериментальным данным. Это означает, что новый и старый конвейеры дают примерно одинаковые доли качественных изделий (иначе: новый конвейер не обеспечивает значимо большую долю качественных изделий).

Следовательно, выводы по второму способу решения задачи получены те же, что и по первому способу решения.

Следует напомнить, что принятие какой-либо гипотезы в статистике не означает ее доказательства. Оно означает лишь, что имеющиеся данные и принятые методики проверки не позволяют отвергнуть гипотезу. Вполне возможно, и так бывает при решении задач, что с увеличением числа наблюдений принятая гипотеза может быть отвергнута.

Пример:

Один студент-магистр, обучающийся в ВШЭ, решил выяснить, как распределяются музыкальные пристрастия студентов экономических факультетов и студентов гуманитарных факультетов. Для упрощения задачи он выбрал всего два музыкальных направления - классическая музыка и поп-музыка. Он случайным образом выбирал студентов различных факультетов и просил выбранного студента высказаться насчет музыкальных предпочтений. Результаты своего исследования он свел в таблицу:

Музыкальные направления Специальности	Классика	Поп-музыка
Экономические
Гуманитарные

На основе этих исходных экспериментальных данных следует выяснить, существует ли связь между выбранной специальностью и музыкальными предпочтениями. Принять уровень значимости 2.5%.

Решим задачу также несколькими способами, чтобы показать, что для получения обоснованного вывода можно использовать разные пути.

Первый способ решения задачи (на основе изучения связи номинальных признаков):

Постановка задачи

Н₀: признаки независимы (отсутствует зависимость между выбранной специальностью и музыкальными предпочтениями);

Н₁: признаки зависимы (зависимость между выбранной специальностью и музыкальными предпочтениями наблюдается).

Дополним исходную таблицу, добавив новый столбец и новую строку (в новых ячейках запишем частоты, которые понадобятся для вычислений):

Музыкальные направления Специальности	Классика	Поп-музыка	Итого
Экономические	55 (n₁₁)	46 (n₁₂)	101 (n₁_●)
Гуманитарные	28 (n₂₁)	39 (n₂₂)	67 (n₂_●)
Итого	83 (n_●₁)	85 (n_●₂)	168 (n)

Вычислим наблюдаемое значение критерия:

Найдем число степеней свободы и критическую точку распределения Пирсона:

Для определения критического значения , отделяющего критическую область от области принятия нулевой гипотезы, использована таблица «Критические точки распределения Пирсона», которая дана в приложении.

Результаты вычислений представим на графике плотности распределения Пирсона для числа степеней свободы, равного единице:

Поскольку наблюдаемое значение критерия попало в область характерных для данного закона распределения значений, то следует принять нулевую гипотезу с уровнем значимости, равным 2.5% (иначе: с уровнем доверия в 97.5%), как не противоречащую экспериментальным данным. Это означает: нет оснований полагать, что студенты разных специальностей привержены разным музыкальным направлениям. Напротив, следует заключить, что независимо от специализации у студентов не наблюдается различия в музыкальных вкусах.

Второй способ решения задачи (на основе проверки статистической гипотезы о равенстве генеральных долей):

Постановка задачи

Н₀: W_1Г = W_2Г

Н₁: W_1Г ≠ W_2Г

В данной постановке задачи:

W_1Г – это генеральная доля студентов экономических факультетов, которые предпочитают классическую музыку;

W_2Г – это генеральная доля студентов гуманитарных факультетов, которые предпочитают классическую музыку.

На основе экспериментальной информации вычислим выборочные доли:

w₁ – это выборочная доля студентов экономических факультетов, которые предпочитают классическую музыку;

w₂ – это выборочная доля студентов гуманитарных факультетов, которые предпочитают классическую музыку.

В такой постановке задачи для решения используется критерий:

Эта случайная величина при справедливости нулевой гипотезы имеет стандартный нормальный закон распределения.

На основе экспериментальных данных вычислим наблюдаемое значение критерия:

Поскольку альтернативная гипотеза порождает двустороннюю критическую область, то следует найти ее границы на основе табличного решения уравнения с применением таблицы интеграла вероятностей (эта таблица помещена в приложении):

Покажем результаты на графике плотности стандартного нормального закона распределения:

График показывает, что наблюдаемое значение критерия попало в область принятия нулевой гипотезы, следовательно,нулевую гипотезу принимаем с уровнем значимости в 2.5% как не противоречащую экспериментальным данным. Это означает, что не наблюдается различий в музыкальных предпочтениях в зависимости от специализации студента. Получен тот же вывод, который был сделан ранее при использовании первого способа решения задачи.

Пример:

Менеджер по персоналу одной компании провел исследование по данным прошедшего полугодия с целью измерения связи между опозданиями на работу и семейным положением служащих. Выяснилось следующее:

Опоздания Семейное положение	Систематически опаздывают	Фактически не опаздывают
Семейные
Семья отсутствует

Определить по этим данным на уровне значимости a = 1% наличие или же отсутствие взаимосвязи между опозданиями на работу и семейным положением служащих. Если будет найдено, что связь между признаками имеется, то определить числовое значение коэффициента связи признаков. Сделать выводы.

Решение:

Постановка задачи

Н₀: признаки независимы(отсутствует связь опозданий на работу служащих с их семейным статусом);

Н₁: признаки зависимы (наблюдается связь опозданий на работу служащих с их семейным статусом);

Дополним исходную таблицу необходимыми для вычислений данными:

Опоздания Семейное положение	Систематически опаздывают	Фактически не опаздывают	Итого
Семейные	40 (n₁₁)	15 (n₁₂)	55 (n₁_●)
Семья отсутствует	17 (n₂₁)	33 (n₂₂)	50 (n₂_●)
Итого	57 (n_●₁)	48 (n_●₂)	105 (n)

Проверить самостоятельно выполнение ограничения для теоретических частот:

(эти ограничения выполняются).

Вычислим наблюдаемое значение критерия:

Найдем число степеней свободы и найдем критическую точку распределения Пирсона:

Для определения критического значения , использована таблица «Критические точки распределения Пирсона», приведенная в приложении.

Покажем все результаты на графике плотности распределения Пирсона, используя график плотности для числа степени свободы, равного единице:

Таким образом, на основе результатов вычислений можно сделать следующий вывод:

отвергаем нулевую гипотезу и, следовательно, принимает альтернативу о наличии значимой связи между признаками (опозданиями на работу и семейным положением служащего).

Поскольку обнаружено наличие значимой связи между признаками, то вычислим коэффициент Пирсона, позволяющий получить численное выражение этой связи:

Связь между признаками умеренная, ближе к слабой. Это означает, что на наличие этой связи (которая наблюдается в незначительной степени) оказывает влияние скорее не семейное положение служащего, а психотип личности служащего (в частности, является ли он человеком ответственным или же не является таковым).

Можно было бы решить эту задачу в упрощенном варианте, вычислив коэффициент контингенции:

Если окажется, что значение коэффициента контингенции значительное, то можно сделать вывод о наличии связи между признаками. Если же величина этого коэффициента окажется малой, то следует сделать вывод об отсутствии связи между признаками. Достоинством этого коэффициента является то, что, принимая значения от (-1) до 1, он позволяет судить не только о силе связи между признаками, но и о направлении этой связи. Недостатком коэффициента, как уже указывалось, является то, что он применим только для простейшего случая четырехклеточных таблиц сопряженности (или таблиц сопряженности 2х2).

Вычислим значение коэффициента контингенции для данного примера:

Поскольку найденное значение коэффициента контингенции показывает наличие умеренной зависимости признаков (ближе к слабой зависимости), то следует заключить, что признаки взаимосвязаны, однако связаны весьма умеренно. Более того, одновременно получено числовое значение этой связи. Значение коэффициента оказалось близким к значению ранее вычисленного значения коэффициента взаимной сопряженности Пирсона. Положительное значение коэффициента контингенции свидетельствует о том, что связь между признаками положительная, т.е. все же меньше опаздывают работники, не обремененные семьей.

Пример:

Исследовались жительницы Москвы с целью изучения связи их возраста и веса. Случайная выборка из 289 женщин разного возраста показала результаты, представленные в расположенной ниже таблице. Проверить на уровне значимости в 1% гипотезу о независимости веса женщин от их возраста против альтернативы – «вес женщин зависит от их возраста». Если будет найдено, что связь между признаками имеется, то определить числовое значение коэффициента связи признаков. Сделать выводы.

Вес Возраст	Меньше нормы	Норма	Больше нормы
31-40 лет
41-50 лет
51-60 лет

Решение:

Постановка задачи

Н₀: признаки независимы(вес женщин не зависит от их возраста);

Н₁: признаки зависимы (вес женщин зависит от их возраста).

Вычислим ожидаемые (теоретические) частоты на основе исходной экспериментальной информации. Занесем вычисленные результаты в приведенную далее таблицу, причем теоретические частоты поместим в клетках таблицы под наклонной чертой.

Запишем расширенную таблицу значений, содержащую наблюдаемые и ожидаемые частоты:

В А	B₁	B₂	B₃	Итого
A₁	n₁₁ =21 15,44	n₁₂ =50 37,59	n₁₃ =26 43,97	n₁_●=97
A₂	n₂₁ =15 16,71	n₂₂ =38 40,69	n₂₃ =52 47,60	n₂_●=105
A₂	n₃₁ =10 13,85	n₃₂ =24 33,72	n₃₃ =53 39,44	n₃_●=87
Итого	n_●₁=46	n_●₂=112	n_●₃=131	n=289

По значениям вычисленных частот проверим выполнение ограничений для теоретических частот:

Ясно, что ограничения выполнены для каждого значения ожидаемой частоты, что позволит считать распределение критерия задачи очень близким к распределению Пирсона.

Запишем критерий, используемый для решения данной задачи:

Н - наблюдаемые частоты; Т - ожидаемые или теоретические частоты. Суммы в формулах берутся по всем ячейкам таблицы сопряженности.

Вычислим наблюдаемое значение критерия:

Определим число степеней свободы .На основе этого числа с помощью таблицы «Критические точки распределения Пирсона», помещенной в приложении, найдем границу критической области: .

Покажем полученные результаты графически, используя график плотности распределения (учтем k=4 и вид графика для этого значения k, приведенный в приложении):

На основе изложенного выше можно сделать следующий вывод:

поскольку наблюдаемое значение критерия попало в область критических, т.е. неправдоподобных для закона распределения Пирсона значений, который характеризует поведение критерия при справедливости нулевой гипотезы, то следует отвергнуть нулевую гипотезу об отсутствии связи признаков и, следовательно, принять альтернативную гипотезу. Это означает, что экспериментальные данные показывают значимую связь признаков: вес женщин связан с их возрастом.

Вычислим количественную меру тесноты этой связи на основе коэффициента взаимной сопряженности Пирсона:

Отсюда ясно, что связь между признаками (между возрастом женщины и ее весом) является слабой.

Пример:

(предложен и решен студенткой факультета менеджмента ВШЭ Гибадуллиной А. )

Международная фирма подготовки логистов принимает 150 выпускников школ для обучения по специальности “Логистика и управление цепями поставок” по результатам персональной беседы с каждым кандидатом. Приемная комиссия хочет сравнить результаты обучения во время первого года обучения с оценками школьного аттестата, чтобы выяснить, есть ли между ними связь. Результаты исследования приведены в таблице:

Школьный аттестат Результаты обучения	Хороший аттестат	Средний аттестат
Хорошие
Средние
Плохие

На основе таблицы следует установить отсутствие или же наличие связи между школьными результатами и результатами годичного обу

12 Следующая ⇒

Не нашли, что искали? Воспользуйтесь поиском:

vikidalka.ru - 2015-2026 год. Все права принадлежат их авторам! Нарушение авторских прав | Нарушение персональных данных