Юриспруденция        23.03.2024   

Многофакторный дисперсионный анализ. Дисперсионный анализ: соединение теории и практики Дисперсионный анализ может быть

Дисперсионный анализ основан на работах знаменитого математика Р.А.Фишера . Несмотря на достаточно солидный «возраст», данный метод до сих пор остается одним из основных при проведении биологических и сельскохозяйственных исследований. Идеи, положенные в основу дисперсионного анализа, широко используются во многих других методах математического анализа экспериментальных данных, а также при планировании биологических и сельскохозяйственных экспериментов.

Дисперсионный анализ позволяет:

1) сравнивать две или несколько выборочных средних;

2) одновременно изучать действие нескольких независимых факторов, при этом можно определить как эффект каждого фактора в изменчивости изучаемого признака, так и их взаимодействие;

3) правильно планировать научный эксперимент.

Изменчивость живых организмов проявляется в виде разброса или рассеяния значений отдельных признаков в пределах, которые определяются степенью биологической выравненности материала и характером взаимосвязей с условиями среды. Признаки, изменяющиеся под воздействием тех или иных причин, называют результативными .

Факторы это любые воздействия или состояния, разнообразие которых может так или иначе отражаться на разнообразии результативного признака. Под статистическим влиянием факторов в дисперсионном анализе понимается отражение в разнообразии результативного признака того разнообразия изучаемых факторов, которое организовано в исследовании.

Под разнообразием будем понимать наличие неодинаковых значений каждого признака у разных особей, объединенных в группу. Разнообразие группы особей по изучаемому признаку может иметь разную степень, которая обычно измеряется показателями разнообразия (или изменчивости): лимитами, средним квадратическим отклонением, коэффициентом вариации. В дисперсионном анализе степень разнообразия индивидуальных и средних значений признака измеряется и сравнивается особыми способами, составляющими специфику этого общего метода.

Организация факторов заключается в том, что каждому изучаемому фактору придается несколько значений. В соответствии с этими значениями каждый фактор разбивается на несколько градаций; для каждой градации подбирается по принципу случайной выборки несколько особей, у которых впоследствии и измеряется величина результативного признака.

Для того, чтобы выяснить степень и достоверность влияния изучаемых факторов, надо измерить и оценить ту часть общего разнообразия, которая вызывается этими факторами.

Факторы, влияющие на степень варьирования результативного признака, делятся на:

1)регулируемые

2) случайные

Регулируемые (систематические) факторы вызываются действием изучаемого в эксперименте фактора, который имеет в опыте несколько градаций. Градация фактора – это степень его воздействия на результативный признак. В соответствии с градациями признака выделяется несколько вариантов опыта для сравнения. Поскольку эти факторы предварительно обусловлены, их называют регулируемыми в исследованиях, т.е. заданными, зависящими от организации опыта. Следовательно, регулируемые факторы – факторы, действие которых изучается в опыте, именно они и обусловливают различия между средними выборочными разных вариантов–межгрупповую (факториальную) дисперсию.

Случайные факторы определяются естественным варьированием всех признаков биологических объектов в природе. Это неконтролируемые в опыте факторы. Они оказывают случайное влияние на результативный признак, обусловливают экспериментальные ошибки и определяют внутри каждого варианта разброс (рассеяние) признака. Этот разброс носит название внутригрупповой (случайной) дисперсии .

Таким образом, относительная роль отдельных факторов в общей изменчивости результативного признака характеризуется дисперсией и может быть изучена с помощью дисперсионного анализа или анализа рассеяния

Дисперсионный анализ основан на сравнении межгрупповой и внутригрупповой дисперсий . Если межгрупповая дисперсия не превышает внутригрупповую, значит, различия между группами имеют случайный характер. Если межгрупповая дисперсия существенно выше, чем внутригрупповая, то между изучаемыми группами (вариантами) существуют статистически значимые различия, обусловленные действием изучаемого в опыте фактора.

Из этого следует, что при статистическом изучении результативного признака при помощи дисперсионного анализа следует определить его варьирование по вариантам, повторениям, остаточное варьирование внутри этих групп и общее варьирование результативного признака в опыте. В соответствии с этим различают три вида дисперсий :

1) Общую дисперсию результативного признака (S y 2);

2) Межгрупповую, или частную, между выборками (S y 2);

3) Внутригрупповую, остаточную (S z 2).

Следовательно, дисперсионный анализ это расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части или компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F-критерию. В зависимости от числа одновременно исследуемых факторов различают двух-, трех-, четырехфакторный дисперсионный анализ.

При обработке полевых однофакторных статистических комплексов, состоящих из нескольких независимых вариантов, общая изменчивость результативного признака, измеряемая общей суммой квадратов (С y), расчленяется на три компонента: варьирование между вариантами (выборками) – С V , варьирование повторений (варианты связаны между собой общим контролируемым условием – наличием организованных повторений) – С p и варьирование внутри вариантов С z . В общей форме изменчивость признака представлена следующим выражением:

С y = С V +С p + С z .

Общее число степеней свободы (N -1) также расчленяется на три части:

степени свободы для вариантов (l – 1);

степени свободы для повторений (n – 1);

случайного варьирования (n – 1) × (l – 1).

Суммы квадратов отклонений, по данным полевого опыта – статистического комплекса с вариантами – l и повторениями – n, находят следующим образом. Сначала с помощью исходной таблицы определяют суммы по повторениям – Σ P , вариантам – Σ V и общую сумму всех наблюдений - Σ X.

Затем вычисляют следующие показатели:

Общее число наблюдений N = l × n;

Корректирующий фактор (поправку) С кор = (Σ X 1) 2 / N;

Общую сумму квадратов Cy = Σ X 1 2 – C кор;

Сумму квадратов для повторений C p = Σ P 2 / (l –C кор);

Сумму квадратов для вариантов C V = Σ V 2 / (n – 1);

Сумму квадратов для ошибки (остаток) C Z = C y - C p - C V .

Полученные суммы квадратов C V и C Z делят на соответствующие им степени свободы и получают два средних квадрата (дисперсии):

Вариантов S v 2 = C V / l – 1;

Ошибки S Z 2 = C Z / (n – 1)×(l – 1).

Оценка существенности разностей между средними. Полученные средние квадраты используют в дисперсионном анализе для оценки значимости действия изучаемых факторов путем сравнения дисперсии вариантов (S v 2) с дисперсией ошибки (S Z 2) по критерию Фишера (F = S Y 2 / S Z 2). За единицу сравнения принимают средний квадрат случайной дисперсии, который определяет случайную ошибку эксперимента.

Применение критерия Фишера позволяет установить наличие или отсутствие существенных различий между выборочными средними, но не указывает конкретных различий между средними.

Проверяемой H o – гипотезой является предположение - все выборочные средние являются оценками одной генеральной средней и различия между ними несущественны. Если F факт = S Y 2 / S Z 2 ≤ F теор , то нулевая гипотеза не отвергается. Между выборочными средними нет существенных различий, и на этом проверка заканчивается. Нулевая гипотеза отвергается при F факт = S Y 2 / S Z 2 ≥ F теор Значение F- критерия для принятого в исследовании уровня значимости находят в соответствующей таблице с учетом степеней свободы для дисперсии вариантов и случайной дисперсии. Обычно пользуются 5%-ным уровнем значимости, а при более строгом подходе 1% - ным и даже 0,1%-ным.

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS(от английского Sum of Squares – Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты.:

SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS ) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.

Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо , нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t- критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.

Вывод. Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером. Сущность дисперсионного анализа заключается, в разложении общей изменчивости признака и общего числа степеней свободы на составляющие части, соответствующие структуре полевого опыта, также в оценке действующего фактора по критерию Фишера.

Где Общая изменчивость признака, обусловленная действием изучаемого вопроса, неоднородностью почвенного плодородия и случайными ошибками в опыте.

Варьирование урожаев по повторениям полевого опыта.

Варьирование урожаев по вариантам опыта, связанное с действием изучаемого вопроса.

Варьирование урожаев, связанное со случайными ошибками в опыте.

Вывод в дисперсионном анализе делается согласно следующим правилам:

1. В опыте есть существенные различия, если Fфактическое ≥Fтеоритическое. В опыте нет существенных различий, если Fфактическое

2. НСР – Наименьшая существенная разность, используестся для определения разности между вариантами. Если разность d≥ НСР, то различия между вариантами существенные. Если d< НСР, то различия между вариантами не существенные.

Группы вариантов.

1. Если разница d– существенная, и указывает на повышение урожайности, то варианты относятся к 1 группе.

2. Если разница d– не существенная, то варианты относятся ко 2 группе.

3. Если разница d– существенная, но указывает на снижение урожайности, то варианты относятся к 3 группе.

Выбор формулы дисперсионного анализа зависит от методов размещения вариантов в опыте:

1. Для организованных повторений:

2. Для неорганизованных повторений.

Дисперсионный анализ - это статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичного эксперимента. Этот метод позволяет сравнивать несколько (более двух) выборок по признаку, измеренному в метрической шкале. Общепринятое сокращенное обозначение дисперсионного анализа ANOVA (от англ. ANalysis Of VAriance).

Создателем дисперсионного анализа является выдающийся английский исследователь Рональд Фишер, заложивший основы современной статистики.

Основной целью данного метода является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (то есть анализируем) выборочные дисперсии. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Переменные, значения которых определяются с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать), называются факторами или независимыми переменными.

По числу факторов, влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ. Мы будем рассматривать однофакторный дисперсионный анализ.

Основные допущения дисперсионного анализа:

  • 1) распределение зависимой переменной для каждой группы фактора соответствует нормальному закону (нарушение данного предположения, как показали многочисленные исследования, не оказывает существенного влияния на результаты дисперсионного анализа);
  • 2) дисперсии выборок, соответствующих разным градациям фактора, равны между собой (данное допущение имеет существенное значение для результатов дисперсионного анализа в том случае, если сравниваемые выборки отличаются по численности);
  • 3) выборки, соответствующие градациям фактора, должны быть независимы (выполнение данного допущения является обязательным в любом случае). Независимыми называются выборки, в которых объекты исследования набирались независимо друг от друга, то есть вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки (типичный пример зависимых выборок - измерение свойства на одной и той же выборке до и после проведения методики. В этом случае выборки зависимы, поскольку состоят из одних и тех же испытуемых. Еще один пример зависимых выборок: мужья - одна выборка, их жены - другая выборка).

Алгоритм выполнения дисперсионного анализа:

  • 1. Выдвигаем гипотезу Н 0 - нет влияния группирующего фактора на результат.
  • 2. Находим межгрупповую (факторную) и внутригрупповую (оста- точную) дисперсии (й фтт и D ocm).
  • 3. Рассчитываем наблюдаемое значение критерия Фишера - Снедекора:

4. По таблице критических точек распределения Фишера - Снедекора или с помощью стандартной функции MS Excel «ЕРАСПОБР» находим

где: а - заданный уровень значимости, к х и к 2 - число степеней свободы факторной и остаточной дисперсии соответственно.

5. Если F Ha6ji > F Kp , то гипотеза Я 0 отвергается. Это значит, что есть влияние группирующего фактора на результат.

Если F Ha6jl F Kp , то гипотеза # 0 принимается. Это значит, что нет влияния группирующего фактора на результат.

Таким образом, дисперсионный анализ призван установить, оказывает ли существенное влияние некоторый фактор F , который имеет р уровней: F x , F 2 ,..., F p , на изучаемую величину.

  • Гмурман В.Е. Теория вероятностей и математическая статистика. С. 467.

Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках , дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера , можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок : , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным .

Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).

Примеры задач

В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.

Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.

Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.

Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.

Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.

Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.

Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.

Перечень методов

  • Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач ; факторы, влияющие на объёмы продаж .

Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности:

  • Однофакторная параметрическая модель : метод Шеффе .
  • Однофакторная непараметрическая модель [Лагутин М.Б., 237]: критерий Краскела-Уоллиса [Холлендер М., Вульф Д.А., 131], критерий Джонкхиера [Лагутин М.Б., 245].
  • Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234].

Данные представляют собой двухкратные повторные наблюдения:

  • Двухфакторная непараметрическая модель : критерий Фридмана [Лапач, 203], критерий Пейджа [Лагутин М.Б., 263]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
  • Двухфакторная непараметрическая модель для неполных данных

История

Откуда произошло название дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Литература

  1. Шеффе Г. Дисперсионный анализ. - М., 1980.
  2. Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
  3. Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006.
  4. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. - Киев: Морион, 2002.
  5. Лагутин М. Б. Наглядная математическая статистика. В двух томах. - М.: П-центр, 2003.
  6. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ.
  7. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

  • Дисперсионный анализ - Электронный учебник StatSoft.

Дисперсионный анализ – анализ изменчивости результативного признака под влиянием каких-либо контролируемых переменных факторов. (В зарубежной литературе именуется ANOVA – «Analisis of Variance»).

Результативный признак называют также зависимым признаком, а влияющие факторы – независимыми признаками.

Ограничение метода: независимые признаки могут измеряться по номинальной, порядковой или метрической шкале, зависимые – только по метрической. Для проведения дисперсионного анализа выделяют несколько градаций факторных признаков, а все элементы выборки группируют в соответствии с этими градациями.

Формулировка гипотез в дисперсионном анализе.

Нулевая гипотеза: «Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».

Альтернативная гипотеза: «Средние величины результативного признака в разных условиях действия фактора различны».

Дисперсионный анализ можно подразделить на несколько категорий в зависимости:

от количества рассматриваемых независимых факторов;

от количества результативных переменных, подверженных действию факторов;

от характера, природы получения и наличия взаимосвязи сравниваемых выборок значений.

При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:

- Анализ несвязанных (то есть – различных) выборок . Например, одна группа респондентов решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.)

- Анализ связанных выборок , то есть, двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй – сходная задача – в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.)

В случае если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.

Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе . Проведение многомерного дисперсионного анализа предпочтительнее одномерного только в том случае, когда зависимые переменные не являются независимыми друг от друга и коррелируют между собой.

Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:

    вариативность, обусловленную действием каждой из исследуемых независимых переменных (факторов).

    вариативность, обусловленную взаимодействием исследуемых независимых переменных.

    вариативность случайную, обусловленную всеми неучтенными обстоятельствами.

Для оценки вариативности, обусловленной действием исследуемых переменных и их взаимодействием вычисляется отношение соответствующего показателя вариативности и случайной вариативности. Показателем этого соотношения является F – критерий Фишера.

Чем в большей степени вариативность признака обусловлена действием влияющих факторов или их взаимодействием, тем выше эмпирические значения критерия .

В формулу расчета критерия входят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических.

Непараметрическим аналогом однофакторного дисперсионного анализа для независимых выборок является критерий Краскела-Уоллеса. Он подобен критерию Манна-Уитни для двух независимых выборок, за тем исключением, что он суммирует ранги для каждой из групп.

Кроме этого, в дисперсионном анализе может быть применен медианный критерий. При его использовании для каждой группы определяются число наблюдений, которые превышают медиану, вычисленную по всем группам, и число наблюдений, которые меньше медианы, после чего строится двумерная таблица сопряженности.

Критерий Фридмана является непараметрическим обобщением парного t-критерия для случая выборок с повторными измерениями, когда количество сравниваемых переменных больше двух.

В отличие от корреляционного анализа, в дисперсионном анализе исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности при выводах о причине и следствии.

Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.).

Дисперсионный анализ представляет собой систему понятий и технических приемов, позволяющих обобщить процедуру сравнения двух средних для двух выборок, взятых из генеральных совокупностей с нормальным распределением, на случай большого числа выборок.

Назначение сервиса . С помощью данного онлайн-калькулятора можно:

  • провести однофакторный дисперсионный анализ;
  • ответить на вопрос - совпадают или нет средние значения экспериментов;
  • при выбранном уровне значимости подтвердить или опровергнуть нулевую гипотезу H 0 о равенстве групповых средних;

Инструкция . Укажите число измерений (количество строк) q , количество уровней фактора p нажмите Далее. Полученное решение сохраняется в файле Word . Данная процедура обычно используется для отбора значимых факторов для построения множественного уравнения регрессии .

Пример . Изделие железнодорожного транспорта с целью испытания на надежность эксплуатируется q раз, i=1,...q на p уровнях времени работы Tj , j=1,..., p. В каждом испытании подсчитываются числа отказов n ij . На уровне значимости α = 0,05 исследовать влияние времени работы изделия на число появления отказов методом однофакторного дисперсионного анализа при q=4 , p=4 . Результаты испытаний n ij представлены в таблицах.
Решение .
Процедура однофакторного дисперсионного анализа . Находим групповые средние:

N П 1 П 2 П 3 П 4
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
x 156.25 198.75 208.75 165

Обозначим р - количество уровней фактора (р=4). Число измерений на каждом уровне одинаково и равно q=4.


(1)



R общ = ∑∑(x ij -x ) (2)

R ф = q·(x ij -x )


R ост = R общ - R ф












Если f набл >f кр, то фактор оказывает существенное воздействие и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь.

(4)


N П 2 1 П 2 2 П 2 3 П 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



R общ = 99225 + 158225 + 175825 + 109550 - 4 4 182.19 2 = 11748.44
Находим R ф по формуле (5):
R ф = 4(156.25 2 + 198.75 2 + 208.75 2 + 165 2) - 4 182.19 2 = 7792.19
Получаем R ост: R ост = R общ - R ф = 11748.44 - 7792.19 = 3956.25
Определяем факторную и остаточную дисперсии:



Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.

Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим f кр из таблицы распределения Фишера-Снедекора.
f кр (0.05; 3; 12) = 3.49
В связи с тем, что f набл > f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем.

Пример №2 . Студентов 1-го курса опрашивали с целью выявления занятий, которым они посвящают свое свободное время. Проверьте, различаются ли распределение вербальных и невербальных предпочтений студентов.
Находим групповые средние:

N П 1 П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x 15.6 17
Обозначим р - количество уровней фактора (р=2). Число измерений на каждом уровне одинаково и равно q=5.
В последней строке помещены групповые средние для каждого уровня фактора.
Общую среднюю можно получить как среднее арифметическое групповых средних:
(1)
На разброс групповых средних процента отказа относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы.
Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной S 2 ф, а вторая - остаточной S 2 ост.
С целью учета этих составляющих вначале рассчитывается общая сумма квадратов отклонений вариант от общей средней:
R общ =∑∑(x ij -x )
и факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора:
R ф =q∑(x ij -x )
Последнее выражение получено путем замены каждой варианты в выражении R общ групповой средней для данного фактора.
Остаточная сумма квадратов отклонений получается как разность:
R ост = R общ - R ф
Для определения общей выборочной дисперсии необходимо R общ разделить на число измерений pq:

а для получения несмещенной общей выборочной дисперсии это выражение нужно умножить на pq/(pq-1):

Соответственно, для несмещенной факторной выборочной дисперсии:

где p-1 - число степеней свободы несмещенной факторной выборочной дисперсии.
С целью оценки влияния фактора на изменения рассматриваемого параметра рассчитывается величина:

Так как отношение двух выборочных дисперсий S 2 ф и S 2 ост распределено по закону Фишера-Снедекора, то полученное значение f набл сравнивают со значением функции распределения

в критической точке f кр, соответствующей выбранному уровню значимости a.
Если f набл >f кр, то фактор оказывает существенное воздействие и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь.
Для расчета R набл и R ф могут быть использованы также формулы:
R общ =x ij ²-x ², (4)
R ф =q∑x j ²-x ², (5)
Находим общую среднюю по формуле (1):
Для расчета Rобщ по формуле (4) составляем таблицу 2 квадратов вариант:
N П 2 1 П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общая средняя вычисляется по формуле (1):

R общ = 1322 + 1613 - 5 2 16.3 2 = 278.1
Находим R ф по формуле (5):
R ф = 5(15.6 2 + 17 2) - 2 16.3 2 = 4.9
Получаем R ост: R ост = R общ - R ф = 278.1 - 4.9 = 273.2
Определяем факторную и остаточную дисперсии :


Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф не оказывает существенного влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 1 и 8 находим f кр из таблицы распределения Фишера-Снедекора .
f кр (0.05; 1; 8) = 5.32
В связи с тем, что f набл < f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Другим словами, распределение вербальных и невербальных предпочтений студентов различаются.

Задание . На заводе установлено четыре линии по выпуску облицовочной плитки. С каждой линии случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины (мм). Отклонения от номинального размера приведены в таблице. Требуется на уровне значимости a = 0,05 установить наличие зависимости выпуска качественных плиток от линии выпуска (фактор A).

Задание . На уровне значимости a = 0,05 исследовать влияние цвета краски на срок службы покрытия.

Пример №1 . Произведено 13 испытаний, из них – 4 на первом уровне фактора, 4 – на втором, 3 – на третьем и 2 на четвертом. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице.

Решение :
Находим групповые средние:

N П 1 П 2 П 3 П 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x 1.4 1.43 1.33 1.32
Обозначим р - количество уровней фактора (р=4). Число измерений на каждом уровне равно: 4,4,3,2
В последней строке помещены групповые средние для каждого уровня фактора.
Общая средняя вычисляется по формуле:

Для расчета Sобщ по формуле (4) составляем таблицу 2 квадратов вариант:
N П 2 1 П 2 2 П 2 3 П 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
Общую сумму квадратов отклонений находят по формуле:

Находим S ф по формуле:


Получаем S ост: S ост = S общ - S ф = 0.0293 - 0.0263 = 0.003
Определяем факторную дисперсию:

и остаточную дисперсию:

Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим f кр из таблицы распределения Фишера-Снедекора.
f кр (0.05; 3; 12) = 3.49
В связи с тем, что f набл > f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем (нулевую гипотезу о равенстве групповых средних отвергаем). Другими словами, групповые средние в целом различаются значимо.

Пример №2 . В школе 5 шестых классов. Психологу ставится задача, определить, одинаковый ли средний уровень ситуативной тревожности в классах. Для этого были приведены в таблице. Проверить уровень значимости α=0.05 предположение, что средняя ситуативная тревожность в классах не различается.

Пример №3 . Для изучения величины X произведено 4 испытания на каждом из пяти уровней фактора F. Результаты испытаний приведены в таблице. Выяснить, существенно ли влияние фактора F на величину X. Принять α = 0.05. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями.

Пример №4 . Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой - традиционный (F 1), во второй - основанный на компьютерных технологиях (F 2), в третьей - метод, широко использующий задания для самостоятельной работы (F 3). Знания оценивались по десятибалльной системе.
Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0.05.
Результаты экзаменов заданы таблицей, F j - уровень фактора x ij - оценка i-го учащегося обучающегося по методике F j .

i 1 2 3 4 5 6 7 8 9 10
Уровень фактора F j F 1 7 5 6 4 6 7 8 6 5 7
F 2 9 8 10 8 7 10 10 9 7 6
F 3 6 7 6 6 9 5 7 8 7 8

Пример №5 . Показаны результаты конкурсного сортоиспытания культур (урожайность в ц.с га). Каждый сорт испытывался на четырех участках. Методом дисперсионного анализа изучите влияние сорта на урожайность. Установите существенность влияния фактора (долю межгрупповой вариации в общей вариации) и значимость результатов опыта при уровне значимости 0,05.
Урожайность на сортоиспытательных участках

Сорт Урожайность по повторностям ц. с га
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6