Среднеквадратичное отклонение и дисперсия являются статистическими мерами рассеивания
Формула для стандартного отклонения и дисперсии часто выражается с использованием:
Дисперсия набора N одинаково вероятные значения могут быть записаны как:
Стандартное отклонение - это квадратный корень из дисперсии:
Формулы с греческими буквами выглядят устрашающе, но это менее сложно, чем кажется. Чтобы поместить это в простых шагах:
Это дает дисперсию. Возьмите квадратный корень из дисперсии, чтобы найти стандартное отклонение.
Это превосходное видео из Академии Хана объясняет понятия дисперсии и стандартного отклонения:
Допустим, набор данных включает в себя высоту шести одуванчиков: 3 дюйма, 4 дюйма, 5 дюймов, 4 дюйма, 11 дюймов и 6 дюймов.
Сначала найдите среднее значение точек данных: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Таким образом, средняя высота составляет 5,5 дюймов. Теперь нам нужны отклонения, поэтому мы находим отличие каждого растения от среднего: -2,5, -1,5, -5, -1,5, 5,5, 1,5
Теперь возведите в квадрат каждое отклонение и найдите их сумму: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Теперь разделите сумму квадратов на количество точек данных, в данном случае растений: 43,5 / 6 = 7,25
Таким образом, дисперсия этого набора данных составляет 7,25, что является довольно произвольным числом. Чтобы преобразовать его в измерение в реальном мире, возьмите квадратный корень из 7,25, чтобы найти стандартное отклонение в дюймах..
Стандартное отклонение составляет около 2,69 дюйма. Это означает, что для образца любой «одуванчик» в пределах 2,69 дюймов от среднего значения (5,5 дюймов) является «нормальным».
Отклонения возводятся в квадрат, чтобы отрицательные значения (отклонения ниже среднего) не отменяли положительные значения. Это работает, потому что отрицательное число в квадрате становится положительным значением. Если у вас был простой набор данных с отклонениями от среднего значения +5, +2, -1 и -6, сумма отклонений будет равна нулю, если значения не возведены в квадрат (то есть 5 + 2 - 1 - 6 = 0).
Дисперсия выражается в виде математической дисперсии. Поскольку это произвольное число относительно исходных измерений набора данных, его трудно визуализировать и применять в реальном смысле. Нахождение отклонения обычно является лишь последним шагом перед нахождением стандартного отклонения. Значения отклонения иногда используются в финансовых и статистических формулах.
Стандартное отклонение, которое выражается в исходных единицах набора данных, намного более интуитивно понятно и ближе к значениям исходного набора данных. Чаще всего он используется для анализа демографии или выборки населения, чтобы понять, что является нормальным в популяции..
При нормальном распределении около 68% населения (или значений) находятся в пределах 1 стандартного отклонения (1σ) от среднего значения, а около 94% - в пределах 2σ. Значения, которые отличаются от среднего на 1,7 или более, обычно считаются выбросами.
На практике системы качества, такие как Six Sigma, пытаются уменьшить частоту ошибок, чтобы ошибки стали более заметными. Термин «процесс шести сигм» исходит из того, что если имеется шесть стандартных отклонений между средним значением процесса и ближайшим пределом спецификации, практически ни один элемент не будет соответствовать спецификациям.[1]
В реальных приложениях используемые наборы данных обычно представляют выборки совокупности, а не целые совокупности. Немного модифицированная формула используется, если выводы по всему населению должны быть сделаны из частичной выборки..
«Стандартное отклонение выборки» используется, если все, что у вас есть, является выборкой, но вы хотите сделать заявление о стандартном отклонении совокупности, из которого берется выборка.
Единственный способ, по которому выборочная формула стандартного отклонения отличается от формулы стандартного отклонения, это «-1» в знаменателе.
Используя пример с одуванчиками, эта формула была бы необходима, если бы мы выбрали только 6 одуванчиков, но хотели бы использовать эту выборку, чтобы указать стандартное отклонение для всего поля с сотнями одуванчиков..
Сумма квадратов теперь будет делиться на 5 вместо 6 (n - 1), что дает дисперсию 8,7 (вместо 7,25) и стандартное отклонение выборки 2,95 дюйма вместо 2,69 дюйма для исходного стандартного отклонения. Это изменение используется для нахождения погрешности в выборке (в данном случае 9%).