Вступление
стандарт Dуклонение (SD) и Standard Еrror (SE) на первый взгляд похожие термины; однако они концептуально настолько разнообразны, что в статистической литературе они почти взаимозаменяемы. Оба термина обычно предшествуют символу плюс-минус (+/-), который указывает на тот факт, что они определяют симметричное значение или представляют диапазон значений. Неизменно оба термина появляются со средним (средним) из набора измеренных значений.
Интересно, что SE не имеет ничего общего со стандартами, ошибками или передачей научных данных.
Детальный взгляд на происхождение и объяснение SD и SE покажет, почему как профессиональные статистики, так и те, кто его использует, оба склонны ошибаться.
Стандартное отклонение (SD)
SD это описательный статистика, описывающая распространение распространения. В качестве метрики это полезно, когда данные обычно распределяются. Однако это менее полезно, когда данные сильно искажены или являются бимодальными, потому что они не очень хорошо описывают форму распределения. Как правило, мы используем SD при сообщении характеристик образца, потому что мы намерены описывать насколько сильно варьируются данные. Другими полезными статистическими данными для описания разброса данных являются межквартильный диапазон, 25-й и 75-й процентили и диапазон данных.
Рисунок 1. SD - это мера распространения данных. Когда данные являются выборкой из нормально распределенного распределения, то можно ожидать, что две трети данных будут лежать в пределах 1 стандартного отклонения от среднего.
Дисперсия описательный статистика также, и она определяется как квадрат стандартного отклонения. Обычно об этом не сообщается при описании результатов, но это более математически удобная формула (например, сумма квадратов отклонений) и играет роль в вычислении статистики..
Например, если у нас есть две статистики п & Q с известными отклонениями вар(П) & вар(Q), тогда дисперсия суммы Р + Q равна сумме дисперсий: вар(П) +вар(Q). Теперь понятно, почему статистикам нравится говорить о расхождениях.
Но стандартные отклонения имеют важное значение для разброса, особенно когда данные обычно распределяются: интервал означает +/ - 1 SD Можно ожидать, что захватить 2/3 выборки, а средний интервал +- 2 SD можно ожидать, чтобы захватить 95% образца.
SD дает представление о том, насколько индивидуальные ответы на вопрос варьируются или «отклоняются» от среднего значения. SD говорит исследователю, как распределены ответы: они сконцентрированы вокруг среднего значения или разбросаны по всей ширине? Все ваши респонденты оценили ваш продукт в середине вашей шкалы, или некоторые одобрили его, а некоторые не одобрили?
Рассмотрим эксперимент, в котором респондентов просят оценить продукт по ряду атрибутов по 5-балльной шкале. Среднее значение для группы из десяти респондентов (с пометкой «A» - «J» ниже) «хорошее соотношение цены и качества» составило 3,2 с SD 0,4, а среднее для «надежности продукта» 3,4 с SD 2,1.
На первый взгляд (глядя только на средства) может показаться, что надежность была оценена выше, чем значение. Но более высокий SD для надежности может указывать (как показано в распределении ниже), что ответы были очень поляризованными, где большинство респондентов не имели проблем с надежностью (оценили атрибут как «5»), но меньший, но важный сегмент респондентов, имел проблема надежности и оценивается атрибутом «1». Глядя только на среднее значение, рассказывается только часть истории, однако, чаще всего, именно на этом сосредоточены исследователи. Распределение ответов важно учитывать, и SD предоставляет ценную описательную меру этого.
ответчик | Хорошее соотношение цены и качества | Надежность продукта |
3 | 1 | |
В | 3 | 1 |
С | 3 | 1 |
D | 3 | 1 |
Е | 4 | 5 |
F | 4 | 5 |
грамм | 3 | 5 |
ЧАС | 3 | 5 |
я | 3 | 5 |
J | 3 | 5 |
Жадный | 3,2 | 3,4 |
Std. Dev. | 0,4 | 2,1 |
Первый опрос: респонденты оценивают продукт по 5-балльной шкале
Два очень разных распределения ответов по 5-балльной шкале могут дать одно и то же среднее значение. Рассмотрим следующий пример, показывающий значения ответов для двух разных оценок..
В первом примере (рейтинг «A») SD равен нулю, потому что ВСЕ ответы были точно средним значением. Индивидуальные ответы вообще не отклонялись от среднего.
В рейтинге «B», хотя среднее по группе такое же (3,0), что и при первом распределении, стандартное отклонение выше. Стандартное отклонение 1,15 показывает, что индивидуальные ответы, в среднем *, были чуть более 1 балла от среднего.
ответчик | Рейтинг «А» | Рейтинг «Б» |
3 | 1 | |
В | 3 | 2 |
С | 3 | 2 |
D | 3 | 3 |
Е | 3 | 3 |
F | 3 | 3 |
грамм | 3 | 3 |
ЧАС | 3 | 4 |
я | 3 | 4 |
J | 3 | 5 |
Жадный | 3.0 | 3.0 |
Std. Dev. | 0,00 | 1,15 |
Второе исследование. Респонденты оценивают продукт по 5-балльной шкале.
Другой способ взглянуть на SD - представить распределение как гистограмму ответов. Распределение с низким SD будет отображаться в виде высокой узкой формы, в то время как большое SD будет указываться более широкой формой.
Обычно SD не означает «правильно или неправильно» или «лучше или хуже» - более низкий SD не обязательно более желателен. Он используется исключительно в качестве описательной статистики. Он описывает распределение по отношению к среднему.
Tтехнический отказ от ответственности, связанный с SD
Мышление SD как «среднее отклонение» является отличным способом концептуального понимания его значения. Однако на самом деле оно не рассчитывается как среднее (если бы оно было, мы бы назвали его «средним отклонением»). Вместо этого он «стандартизирован», довольно сложный метод вычисления значения с использованием суммы квадратов.
Для практических целей вычисления не важны. Большинство программ табулирования, электронных таблиц или других инструментов управления данными рассчитают SD для вас. Более важно понять, что передает статистика.
Стандартная ошибка
Стандартная ошибка выведенный статистика, которая используется при сравнении выборочных средних (средних) по группам населения. Это мера точность образца среднего. Среднее значение выборки - это статистика, полученная из данных, которые имеют базовое распределение. Мы не можем визуализировать это так же, как данные, так как мы провели один эксперимент и имеем только одно значение. Статистическая теория говорит нам, что среднее значение выборки (для большой «достаточно» выборки и при нескольких условиях регулярности) приблизительно нормально распределено. Стандартное отклонение этого нормального распределения - это то, что мы называем стандартной ошибкой..
фигура 2. Распределение внизу представляетотправляет распределение данных, тогда как распределение сверху - теоретическое распределение среднего значения выборки. SD из 20 является мерой разброса данных, тогда как SE из 5 является мерой неопределенности вокруг среднего значения по выборке..
Когда мы хотим сравнить средние значения результатов эксперимента «Лечение А» с двумя образцами и «Лечение Б», нам необходимо оценить, насколько точно мы измерили средства..
На самом деле, нас интересует, насколько точно мы измерили разницу между этими двумя средствами. Мы называем эту меру стандартной ошибкой разницы. Возможно, вы не удивитесь, узнав, что стандартная ошибка разности средних значений является функцией стандартных ошибок средних:
Теперь, когда вы поняли, что стандартная ошибка среднего (SE) и стандартное отклонение распределения (SD) - это два разных зверя, вам может быть интересно, как они запутались в первую очередь. Хотя они концептуально различаются, они математически имеют простые отношения:
,где n - количество точек данных.
Обратите внимание, что стандартная ошибка зависит от двух компонентов: стандартного отклонения образца и размера образца. N. Это имеет интуитивный смысл: чем больше стандартное отклонение выборки, тем менее точной может быть наша оценка истинного среднего.
Кроме того, чем больше размер выборки, тем больше у нас информации о населении и тем точнее мы можем оценить истинное среднее.
SE является показателем надежности среднего значения. Небольшая SE является показателем того, что среднее значение выборки является более точным отражением фактического среднего значения популяции. Больший размер выборки обычно приводит к уменьшению SE (в то время как SD напрямую не зависит от размера выборки).
Большинство исследований включает в себя выборку из населения. Затем мы делаем выводы о населении на основе результатов, полученных из этой выборки. Если был взят второй образец, результаты, вероятно, не будут точно соответствовать первому образцу. Если среднее значение для атрибута рейтинга было 3,2 для одного образца, оно может быть 3,4 для второго образца того же размера. Если бы мы собирали бесконечное количество выборок (одинакового размера) из нашей популяции, мы могли бы отобразить наблюдаемые средние в виде распределения. Затем мы можем рассчитать среднее значение всех наших выборочных средних. Это среднее будет равно истинному среднему населению. Мы также можем рассчитать SD распределения выборочных средних. SD этого распределения средних значений для выборки представляет собой SE для каждого отдельного среднего значения для выборки..
Таким образом, у нас есть самое важное наблюдение: SE - это SD среднего значения населения.
Образец | Жадный |
первый | 3,2 |
второй | 3,4 |
третий | 3,3 |
четвёртый | 3,2 |
пятые | 3,1 |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
... . | ... . |
Жадный | 3,3 |
Std. Dev. | 0,13 |
Таблица, иллюстрирующая связь между SD и SE
Теперь ясно, что если SD этого распределения помогает нам понять, как далеко среднее значение выборки от истинного среднего значения популяции, то мы можем использовать это, чтобы понять, насколько точным является среднее значение для любой отдельной выборки по отношению к истинному среднему значению. В этом суть SE.
На самом деле, мы взяли только одну выборку из нашей совокупности, но мы можем использовать этот результат для оценки достоверности нашего наблюдаемого среднего значения выборки..
Фактически, SE говорит нам, что мы можем быть на 95% уверены, что наше наблюдаемое среднее значение выборки составляет плюс или минус примерно 2 (на самом деле 1,96) стандартных ошибок от среднего значения для населения.
В приведенной ниже таблице показано распределение ответов из нашей первой (и единственной) выборки, использованной для нашего исследования. SE, равный 0,13, будучи относительно небольшим, дает нам представление о том, что наше среднее значение относительно близко к истинному среднему значению для нашей общей популяции. Погрешность (с доверительной вероятностью 95%) для нашего среднего значения (примерно) вдвое превышает это значение (+/- 0,26), что говорит нам о том, что истинное среднее значение наиболее вероятно между 2,94 и 3,46..
ответчик | Рейтинг |
3 | |
В | 3 |
С | 3 |
D | 3 |
Е | 4 |
F | 4 |
грамм | 3 |
ЧАС | 3 |
я | 3 |
J | 3 |
Жадный | 3,2 |
Std. заблуждаться | 0,13 |
Резюме
Многие исследователи не понимают различия между стандартным отклонением и стандартной ошибкой, хотя они обычно включаются в анализ данных. Хотя фактические расчеты для стандартного отклонения и стандартной ошибки выглядят очень похожими, они представляют собой две очень разные, но дополняющие друг друга меры. SD говорит нам о форме нашего распределения, насколько близко отдельные значения данных от среднего значения. SE говорит нам, как близко наше среднее значение выборки к истинному среднему значению всего населения. Вместе они помогают составить более полную картину, чем одно только среднее.