Центральная тенденция против дисперсии
В описательной и логической статистике несколько индексов используются для описания набора данных, соответствующего его центральной тенденции, дисперсии и асимметрии: три наиболее важных свойства, которые определяют относительную форму распределения набора данных.
Что является центральной тенденцией?
Центральная тенденция относится и определяет центр распределения ценностей. Среднее, мода и медиана являются наиболее часто используемыми индексами при описании центральной тенденции набора данных. Если набор данных симметричен, то и медиана, и среднее значение набора данных совпадают друг с другом.
Для данного набора данных среднее значение вычисляется путем взятия суммы всех значений данных и последующего деления ее на количество данных. Например, вес 10 человек (в килограммах) составляет 70, 62, 65, 72, 80, 70, 63, 72, 77 и 79. Тогда средний вес десяти человек (в килограммах) может быть рассчитывается следующим образом. Сумма весов составляет 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Среднее = (сумма) / (количество данных) = 710/10 = 71 (в килограммах). Понятно, что выбросы (точки данных, которые отклоняются от нормальной тенденции) имеют тенденцию влиять на среднее значение. Таким образом, при наличии выбросов только одно среднее не даст правильной картины о центре набора данных..
Медиана - это точка данных, найденная в точной середине набора данных. Один из способов вычисления медианы - упорядочить точки данных в порядке возрастания, а затем найти точку данных в середине. Например, если один раз упорядочить, предыдущий набор данных выглядит так: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Следовательно, (70 + 72) / 2 = 71 находится посередине. Из этого видно, что медиана не обязательно должна быть в наборе данных. Медиана не зависит от присутствия выбросов. Следовательно, медиана будет служить лучшей мерой центральной тенденции в присутствии выбросов.
Режим является наиболее часто встречающимся значением в наборе данных. В предыдущем примере значения 70 и 72 встречаются дважды и, таким образом, оба являются режимами. Это показывает, что в некоторых дистрибутивах существует более одного модального значения. Если существует только один режим, набор данных называется унимодальным, в этом случае набор данных является бимодальным.
Что такое дисперсия?
Дисперсия - это объем распространения данных о центре распространения. Диапазон и стандартное отклонение являются наиболее часто используемыми мерами дисперсии.
Диапазон - это просто самое высокое значение минус самое низкое значение. В предыдущем примере самое высокое значение - 80, а самое низкое - 62, поэтому диапазон составляет 80-62 = 18. Но диапазон не дает достаточного представления о дисперсии..
Чтобы рассчитать стандартное отклонение, сначала рассчитываются отклонения значений данных от среднего. Среднеквадратичное отклонение называется стандартным отклонением. В предыдущем примере соответствующие отклонения от среднего значения (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 и (79 - 71) = 8. Сумма квадраты отклонения это (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Стандартное отклонение √ (366/10) = 6,05 (в килограммах). Если набор данных не сильно искажен, из этого можно сделать вывод, что большинство данных находится в интервале 71 ± 6,05, и это действительно так в этом конкретном примере.
В чем разница между центральной тенденцией и дисперсией? • Центральная тенденция относится и определяет центр распределения ценностей • Дисперсия - это объем распространения данных о центре набора данных..
|