Описательные статистики
Пусть Х1, Х2 . Xn — выборка независимых случайных величин.
Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:
Элементы вариационного ряда (*) называются порядковыми статистиками.
Величины d(i) = X(i+1) — X(i) называются спейсингами или расстояниями между порядковыми статистиками.
Иными словами, размах это расстояние между максимальным и минимальным членом вариационного ряда.
Выборочное среднее равно: = (Х1 + Х2 + . + Xn) / n
Гид по статистическому пакету Excel — Блог SF Education
Величины X, которые делят упорядоченный набор значений на 10 равных групп, т. е. 10-й, 20-й, 30-й. 90 и процентили, называются децилями. Величины X, которые делят упорядоченный набор значений на 4 равные группы, т.е. 25-й, 50-й и 75-й процентили, называются квартилями. 50-й процентиль — это медиана .
4. МОДА и МЕДИАНА (структурные средние)
В дискретном ряду мода определяется в соответствии с определением, т.е. это одна из вариант признака, которая в ряду распределения имеет наибольшую частоту.
Для интервального ряда моду находим по формуле (8.16), сначала по наибольшей частоте определив модальный интервал:
где х о – начальная (нижняя) граница модального интервала;
fМо-1 – частота интервала, предшествующая модальному;
fМо+1 – частота интервала следующая за модальным.
Медианой называется такое значение признака, которое приходится на середину ранжированного ряда, т.е. в ранжированном ряду распределения одна половина ряда имеет значение признака больше медианы, другая – меньше медианы.
В дискретном ряду медиана находится непосредственно по накопленной частоте, соответствующей номеру медианы.
В случае интервального вариационного ряда медиану определяют по формуле:
(8.17 – формула Медианы)
где хо – нижняя граница медианного интервала;
S Me-1 – накопленная частота до медианного интервала;
Рассчитаем моду и медиану по данным табл. 8.4.
Таблица 8.4 – Распределение семей города N по размеру среднедушевого дохода в январе 2018 г. руб.(цифры условные)
Пример вычисления Моды . Найдем моду по формуле (8.16) см. обозначения в таблице, а h = 8000-7000=1000, т.е. получаем:
Пример вычисления Медианы интервального вариационного ряда. Рассчитаем медиану по формуле (8.17):
1) сначала находим порядковый номер медианы: NМе = Σfi/2= 5000.
2) по накопленным частотам в соответствии с номером медианы определяем, что 5000 находится в интервале (7000 – 8000), далее значение медианы определим по формуле (8.17):
Вывод: по моде – наиболее часто встречается среднедушевой доход в размере 7730 руб., по медиане – что половина семей города имеет среднедушевой доход ниже 7800 руб., остальные семьи – более 7800 руб.
Пример .СРЕДНИЙ, МЕДИАННЫЙ И МОДАЛЬНЫЙ УРОВЕНЬ ДЕНЕЖНЫХ ДОХОДОВ НАСЕЛЕНИЯ ЦЕЛОМ ПО РОССИИ И ПО СУБЪЕКТАМ РОССИЙСКОЙ ФЕДЕРАЦИИ ЗА 2013 год см. по ссылке. Источник: оценка на основании данных выборочного обследования бюджетов домашних хозяйств и макроэкономического показателя денежных доходов населения
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию.
Если М о е – имеет место правосторонняя асимметрия.
При Хе следует сделать вывод о левосторонней асимметрии ряда.
Средние величины (арифметическая, гармоническая, геометрическая, квадратическая) см. по ссылке
Как вычислить среднюю, моду и медиану интервального ряда?
Следующим нашим шагом будет нахождение медианы в среднем за линейное время, если нам будет везти. Этот алгоритм, называемый «quickselect», разработан Тони Хоаром, который также изобрёл алгоритм сортировки с похожим названием — quicksort. Это рекурсивный алгоритм, и он может находить любой элемент (не только медиану).
СРЗНАЧЕСЛИ()
Очевидно, что функция СРЗНАЧЕСЛИ() возвращает среднее тех значений, который удовлетворяют каким-то условиям. Помимо этого, условия можно накладывать не только на сами значения, но и на другие ячейки. Проиллюстрируем.
Например, вычислим среднее значение всех ячеек, которые больше нуля:
Применение функции СРЗНАЧЕСЛИ() с условием на аргумент
Мы выделили диапазон А1:С3 и наложили на него условие – «>0». А можно сделать по-другому.
Рассмотрим таблицу, в которую занесены продажи лекарств в городе. Посчитаем среднюю цену Анальгина по всему городу. Для этого наложим условие уже не на саму цену, а на название лекарства.
Применение функции СРЗНАЧЕСЛИ() с условием на другой диапазон
Кстати говоря, условия можно комбинировать с помощью функции СРЗНАЧЕСЛИМН().
Предположим, что в аптеке Зеленый Крест продается несколько видов Анальгина и в нашу таблицу они все занесены как Анальгин.
Тогда, чтобы усреднить цену всех Анальгинов в аптеке Зеленый Крест, нужно просто использовать формулу:
Обратите внимание: диапазон усреднения указывается в конце только при использовании функции СРЗНАЧЕСЛИ() с дополнительным условием. В остальных случаях диапазон ячеек, по которым вычисляется среднее значение, стоит первым.
Тема 1
Имеются данные о размерах располагаемого дохода DPI и расходов на личное потребление С для n семей в условных единицах, так что DPIi и Сi, соответственно, представляют располагаемый доход и расходы на личное потребление i-й семьи.