Поиск и подсчет самых частых значений
Необходимость поиска наибольших и наименьших значений в любом бизнесе очевидна: самые прибыльные товары или ценные клиенты, самые крупные поставки или партии и т.д.
Но наравне с этим, иногда приходится искать в данных не топовые, а самые часто встречающиеся значения, что хоть и звучит похоже, но, по факту, совсем не то же самое. Применительно к магазину, например, это может быть поиск не самых прибыльных, а самых часто покупаемых товаров или самое часто встречающееся количество позиций в заказе, минут в разговоре и т.п.
В такой ситуации задачу придется решать немного по-разному, в зависимости от того, с чем мы имеем дело — с числами или с текстом.
Оценка однородности выборки — Экономика.
- шаг группировки может быть только постоянным, в отличие от функции ЧАСТОТА, где карманы можно задать абсолютно любые
- сводную таблицу нужно обновлять при изменении исходных данных (щелчком правой кнопки мыши — Обновить), а функция пересчитывается автоматически «на лету»
Формула Кохрана позволяет вам для расчета идеального размера выборки при желаемом уровне точности, желаемом уровне достоверности, и предполагаемая доля атрибута, присутствующего в совокупности. … P — (оценочная) доля населения, имеющего рассматриваемый атрибут, q равно 1 — p.
Равномерное распределение
Графическое представление Плотность распределения |
Математическое ожидание: M[X] = 1/λ Дисперсия: D[X] = 1/λ 2 |
Графическое представление Плотность распределения биномиального распределения pi = CN i p i q N-i (схема Бернулли) |
Математическое ожидание биномиального распределения M[X] = np Дисперсия биномиального распределения D[X] = npq |
Пример . Измерены 100 обработанных деталей. Отклонения от заданного размера приведены в таблице. на уровне значимости α=0,05 проверить гипотезу о том, что отклонения от проектного размера можно описать нормальным распределением, используя критерий согласия Пирсона.
Границы отклонений | Число деталей |
-3..-2 | 3 |
-2 -1 | 10 |
-1 0 | 15 |
0-1 | 24 |
1-2 | 25 |
2-3 | 13 |
3-4 | 7 |
4-5 | 3 |
Пример . Имеются следующие данные о количестве заявок на автомобили технической помощи по дням. Помимо общего задания, требуется построить теоретическую кривую нормального распределения и проверить соответствие эмпирического и теоретического распределений по критерию Пирсона.
Скачать решение
- Провести группировку данных. Число интервалов k вычислить по формуле (10*n) 1/3 , где n – объем выборки. Записать сгруппирированный статистический ряд распределения выборки.
- Построить гистограмму относительных частот и выдвинуть гипотезу о законе распределения изучаемого признака Х.
- Провести проверку нулевой гипотезы, используя χ 2 — критерий Пирсона при уровне значимости α=0.05. После принятия гипотезы построить график плотности распределения.
Показатели центра распределения.
Средняя взвешенная
Показатели вариации.
Абсолютные показатели вариации.
Размах вариации — разность между максимальным и минимальным значениями признака первичного ряда.
R = Xmax — Xmin
R = 11 — (-5) = 16
Дисперсия — характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Несмещенная оценка дисперсии — состоятельная оценка дисперсии.
Каждое значение ряда отличается от среднего значения 4.82 не более, чем на 3.01
Оценка среднеквадратического отклонения.
Гистограмма относительных частот (в %).
Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с помощью критерия согласия Пирсона.
где pi — вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону
Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа
Интервалы группировки | Наблюдаемая частота ni | Ф(xi) | Ф(xi+1) | Вероятность pi попадания в i-й интервал | Ожидаемая частота npi | Слагаемые статистики Пирсона Ki |
-5 — -3,4 | 1 | 0.5 | 0.5 | 0,00276 | 0.28 | 1.9 |
-3,4 — -1,8 | 2 | 0.49 | 0.5 | 0,0108 | 1.08 | 0.78 |
-1,8 — -0,2 | 2 | 0.45 | 0.49 | 0,0336 | 3.36 | 0.55 |
-0,2 — 1,4 | 5 | 0.37 | 0.45 | 0,0796 | 7.96 | 1.1 |
1,4 — 3 | 20 | 0.23 | 0.37 | 0,14 | 14.38 | 2.2 |
3 — 4,6 | 10 | 0.0319 | 0.23 | 0,2 | 19.72 | 4.79 |
4,6 — 6,2 | 31 | 0.18 | 0.0319 | 0,15 | 14.53 | 18.67 |
6,2 — 7,8 | 11 | 0.34 | 0.18 | 0,16 | 16.17 | 1.65 |
7,8 — 9,4 | 12 | 0.44 | 0.34 | 0,0968 | 9.68 | 0.56 |
9,4 — 11 | 6 | 0.48 | 0.44 | 0,0446 | 4.46 | 0.53 |
100 | 32.73 |
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).
Её границу Kkp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям s, k (число интервалов), r=2 (параметры xcp и s оценены по выборке).
Kkp = 14.06714; Kнабл = 32.73
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону.
Пример 1. Нормальным или гауссовым распределением называется непрерывное распределение, плотность которого имеет вид
φ(x)– функция Гаусса (таблица),
Параметры a и σ имеют смысл математического ожидания и среднего квадратичного отклонения.
2. Справедливы формулы:
Ф(x)– интеграл вероятностей, таблица.
Обратим внимание, что Ф(-x)=–Ф(x), Ф(x)=0.5 при x>5.
3. Правило трех сигм: P(|X-a|>3ε)=0.0027 – т.е. вероятность отклонения нормально распределенной величины от математического ожидания более чем на 3σ практически равна нулю.
Главная особенность, выделяющая нормальный закон среди других законов распределения, состоит в том, что он является предельным, к которому приближаются другие законы при весьма часто встречающихся условиях.
Наиболее часто встречающееся значение ряда – 6.16
Медиана
Медиана делит выборку на две части: половина вариант меньше медианы, половина — больше
Остальные 25% превосходят 6.26
Децили (децентили)
Децили – это значения признака в ранжированном ряду распределения, выбранные таким образом, что 10% единиц совокупности будут меньше по величине D1; 80% будут заключены между D1 и D9; остальные 10% превосходят D9
Таким образом, что 10% единиц совокупности будут меньше по величине 5.76
Остальные 10% превосходят 6.43
Показатели вариации.
Размах вариации
R = X max — X min
R = 6.65 — 5.59 = 1.06
Среднее линейное отклонение
Каждое значение ряда отличается от среднего значения 6.08 не более, чем на 0.25
Коэффициент вариации
Ex > 0 — островершинное распределение
Интервальное оценивание центра генеральной совокупности
Доверительный интервал для генерального среднего
Пример . Длина переднего рога у африканского белого носорога описывается случайной величиной X, распределенной по нормальному закону с параметрами a=1,8 и σ 2 =1. Найти математическое ожидание M(5X-0,8).
см. примеры проверки гипотезы о нормальном распределении.
Поиск и подсчет самых частых значений
Во-вторых, что такое калькулятор размера выборки? Этот калькулятор размера выборки представляет собой общедоступную услугу программного обеспечения для проведения опросов Creative Research Systems. Вы можете использовать это чтобы определить, сколько людей вам нужно взять на собеседование, чтобы для получения результатов, максимально точно отражающих целевую аудиторию.