Содержание

Описательные статистики

Пусть Х₁, Х₂ . X_n — выборка независимых случайных величин.

Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:

Элементы вариационного ряда (*) называются порядковыми статистиками.

Величины d_(i) = X_(i+1) — X_(i) называются спейсингами или расстояниями между порядковыми статистиками.

Иными словами, размах это расстояние между максимальным и минимальным членом вариационного ряда.

Выборочное среднее равно: = (Х₁ + Х₂ + . + X_n) / n

Описательные статистики

Межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией , или дисперсией. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

Для ввода формулы выделим диапазон Е2:Е12 , состоящий из 11 ячеек (на 1 больше, чем число верхних границ интервалов). В Строке формул введем =ЧАСТОТА($A1500:$A$101;$C1500:$C$11) . После ввода формулы необходимо нажать сочетание клавиш CTRL+SHIFT+ENTER . Диапазон Е2:Е12 заполнится значениями:

Среднее квадратичное в excel — Мир ПК

Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).

Как рассчитать среднюю цену в Excel?

Расчет среднего значения чисел в подрядной строке или столбце

Щелкните ячейку снизу или справа от чисел, для которых необходимо найти среднее.
На вкладке «Главная» в группе «Редактирование» щелкните стрелку рядом с кнопкой » «, выберите «Среднее» и нажмите клавишу ВВОД.

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Чтобы построить полигон частот выделяем таблицу Вставка Диаграмма Стандартные Точечная точечная диаграмма на которой значения соединены отрезками. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

Размах ряда чисел – разница между наименьшим и наибольшим возможным значением случайной величины. Для вычисления размаха ряда нужно найти наибольшее и наименьшее значения нашей выборки и вычислить их разность.

CFA — Среднее арифметическое и меры центральной тенденции | программа CFA | fin-accounting

Выделите ячейку, которую нужно вычислить. …
Откройте вкладку Формулы и выберите Зависимости формул > Вычислить формулу.
Нажмите кнопку Вычислить, чтобы проверить значение подчеркнутой ссылки. …
Продолжайте нажимать кнопку Вычислить, пока не будут вычислены все части формулы.

где x, y – значения признаков X и Y; n_xy – частота пары значений (x,y); n – объем выборки; s_x, s_y – выборочные средние квадратические отклонения; — выборочные средние.

Присоединяйтесь к нам!

Скачивайте бесплатные приложения для прогнозирования и бизнес-анализа:

Тестируйте возможности платных решений:

Получите 10 рекомендаций по повышению точности прогнозов до 90% и выше.

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

6. Заполните столбец относительных частот. Введите формулу в ячейку E2 для вычисления относительной частоты: =D2/D$11. Нажмите клавишу Enter. Протягиванием скопируйте формулу в диапазон E3:E10. Получим относительные частоты.

Как Вычислить Выборочную Среднюю в Excel • Коэффициент осцилляции

Разбираем формулы среднеквадратического отклонения и дисперсии в Excel | Методы анализа | Статьи

Чтобы получить меру с теми же единицами измерения, что и первоначальные наблюдения, нужно осуществить обратное преобразование — потенцирование (т. е. взять антилогарифм) средней логарифмированных данных; мы называем такую величину среднее геометрическое.

Тема: Решение задач математической статистики в Excel.

— получение навыков работы по созданию и редактированию таблиц;

— использовать мастер функций для решения математических и статистических задач;

— математические методы обработки результатов наблюдений (корреляционный и регрессионный анализ, дисперсионный анализ);

3. Материалы для самоподготовки к освоению данной темы.

3) Составление выборочного уравнения линейной регрессии с помощью метода наименьших квадратов.

4) Возможности мастера функций пакета Excel и приемы работы с электронной таблицей.

6. Оснащение: компьютер с установленным пакетом MS Office.

6. Составление выборочного уравнения линейной регрессии.

7.2. Решение задач математической статистики в Excel.

Раздел математики, посвященный методам сбора, анализа и обработки статистических данных, называется математической статистикой.

Совокупность всех единиц наблюдения, охватываемых таким сплошным наблюдением, называется генеральной совокупностью.

Множество объектов, случайно выбранных для исследования из всей генеральной совокупности, называется выборкой. Число объектов выборки называют ее объемом.

Пусть из генеральной совокупности извлечена выборка, причем x₁ наблюдалось n₁ раз, x₂ – n₂ раз, x_k _– n_k раз и Sn_i=n – объем выборки. Наблюдаемые значения x_i называют вариантами, а последовательность вариант, записанных в возрастающем порядке, — вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки n_i/n – относительными частотами.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Над случайной величиной X проводится ряд независимых опытов и составляется статистическое распределение выборки количественного признака X. Чтобы получить представление о распределении случайной величины X, строят эмпирическую функцию распределения.

Эмпирической (выборочной) функцией распределения называют функцию F * (x), определяющую для каждого значения x относительную частоту события X

Полигоном частот называют ломаную, отрезки которой соединяют точки (x₁;n₁), (x₂;n₂),…,(x_k;n_k).Для построения полигона частот на оси абсцисс откладывают варианты x_i, а на оси ординат – соответствующие им частоты n_i. Точки (x_i;n_i) соединяют отрезками прямых и получают полигон частот. Если откладывать на оси ординат относительные частоты, то получим полигон относительных частот.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною Dx, а высоты равны отношению n_i/Dx (плотность частоты). Если высоты равны отношению относительной частоты на длину частичного интервала Dx, то гистограмму называют гистограммой относительных частот.

При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения, а кривая – в график функции распределения.

В Excel для построения эмпирических функций распределения используется специальная функция ЧАСТОТА и процедура пакета анализа Гистограмма.

Функция ЧАСТОТА вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив цифр.

Процедура Гистограмма используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Процедура выводит результаты в виде таблицы и гистограммы.

Пример. Построить эмпирическое распределение следующей выборки: 24, 27, 23, 22, 25, 24, 27, 21, 20, 29, 23, 21, 26, 25,23, 22, 25, 26,23, 29.

1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:В11 – значения выборки.

2. Выберите ширину интервала 1. Тогда при крайних значениях 20 и 29 получится 9 интервалов. В ячейки С1 введите букву Х. В диапазон С2:С10 введите граничные значения интервалов (20, 21, 22, 23, 24, 25, 26, 27, 29).

3. Введите заголовки: в ячейку D1 – Абсолютные частоты, в ячейку E1 – Относительные частоты, в ячейку F1 – Накопленные частоты.

4. Заполните столбец абсолютных частот. Выделите ячейки D2:D10. Вызовите Мастер функций (кнопка f_x), категорию Статистические и функцию ЧАСТОТА, нажмите кнопку ОК. Появится диалоговое окно ЧАСТОТА.

Указателем мыши введите диапазон данных (А2:В11) в рабочее поле Массив данных. В рабочее поле Двоичный массив введите диапазон интервалов (С2:С10).

После этого нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце D2:D10 появится массив абсолютных частот.

5. Найдите объем выборки в ячейке D11. Для этого нажмите кнопку Автосумма, затем выберите диапазон суммирования ( D2:D10 ) и нажмите клавишу Enter.

7. Заполните столбец накопленных частот. Относительную частоту, указанную в ячейке E2, наберите в ячейке F2. Введите формулу в ячейку F3 := F2+E3. Нажмите клавишу Enter. Протягиванием скопируйте формулу в диапазон: F4:F10. Получим накопленные частоты.

8. Результаты вычислений относительных частот и накопленных частот приводятся на рисунке.

A	B	C	D	E	F
Наблюдения	Х	Абсолютные частоты	Относительные частоты	Накопленные частоты
0,05	0,05
0,1	0,15
0,1	0,25
0,2	0,45
0,1	0,55
0,15	0,7
0,1	0,8
0,1	0,9
0,1

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Знание взаимозависимостей дает возможность предвидеть развитие ситуации при изменении характеристик объекта исследования.

Выборочный коэффициент линейной корреляции между двумя случайными величинами X и Y рассчитывается по формуле

После вычисления выборочного коэффициента корреляции проверим гипотезу о наличии существенности линейной корреляционной зависимости между изучаемыми величинами в генеральной совокупности, или, гипотезу о значимости выборочного коэффициента корреляции. Для этого вычисляем экспериментальное значение критерия:

По таблице критических значений распределения Стьюдента при заданном уровне значимости a и числе степеней свободы f=n-2 находят критическое значение t_кр..

Если , то делают вывод о значимости выборочного коэффициента корреляции при приинятом уровне значимости.

В пакете Excel для вычисления коэффициента линейной корреляции используется специальная функция КОРРЕЛ. Параметрами функции являются КОРРЕЛ (массив 1; массив 2), где массив 1 – это диапазон ячеек первой случайной величины; массив 2 – это второй интервал ячеек со значениями второй случайной величины.

Пример. Изучали зависимость между систолическим давлением (мм рт. ст.) у мужчин в начальной стадии шока и возрастом X (годы).

Необходимо определить имеется ли взаимосвязь между систолическим давлением и возрастом.

Появится диалоговое окно КОРРЕЛ. Указателем мыши введите диапазон данных “Возраст” в поле массив 1 (А2:А12). Диапазон данных “Систолическое давление” введите в поле массив 2 (В2:В12).

В ячейке А13 после нажатия кнопки ОК появится значение коэффициента корреляции – 0,61. Если проверить значимость коэффициента корреляции между переменными X и при уровне значимости a=0,05 (при n=20 t_кр.=2,1), то можно сделать вывод, что имеется заметная линейная корреляционная связь между и X.

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров.

M(Y)_x – условное математическое ожидание величины Y, соответствующее значению x;

M(X)_y – условное математическое ожидание величины X, соответствующее значению y.

В результате n независимых опытов получены n пар чисел (x₁, y₁), (x₂, y₂), … , (x_n, y_n).

Найдем по данным наблюдений выборочное уравнение прямой линии регрессии.

Выборочное уравнение линейной регрессии Y на X будем искать в виде

Угловой коэффициент прямой линии регрессии Y на X называют выборочным коэффициентом регрессии Y на X.

Подберем параметры r_yx и b так, чтобы сумма квадратов отклонений ординат всех эмпирических точек от ординат соответствующих точек прямой (*) должна быть минимальной (в этом состоит сущность метода наименьших квадратов).

В результате применения метода наименьших квадратов получим следующие формулы для вычисления r_yx и b:

Линейный регрессионный анализ заключается в подборе графика и его уравнения для набора наблюдений.

Для получения коэффициентов уравнения регрессии используется процедура Регрессия из пакета анализа. Кроме того, могут быть использованы функция ЛИНЕЙН для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ для получения предсказанных значений Y в требуемых точках.

— в появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия;

— в появившемся диалоговом окне задать Входной интервал Y. Для этого необходимо, нажав левую кнопку мыши, протянуть указатель мыши от верхней ячейки столбца зависимых данных к нижней ячейке, затем отпустить левую кнопку мыши;

— указать Входной интервал X. Для этого необходимо, нажав левую кнопку мыши, протянуть указатель мыши от верхней ячейки столбца независимых данных к нижней ячейке, затем отпустить левую кнопку мыши;

— указать выходной диапазон. Для этого следует навести указатель мыши в положение Выходной интервал и щелкнуть левой кнопкой, навести указатель мыши на правое поле ввода Выходной интервал и щелкнуть левой кнопкой мыши, затем указатель мыши навести на левую верхнюю ячейку выходного диапазона и щелкнуть левой кнопкой мыши. Размер выходного диапазона будет определен автоматически;

— если необходимо проверить отличие экспериментальных точек от предсказанных по регрессионной модели, следует установить флажок в поле График подбора;

Результаты анализа. Выходной диапазон будет включать в себя результаты дисперсионного анализа, коэффициенты регрессии, стандартную погрешность вычисления Y, среднеквадратичные отклонения, число наблюдений, стандартные погрешности для коэффициентов.

Приводимое значение R – квадрат (коэффициент детерминации) в регрессионной статистике определяет, с какой степенью точности полученное регрессионное уравнение аппроксимирует исходные данные. Если R – квадрат > 0,95, говорят о высокой точности аппроксимации. Если R – квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации. Если R – квадрат < 0,6, то точность аппроксимации недостаточна и модель требует улучшения.

В таблице Дисперсионный анализ оценивается общее качество полученной модели: ее достоверность по уровню значимости критерия Фишера – p, который должен быть меньше, чем 0,05. Значение p определяем в строке Регрессия, в столбце Значимость F.

Пример. Изучали зависимость между объемом Y (мкм 3 ) и диаметром X (мкм) сухого эритроцита у млекопитающих. Результаты наблюдений приведены в таблице:

Необходимо на основании этих данных построить регрессионное уравнение.

1. В пункте меню Сервис выберите строку Анализ данных

2. В появившемся диалоговом окне задайте Входной интервал Y.

5. Укажите выходной диапазон. Для этого поставьте переключатель в положение Выходной интервал, затем наведите указатель мыши на правое поле ввода Выходной интервал и, щелкнув левой кнопкой мыши, указатель мыши наведите на левую верхнюю ячейку выходного диапазона (C1). Щелкните левой кнопкой мыши. Нажмите кнопку ОК.

Результаты анализа. В выходном диапазоне появятся следующие результаты и график подбора.

В таблице Дисперсионный анализ оценивается общее качество полученной модели: ее достоверность по уровню значимости критерия Фишера (строка Регрессия, столбец Значимость F, в примере 0,0000911, то есть p=0,0000911 и модель значима).

Приводимое значение R – квадрат (коэффициент детерминации) в регрессионной статистике определяет степень точности описания моделью процесса. В примере R – квадрат=0,9015. Так как R – квадрат < 0,95, не можем говорить о высокой точности аппроксимации.

Определим значения коэффициентов модели. На пересечении строки Y – пересечение и столбца Коэффициент приводится свободный член. В строке Переменная X1 приводится коэффициент при X1.

Поэтому выражение для определения объема сухого эритроцита у млекопитающих от диаметра будет иметь вид:

Основная идея дисперсионного анализа состоит в сравнении факторной дисперсии и остаточной дисперсии. В математической статистике доказывается, что факторная дисперсия характеризует влияние фактора А на величину Х, а остаточная – влияние случайных причин.

Рассмотрим случай, когда число испытаний на различных уровнях различно. Пусть произведено q₁ испытаний на уровне А₁, q₂ испытаний на уровне А₂, …, q _m испытаний – на уровне А_m.

Общую сумму квадратов отклонений наблюдаемых зачений от общей средней х находят по формуле :

P₁ = — сумма квадратов наблюдавшихся значений признака на уровне А₁;

P₂ = — сумма квадратов наблюдавшихся значений признака на уровне А₂;

P_m = — сумма квадратов наблюдавшихся значений признака на уровне А _m.

R₁ = , R₂ = … R_m = — суммы наблюдавшихся значений признака соответственно на уровнях А_1, А_{2, …} А_m .

n= q_{1 +} q_{2 +… +}q_m — общее число испытаний ( объем выборки).

Факторную сумму квадратов отклонений групповых средних от общей средней, которая характеризует рассеяние » между группами» находят по формуле:

Остаточную сумму квадратов отклонений наблюдаемых значений группы от своей групповой средней, которая характеризует рассеяние «внутри групп», находят по формуле :

Факторную дисперсию находят по формуле :

Если факторная дисперсия окажется меньше остаточной, то фактор не оказывает существенное влияние на величину Х.

Если факторная дисперсия больше остаточной, то применяем критерий Фишера — Снедекора, для чего найдем наблюдаемое значение критерия

По таблице “Критические точки распределения F Фишера — Снедекора” находим критическую точку F_кр ( ά; m-1; n-m), ά – уровень значимости . Если F _набл > F_кр, то гипотезу о равенстве групповых средних отвергаем, значит фактор А оказывает существенное влияние на величину Х.

Для проведения в MS Excel дисперсионного анализа необходимо:

— ввести данные в таблицу. В каждом столбце должны быть данные, соответствующие одному значению исследуемого фактора. Столбцы должны располагаться в порядке возрастания (убывания) величины исследуемого фактора;

— выбрать команду Сервис, затем Анализ данных в списке Инструменты анализа выбрать процедуру Однофакторный дисперсионный анализ;

— в появившемся диалоговом окне задать Входной интервал, то есть таблицу данных;

— в разделе Группировка переключатель установить в положение по столбцам;

— указать выходной диапазон, то есть ввести ссылку на ячейки, в которые будут выведены результаты анализа.

Определить достоверность влияния фермента (фактора А) на выход продукта биохимического синтеза при уровне значимости a£0,05.

Таблица вариантов Номер варианта выбирается по последним двум цифрам шифра.

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.

© cyberpedia.su 2017-2022 — Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Если распределение данных логарифма приблизитель но симметричное, то среднее геометрическое подобно медиане и меньше, чем среднее необработанных дан ных. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

Если значения x₁, x₂ . x_n имеют соответствующий вес w₁, w₂ . w_n, то взвешенное арифметическое среднее выглядит следующим образом:

Тема: Решение задач математической статистики в Excel. — КиберПедия

Количество элементов в возвращаемом массиве на единицу больше числа элементов в массиве « массив_интервалов ». Дополнительный элемент в возвращаемом массиве содержит количество значений, превышающих верхнюю границу интервала, содержащего наибольшие значения (см. пример ниже).

A	B	C	D	E	F
Наблюдения	Х	Абсолютные частоты	Относительные частоты	Накопленные частоты
0,05	0,05
0,1	0,15
0,1	0,25
0,2	0,45
0,1	0,55
0,15	0,7
0,1	0,8
0,1	0,9
0,1