Оценить статистическую значимость уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента
1) Оценим статистическую значимость уравнения регрессии с помощью критерия Фишера. Расчетное значение F-критерия Фишера можно найти в регрессионном анализе (рисунок 5).
Дисперсионный анализ | ||||
df | SS | MS | F | Значимость F |
Регрессия | 1,32E+12 | 1,32E+12 | 2447,317 | 4,94E-18 |
Остаток | 8,12E+09 | 5,41E+08 | ||
Итого | 1,33E+12 |
Рисунок 5.Фрагмент регрессионного анализа для однофакторной модели
Так как F>Fтабл, то уравнение однофакторной регрессии статистически значимо на 95% уровне значимости. Таким образом, связь У с включенным в модель фактором существенна.
2) Коэффициент уравнения регрессии признается значимым, если наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое табличное значение статистики Стьюдента (для заданного уровня значимости).
Коэффициенты | Стандартная ошибка | t-статистика | |
Y-пересечение | 17243,98 | 6178,659 | 2,790894 |
X2 | 0,618526 | 0,012503 | 49,47036 |
Рисунок 6.Фрагмент регрессионного анализа для однофакторной модели
Фактические значения t-критериев сравниваются с табличным значением при степенях свободы n-k-1 = 17-1-1=15 и уровне значимости α=0,05.
4. Построить уравнение регрессии со статистически значимыми факторами. Оценить качество уравнения регрессии с помощью коэффициента детерминации R 2 . Оценить точность построенной модели.
Качество уравнения регрессии оценивается коэффициентом детерминации R 2 .
Регрессионная статистика | |
Множественный R | 0,996949 |
R-квадрат | 0,993908 |
Нормированный R-квадрат | 0,993502 |
Стандартная ошибка | 23264,62 |
Наблюдения |
Рисунок 7. Фрагмент регрессионного анализа для однофакторной модели
Величина R 2 = 0,993908 означает, что фактором У (объем выпуска продукции) можно объяснить 99,3% вариации (разброса) объема выпуска продукции.
Уровень точности модели характеризует степень отклонения в среднем фактических значений результативной переменной У от ее значений, полученных по модели регрессии (предсказанных). Для оценки уровня точности используются различные ошибки: средняя относительная, стандартная и другие.
Cтандартная ошибка модели выводится в первой таблице «Регрессионная статистика» (рис. отчета по регрессионному анализу.
Регрессионная статистика | |
Множественный R | 0,996949 |
R-квадрат | 0,993908 |
Нормированный R-квадрат | 0,993502 |
Стандартная ошибка | 23264,62 |
Наблюдения |
Рисунок 8. Фрагмент регрессионного анализа для однофакторной модели
В данном случае стандартная ошибка модели равна 23 264,62, а среднеквадратическое отклонение (или стандартная ошибка) фактора Sу =288 607,7
5. Оценить прогноз объема выпуска продукции, если прогнозные значения факторов составляют 75% от их максимальных значений.
Доверительные интервалы для отдельных значений результирующей переменной можно определить, рассчитав вначале для каждого уровня ошибки моделирования по формуле
где – i-ый уровень предсказанного значения результата
Объем выпуска продукции при максимальных значениях фактора Х2.
Уmax= | 1 241 416,62 |
U(0,05) = | 49553,64 |
У max-U(0,05) | У max+U(0,05) |
1191862,98 | 1290970,26 |
У max = | 1 241 416,62 |
U(0,1) = | 40713,085 |
У max-U(0,01) | У max+U(0,01) |
1200703,535 | 1282129,705 |
Прогноз объема выпуска продукции, если прогнозные значения фактора составляют 75% от их максимальных значений.
Уmax(75%)= | 935373,46 |
U(0,05) = | 49553,64 |
Уmax(75%)-U(0,05) | Уmax(75%)+U(0,05) |
885819,82 | 984927,1 |
Уmax(75%)= | 935373,46 |
U(0,1) = | 40713,085 |
Уmax(75%)-U(0,1) | Уmax(75%)+U(0,1) |
894660,375 | 976086,545 |
Прогноз объема выпуска продукции, если прогнозные значения фактора составляют 90% от их максимальных значений.
Оценить статистическую значимость уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента
R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».
Проверка гипотез
Прежде чем мы поговорим о том, что означает р-значение, давайте начнем с разбора проверки гипотез, где р-значение используется для определения статистической значимости наших результатов.
Наша конечная цель — определить статистическую значимость наших результатов.
И статистическая значимость построена на этих 3 простых идеях:
Другими словами, мы создадим утверждение (нулевая гипотеза) и используем пример данных, чтобы проверить, является ли утверждение действительным. Если утверждение не соответствует действительности, мы выберем альтернативную гипотезу. Все очень просто.
Чтобы узнать, является ли утверждение обоснованным или нет, мы будем использовать p-значение для взвешивания силы доказательств, чтобы увидеть, является ли оно статистически значимым. Если доказательства подтверждают альтернативную гипотезу, то мы отвергнем нулевую гипотезу и примем альтернативную гипотезу. Это будет объяснено в следующем разделе.
Давайте воспользуемся примером, чтобы сделать эту концепцию более ясной, и этот пример будет использоваться на протяжении всей этой статьи для других концепций.
Пример. Предположим, что в пиццерии заявлено, что время их доставки составляет в среднем 30 минут или меньше, но вы думаете, что оно больше чем заявленное. Таким образом, вы проводите проверку гипотезы и случайным образом выбираете время доставки для проверки утверждения:
- Нулевая гипотеза — среднее время доставки составляет 30 минут или меньше
- Альтернативная гипотеза — среднее время доставки превышает 30 минут
- Цель здесь состоит в том, чтобы определить, какое утверждение — нулевое или альтернативное — лучше подтверждается данными, полученными из наших выборочных данных.
Одним из распространенных способов проверки гипотез является использование Z-критерия. Здесь мы не будем вдаваться в подробности, так как хотим лучше понять, что происходит на поверхности, прежде чем погрузиться глубже.
Оценка параметров модели парной регрессии — КиберПедия
- Представьте, что мы живем в мире, где среднее время доставки всегда составляет 30 минут или меньше — потому что мы верим в пиццерию (наше первоначальное убеждение)!
- После анализа времени доставки собранных образцов р-значение на 0,03 ниже, чем уровень значимости 0,05 (предположим, что мы установили это значение перед нашим экспериментом), и мы можем сказать, что результат является статистически значимым.
- Поскольку мы всегда верили пиццерии, что она может выполнить свое обещание доставить пиццу за 30 минут или меньше, нам теперь нужно подумать, имеет ли это убеждение смысл, поскольку результат говорит нам о том, что пиццерия не выполняет свое обещание и результат является статистически значимым.
- Так что же нам делать? Сначала мы пытаемся придумать любой возможный способ сделать наше первоначальное убеждение (нулевая гипотеза) верным. Но поскольку пиццерия постепенно получает плохие отзывы от других людей и часто приводит плохие оправдания, которые привели к задержке доставки, даже мы сами чувствуем себя нелепо, чтобы оправдать пиццерию, и, следовательно, мы решаем отвергнуть нулевую гипотезу.
- Наконец, следующее разумное решение — не покупать больше пиццы в этом месте.
В этом смысле предпочтительнее использовать . Добавление нового регрессора увеличивает SSрег , R 2 , уменьшает числитель и знаменатель (m увеличивается на 1). Формула устроена так, что увеличится, если только достаточно значимо возрастет сумма SSрег .
Предположения линейной регрессии
Итак, для каждой наблюдаемой величины остаток равен разнице и соответствующего предсказанного Каждый остаток может быть положительным или отрицательным.
Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:
- Между и существует линейное соотношение: для любых пар данные должны аппроксимировать прямую линию. Если нанести на двумерный график остатки, то мы должны наблюдать случайное рассеяние точек, а не какую-либо систематическую картину.
- Остатки нормально распределены с нулевым средним значением;
- Остатки имеют одну и ту же вариабельность (постоянную дисперсию) для всех предсказанных величин Если нанести остатки против предсказанных величин от мы должны наблюдать случайное рассеяние точек. Если график рассеяния остатков увеличивается или уменьшается с увеличением то это допущение не выполняется;
Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать или и рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).
Основы линейной регрессии / Хабр
- a – свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).
- b – угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
- a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.
Регрессия с нами уже давно: впервые метод опубликовал Лежандр в 1805 году, хотя Гаусс пришел к нему раньше и успешно использовал для предсказания орбиты «кометы» (на самом деле карликовой планеты) Цереры. Существует множество вариантов и обобщений линейной регрессии: LAD, метод наименьших квадратов, Ridge регрессия, Lasso регрессия, ElasticNet и многие другие.
Заключение
Регрессионный анализ – сложная и трудоемкая задача, которая требует определенных математических и статистических знаний. Но с помощью стандартных инструментов Эксель ее выполнение можно значительно облегчить.
Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.
Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.
Интервальная оценка регрессионного уравнения Решать задачу будем в табличном процессоре Excel в стандартной надстройке «Пакет анализа»
- линейной (у = а + bx);
- параболической (y = a + bx + cx 2 );
- экспоненциальной (y = a * exp(bx));
- степенной (y = a*x^b);
- гиперболической (y = b/x + a);
- логарифмической (y = b * 1n(x) + a);
- показательной (y = a * b^x).
равен нулю в том и только в том случае, если перпендикулярен всем , а значит и целому . Таким образом, мы нашли два перпендикулярных линейных подпространства, линейные комбинации векторов из которых полностью, без дыр, «покрывают» все . Иногда это обозначают c помощью символа ортогональной прямой суммы
Произвольный базис
Регрессия в полиномиальном базисе. Выделенная часть кода демонстрирует использование стандартных функций scikit-learn для выполнения регрессии полиномами разной степени, снизу — визуализация результата работы.
Если мы определились с базисом, то дальше действуем следующим образом. Мы формируем матрицу информации
и находим её минимум, например с помощью псевдообратной матрицы
Заключительные замечания
1) Коэффициент детерминации модели равен . Это означает, что 603% нормы безработицы объясняется индексом реального промышленного производства. Значение не очень близко к 1, что говорит о том, что существуют и другие факторы, существенно влияющие на норму безработицы.
Оценка параметров модели парной регрессии
Выпишите полученное уравнение регрессии нормы безработицы на индекс реального объема промышленного производства. Дайте экономическую интерпретацию параметрам модели. Отобразите на графике исходные данные и результаты моделирования.
1 способ с помощью надстройки Excel Анализ данных
2 способ с помощью надстройки Excel Поиск решения
Подготовим ячейки, в которых будут рассчитываться параметры модели a и b и сумма квадратов остатков при данных a и b.
Оценка с помощью Поиск решения | |
a= | |
b= | |
Сумма квадратов остатков | 1431,51 |
Добавим к данным столбцы Прогноз и квадрат остатка
T | Норма безработицы | Индекс реального объема промышленного производства | Прогноз | Квадрат остатка |
2008 I | 6,7 | 146,07 | =C2*$I$43+$I$42 | =(B2-D2)^2 |
II | 5,8 | 146,37 | =C3*$I$43+$I$42 | =(B3-D3)^2 |
Установим целевую ячейку Сумма квадратов остатков, поиск минимального значения, изменяя ячейки a и b. В результате поиска получим:
Оценка с помощью Поиск решения | |
a= | 18,50382 |
b= | -0,08346 |
Сумма квадратов остатков | 17,43846 |
Оценки, полученные тремя способами, совпали. Уравнение модели:
С ростом индекса реального промышленного производства на 1 процентный пункт норма безработицы сокращается на 0,083 процентных пункта.
Проверить статистическую значимость регрессии в целом. Проверить статистическую значимость оценок параметров. Оценить точность модели с помощью средней относительной ошибки аппроксимации. Сделайте выводы качестве уравнения регрессии.
1) Коэффициент детерминации модели равен . Это означает, что 603% нормы безработицы объясняется индексом реального промышленного производства. Значение не очень близко к 1, что говорит о том, что существуют и другие факторы, существенно влияющие на норму безработицы.
2) Множественный коэффициент корреляции — корень из коэффициента детерминации. Для парной регрессии множественный коэффициент корреляции равен модулю парного коэффициента корреляции. Между нормой безработицы и индексом реального промышленного производства тесная связь.
3) Стандартная ошибка уравнения регрессии — является мерой разброса нормы безработицы вокруг линии регрессии. Значение небольшое по сравнению со значениями Y (от 4,9 до 8,9). Это указывает на хорошее качество модели.
5) Анализ t-статистик для коэффициентов регрессии позволяет сделать вывод о том, что на уровне значимости значимыми оказываются оценки обоих параметров (a и b), так как Р-значения для них меньше 0,05.
6) Средняя относительная ошибка аппроксимациивычисляется по формуле
Полученный результата означает, что в среднем прогноз отличается от фактического значения на 10,41%. Модель считается качественной, если средняя относительная ошибка аппроксимации не превосходит 8%.
Выводы по качеству модели: все параметры модели и модель в целом значимы. Но модель нуждается в доработке, так как имеет не очень высокий коэффициент детерминации 0,603 и среднюю относительную ошибку аппроксимации более 8%.
Описать процедуру и привести результаты проверки адекватности модели регрессии нормы безработицы на индекс реального объема промышленного производства, выбрав последнее наблюдение в качестве контрольного уровня.
Построим доверительный интервал для прогноза нормы безработицы для последнего наблюдения, т.е. при индексе промышленного производства IP_EA_Q=166,19%.
Рассчитаем нижнюю границу доверительного интервала по формуле
— критическое значение распределения Стьюдента с 34 степенями свободы уровня значимости 0,05.
Рассчитаем верхнюю границу доверительного интервала по формуле
Получили, что с вероятность 0,95 значение UNEMPL_Q_SH при
Фактическое значение уровня безработицы при IP_EA_Q =166,19% составило 5,3%. Это значение попадает в доверительный интервал. Поэтому модель адекватна.
Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого.
Папиллярные узоры пальцев рук — маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни.
Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.
© cyberpedia.su 2017-2022 — Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!
Мультилинейная регрессия
Повторение этой процедуры для различных величин позволяет построить доверительные границы для этой линии. Это полоса или область, которая содержит истинную линию, например, с 95% доверительной вероятностью.
Оценка с помощью Поиск решения | |
a= | |
b= | |
Сумма квадратов остатков | 1431,51 |