Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

Корелляционно-регрес.анализ (Excel)

Корреляционная связь — это неполная, вероятностная зависимость между показателями, которая проявляется только в массе наблюдений.

Парная корреляция — это связь между двумя показателями, один из которых является факторным, а другой — результативным.

Множественная корреляция возникает от взаимодействия нескольких факторов с результативным показателем.

Необходимые условия применения корреляционного анализа:

1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей.

2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.

Применение корреляционного анализа позволяет решить следующие задачи:

1.Определить изменение результативного показателя под воздействием одного или нескольких факторов.

2. Установить относительную степень зависимости результативного показателя от каждого фактора.

Имеются данные по 20 сельскохозяйственным хозяйствам. Найти коэффициент корреляции между величинами урожайности зерновых культур и качеством земли и оценить его значимость. Данные приведены в таблице.

Таблица. Зависимость урожайности зерновых культур от качества земли

Для нахождения коэффициента корреляции использовать функцию КОРРЕЛ.

Значимость коэффициента корреляции проверяется по критерию Стьюдента.

Для нахождения квантиля распределения Стьюдента используется функция СТЬЮДРАСПОБР со следующими аргументам: Вероятность –0,05, Степени свободы –18.

Сравнив значение t-статистики с квантилем распределения Стьюдента сделать выводы о значимости коэффициента парной корреляции. Если расчетное значение t-статистики больше квантиля распределения Стьюдента, то величина коэффициента корреляции является значимой.

ПОСТРОЕНИЕ РЕГРЕССИОННОЙ МОДЕЛИ СВЯЗИ МЕЖДУ ДВУМЯ ВЕЛИЧИНАМИ

1) построить уравнение регрессии (линейную модель), которое характеризует прямолинейную зависимость между качеством земли и урожайностью;

2). выполнить проверку адекватности полученной модели.

1. На листе Excel выделить массив свободных ячеек из пяти строк и двух столбцов.

3.Указать для функции следующие аргументы: Изв_знач_y— столбец значений показателя Урожайность, ц/га; Изв_знач_x— столбец значений показателя Качество земли, балл; Константа –1, Стат– 1 (позволяет вычислить показатели, используемые для проверки адекватности модели. Если Стат– 0, то такие показатели вычисляться не будут.

4. Нажать комбинацию клавиш CtrlShiftEnter.

В выделенные ячейки выводятся коэффициенты модели, а также показатели, позволяющие проверить модель на адекватность (таблица 2).

a1, a0 – коэффициенты модели;

Se1 Se0 – стандартные ошибки коэффициентов. Чем точнее модель, тем меньше эти величины.

R 2 – коэффициент детерминации. Чем он больше, тем точнее модель.

nk-1– число степеней свободы (n-объем выборки, k- количество входных переменных; в данном примере n=20, к=1)

QR – сумма квадратов, обусловленная регрессией;

5. Для проверки адекватности модели найти квантиль распределения Фишера Ff. с помощью функции FРАСПОБР. Для этого в любой свободной ячейке ввести функцию FРАСПОБР со следующими аргументами: Вероятность – 0,05, Степени_свободы_1–1, Степени_свободы_2–18. Если F> Ff, то модель адекватна исходным данным

6. Проверить адекватность построенной модели, используя расчетный уровень значимости (P). Ввести функцию FРАСП со следующими аргументами: X– значение статистики F, Степени_свободы_1 –1, Степени_свободы_2 – 18. Если расчетный уровень значимости P

Определение коэффициентов модели с получением показателей для проверки ее адекватности и значимости коэффициентов.

Выбрать команду Сервис/Анализ данных/Регрессия. В диалоговом окне установить: Входной интервал Y – значения показателя Урожайность, ц/га, Входной интервал X – значения показателя Качество земли, балл.

Установить флажок Метки. В области Параметры вывода выбрать переключатель Выходной интервал и указать ячейку, с которой будет начинаться вывод результатов. Для получения результатов нажать кнопку ОК.

Искомые коэффициенты модели находятся в столбце Коэффициенты:

В данном примере с увеличением качества почвы на один балл, урожайность зерновых культур повышается в среднем на 0,5 ц/га.

Проверка адекватности модели выполняется по расчетному уровню значимости P, указанному в столбце Значимость F. Если расчетный уровень значимости меньше заданного уровня значимости α =0,05, то модель адекватна.

Проверка статистической значимости коэффициентов модели выполняется по расчетным уровням значимости P, указанным в столбце P-значение. Если расчетный уровень значимости меньше заданного уровня значимости α =0,05, то соответствующий коэффициент модели статистически значим.

Множественный Rкоэффициент корреляции. Чем ближе его величина к 1, тем более тесная связь между изучаемыми показателями. Для данного примера R= 0,99. Это позволяет сделать вывод, что качество земли – один из основных факторов, от которого зависит урожайность зерновых культур.

R-квадраткоэффициент детерминации. Он получается возведением в квадрат коэффициента корреляции – R 2 =0,98. Он показывает, что урожайность зерновых культур на 98% зависит от качества почвы, а на долю других факторов приходится 0,02%.

3-ий способ. ГРАФИЧЕСКИЙ СПОСОБ ПОСТРОЕНИЯ МОДЕЛИ.

Самостоятельно построить точечную диаграмму, отражающую связь между урожайностью и качеством земли.

Получить линейную модель зависимости урожайности зерновых культур от качества земли.

специалист
Мнение эксперта
Витальева Анжела, консультант по работе с офисными программами
Со всеми вопросами обращайтесь ко мне!
Задать вопрос эксперту
После нажатия ОК в появившемся диалоговом окне указываем входной интервал в нашем примере А2 D26 , группирование в нашем случае по столбцам и параметры вывода, как показано на рисунке 31. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!
График A показывает идеальную положительную корреляцию между х и у при r = + 1.0. График В — идеальная отрицательная корреляция между х и у при r = — 1.0. Графики С и D — примеры более слабых связей между зависимой и независимой переменными.

Пример выполнения задания с помощью пакета анализа Excel

Задача существенно упрощается при использовании средств Ex­cel. Операции, предписанные формулой (3) целесообразно проводить с помощью следующих встроенных в Excel функций:

Назначение корреляционного анализа

Важно! При 0-м коэффициенте зависимости между величинами нет.

Корреляционный анализ – популярный метод статистического исследования, который используется для выявления степени зависимости одного показателя от другого. В Microsoft Excel имеется специальный инструмент, предназначенный для выполнения этого типа анализа. Давайте выясним, как пользоваться данной функцией.

З (Excel)
R-квадраткоэффициент детерминации. Он получается возведением в квадрат коэффициента корреляции – R 2 =0,98. Он показывает, что урожайность зерновых культур на 98% зависит от качества почвы, а на долю других факторов приходится 0,02%.
специалист
Мнение эксперта
Витальева Анжела, консультант по работе с офисными программами
Со всеми вопросами обращайтесь ко мне!
Задать вопрос эксперту
Если расчетный уровень значимости меньше заданного уровня значимости α 0,05, то соответствующий коэффициент модели статистически значим. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!
Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);»Величины не взаимосвязаны»)’ Получаем следующие результаты:
Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

Задача №3. Расчёт параметров регрессии и корреляции с помощью Excel

  1. Открылось окошко аргументов. В строку «Массив1» необходимо ввести координаты интервалы 1-го из значений. В рассматриваемом примере — это столбец «Величина продаж». Нужно просто произвести выделение всех ячеек, которые находятся в этой колонке. В строку «Массив2» аналогично необходимо добавить координаты второй колонки. В рассматриваемом примере — это столбец «Затраты на рекламу».

Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.

Решение:

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Поле корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

Линейная функция

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН.

Диалоговое окно «Мастер функций»

Известные значения у – диапазон, содержащий данные результативного признака;

Известные значения х – диапазон, содержащий данные факторного признака;

Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Диалоговое окно аргументов функции ЛИНЕЙН

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Коэффициент детерминации R 2 Стандартная ошибка y
F-статистика Число степеней свободы df
Регрессионная сумма квадратов

Факторная сумма квадратов

Остаточная сумма квадратов

Результат вычисления функции ЛИНЕЙН

Уравнение линейной регрессии

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Коэффициент детерминации

3. Коэффициент детерминации означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума, а 48% — действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Уравнение линейной регрессии

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средний показатель эластичности

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее, и то же самое произведём со значениями у.

Расчёт средних значений функции и аргумента

Рисунок 5 Расчёт средних значений функции и аргумент

Расчёт среднего показателя эластичности

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
— результаты регрессионной статистики,
— результаты дисперсионного анализа,
— результаты доверительных интервалов,
— остатки и графики подбора линии регрессии,
— остатки и нормальную вероятность.

1) проверьте доступ к Пакету анализа. В главном меню последовательно выберите: Файл/Параметры/Надстройки.

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа, а затем нажмите кнопку ОК.

• Если Пакет анализа отсутствует в списке поля Доступные надстройки, нажмите кнопку Обзор, чтобы выполнить поиск.

• Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да, чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия, а затем нажмите кнопку ОК.

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные факторного признака;

Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа – ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист – можно задать произвольное имя нового листа.

Диалоговое окно ввода параметров инструмента Регрессия

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Результат применения инструмента регрессия

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Результат применения инструмента регрессия «Вывод остатка»

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Относительная ошибка аппроксимации

Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Формула и расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации

Качество построенной модели оценивается как хорошее, так как не превышает 8 – 10%.

Фактическое значение F-критерия

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Табличное значение F-критерия

Фактическое значение F-критерия больше табличного

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н0 о статистически незначимом отличии показателей от нуля:

параметры уравнения и коэффициент корреляции равны нулю

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

Расчётные значения t-критерия для параметров регрессии

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

Расчётное значение t-критерия для коэффициента корреляции

I способ:

Случайная ошибка коэффициента корреляции

где – случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

Расчёт t-критерия для коэффициента корреляции

Расчёт t-статистики для коэффициента корреляции

II способ:

Фактические значения t-статистики превосходят табличные значения:

Сравнение расчётных и табличных значений t-критерия

Сравнение фактического и табличного t-критерия для показателя корреляции

Поэтому гипотеза Н0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Формула расчёта доверительного интервала для параметра а

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для параметра а

Доверительный интервал для коэффициента регрессии определяется как

Формула расчёта доверительного интервала коэффициента регрессии

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии

Значение вероятности

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Расчёт прогнозного значения фактора

Тогда прогнозное значение прожиточного минимума составит:

Расчёт прогнозного значения результата

Формула средней ошибки прогнозируемого индивидуального значения у

Сумма квадратов отклонений фактического значения от среднего

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций: в главном меню выберете Формулы / Вставить функцию.

2) В окне Категория выберете Статистические, в окне функция – ДИСП.Г. Щёлкните по кнопке ОК.

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК.

Расчёт дисперсии

Дисперсия фактора

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Формула и расчёт остаточной дисперсии на одну степень свободы

Расчёт средней ошибки прогнозируемого индивидуального значения у

Прогнозное значение фактора

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Формула доверительного интервала прогноза индивидуальных значений у

Расчёт доверительных интервалов прогноза индивидуальных значений у

Доверительный интервал прогноза

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2003. – 192 с.: ил.

Регрессионная статистика в excel расшифровка. Корреляционно-регрессионный анализ в MS EXCEL
Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:
специалист
Мнение эксперта
Витальева Анжела, консультант по работе с офисными программами
Со всеми вопросами обращайтесь ко мне!
Задать вопрос эксперту
0,7;ЕСЛИ КОРРЕЛ A3 A8;B3 B8 0,7; Сильная прямая зависимость ; Сильная обратная зависимость ; Слабая зависимость или ее отсутствие. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!
Коэффициент корреляции используется в том случае, когда нужно определить значение зависимости между значениями. Позже эти данные задают в одной таблице которая определяется как матрица корреляции. С помощью программы Microsoft Excel можно сделать расчёт корреляции.

Корреляционный анализ в Excel. Пример выполнения корреляционного анализа

Множественный коэффициент детерминации показывает долю вариации результативного признака под воздействием включенных в модель факторов Х2 и Х5. Т.о., около 86 % вариации зависимой пере­менной (объема реализации) в построенной модели обусловлено влиянием включенных факторов Х2 (расходы на рекламу) и Х5 (индекс потребительских расходов).

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Коэффициент детерминации R 2 Стандартная ошибка y
F-статистика Число степеней свободы df
Регрессионная сумма квадратов

Регрессионный анализ в excel

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

константа – устанавливается на 0, если заранее известно, что свободный член равен 0 и на 1 в противном случае;

стат – устанавливается на 0, если не нужен вывод дополнительных сведений регрессионного анализа и на 1 в противном случае.

Оценка параметров модели парной и множественной линейной регрессии.

Для вычисления параметров уравнения регрессии следует воспользоваться инструментом Регрессия

Возвращает подробную информацию о параметрах модели, качестве модели, расчетных значениях и остатках в виде четырех таблиц: Регрессионная статистика, Дисперсионный анализ, Коэффициенты, ВЫВОД ОСТАТКА.

Оценка значимости параметров модели линейной регрессии с использованием t — критерия Стьюдента.

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

,

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

Вычисленное по этой формуле значение сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы (n-k-1), где k количество факторов в модели.

Вероятность — вероятность, соответствующая двустороннему распределению Стьюдента.

Степени_свободы — число степеней свободы, характеризующее распределение.

Возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы.

Проверка значимости модели регрессии с использованием

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

FРАСПОБР(вероятность;степени_свободы1;степени_свободы2)

Вероятность — это вероятность, связанная с F-распределением.

Степени_свободы 1 — это числитель степеней свободы-1k.

Степени_свободы 2 — это знаменатель степеней свободы-.2(n — k 1),

Возвращает обратное значение для F-распределения вероятностей.

FРАСПОБР можно использовать, чтобы определить критические значения F-распределения.

Корреляционно Регрессионный Анализ в Excel Инструкция Выполнения • Топ 5 самых популярных etf

Чтобы определить критическое значение F, нужно использовать уровень значимости как аргумент вероятность для FРАСПОБР.

специалист
Мнение эксперта
Витальева Анжела, консультант по работе с офисными программами
Со всеми вопросами обращайтесь ко мне!
Задать вопрос эксперту
Вычисленное по этой формуле значение сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы n- k -1 , где k количество факторов в модели. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!
что свидетельствует о наличии коллинеарости. Из этих двух пере­менных оставим в модели Х5 — индекс расходов. Пе­ременные X1 (время), X3 (цена изделия) и Х4 (цена отрасли) также исключаем из модели, т.к. связь их с результативным признаком Y (объемом реализации) невысокая.

Справочные материалы для выполнения расчетов Корреляционный анализ в excel

Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака «стаж работы в годах» имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод — метод квадратов.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: