Как рассчитать эмпирическое корреляционное отношение в excel. Как рассчитать коэффициент корреляции в Excel
6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Поэтому гипотеза Н0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы. 7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза.
Коэффициент корреляции: формулы и пример расчета Excel
Начнём с того, что такое коэффициент корреляции вообще. Он показывает степень взаимосвязи между двумя элементами и всегда находится в диапазоне от -1 (сильная обратная взаимосвязь) до 1 (сильная прямая взаимосвязь). Если коэффициент равен 0, это говорит о том, что взаимосвязь между значениями отсутствует.
3.5.4 Вычислим относительную погрешность по формуле (3.5)
Виды регрессионного анализа
О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.
Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.
Открывается небольшое окошко. В нём выбираем пункт «Регрессия». Жмем на кнопку «OK».
Открывается окно настроек регрессии. В нём обязательными для заполнения полями являются «Входной интервал Y» и «Входной интервал X». Все остальные настройки можно оставить по умолчанию.
В поле «Входной интервал Y» указываем адрес диапазона ячеек, где расположены переменные данные, влияние факторов на которые мы пытаемся установить. В нашем случае это будут ячейки столбца «Количество покупателей». Адрес можно вписать вручную с клавиатуры, а можно, просто выделить требуемый столбец. Последний вариант намного проще и удобнее.
В поле «Входной интервал X» вводим адрес диапазона ячеек, где находятся данные того фактора, влияние которого на переменную мы хотим установить. Как говорилось выше, нам нужно установить влияние температуры на количество покупателей магазина, а поэтому вводим адрес ячеек в столбце «Температура». Это можно сделать теми же способами, что и в поле «Количество покупателей».
После того, как все настройки установлены, жмем на кнопку «OK».
Корреляция в excel
- линейной (у = а + bx);
- параболической (y = a + bx + cx 2 );
- экспоненциальной (y = a * exp(bx));
- степенной (y = a*x^b);
- гиперболической (y = b/x + a);
- логарифмической (y = b * 1n(x) + a);
- показательной (y = a * b^x).
Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.
Ложные корреляции
Дело в том, что с помощью коэффициента корреляции можно проверить на взаимосвязь любые явления, которые можно выразить в числовом выражении. То есть, реально любые — например количество свадеб в Нью-Йорке и объем импорта нефти в США из Норвегии:
tylervigen.com — если знаете английский, сможете отыскать на сайте
еще больше странных корреляций
Корреляция составила 86%! Действительно ли свадьбы влияют на экспорт нефти? Разумеется, нет — подобная зависимость совершенно случайна. Именно так выглядит ловушка ложной корреляции — она может показать взаимосвязь там, где её на самом деле нет.
Корреляционный анализ в Excel: 2 рабочих варианта
2.Создать столбцы с данными. В нашем примере мы будем считать взаимосвязь, или корреляцию, между агрессивностью и неуверенностью в себе у детей-первоклассников. В эксперименте участвовали 30 детей, данные представлены в таблице эксель:
Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки
В сегодняшней статье речь пойдет о том, как переменные могут быть связаны друг с другом. С помощью корреляции мы сможем определить, существует ли связь между первой и второй переменной. Надеюсь, это занятие покажется вам не менее увлекательным, чем предыдущие!
Корреляция измеряет мощность и направление связи между x и y. На рисунке представлены различные типы корреляции в виде графиков рассеяния упорядоченных пар (x, y). По традиции переменная х размещается на горизонтальной оси, а y — на вертикальной.
График А являет собой пример положительной линейной корреляции: при увеличении х также увеличивается у, причем линейно. График В показывает нам пример отрицательной линейной корреляции, на котором при увеличении х у линейно уменьшается. На графике С мы видим отсутствие корреляции между х и у. Эти переменные никоим образом не влияют друг на друга.
Наконец, график D — это пример нелинейных отношений между переменными. По мере увеличения х у сначала уменьшается, потом меняет направление и увеличивается.
Оставшаяся часть статьи посвящена линейным взаимосвязям между зависимой и независимой переменными.
Коэффициент корреляции
Сила связи между х и у определяется близостью коэффициента корреляции к — 1.0 или +- 1.0. Изучите следующий рисунок.
График A показывает идеальную положительную корреляцию между х и у при r = + 1.0. График В — идеальная отрицательная корреляция между х и у при r = — 1.0. Графики С и D — примеры более слабых связей между зависимой и независимой переменными.
Коэффициент корреляции, r, определяет, как силу, так и направление связи между зависимой и независимой переменными. Значения r находятся в диапазоне от — 1.0 (сильная отрицательная связь) до + 1.0 (сильная положительная связь). При r= 0 между переменными х и у нет никакой связи.
Мы можем вычислить фактический коэффициент корреляции с помощью следующего уравнения:
Как видите, между числом часов, посвященных изучению предмета, и экзаменационной оценкой существует весьма сильная положительная корреляция. Преподаватели будут весьма рады узнать об этом.
Какова выгода устанавливать связь между подобными переменными? Отличный вопрос. Если обнаруживается, что связь существует, мы можем предугадать экзаменационные результаты на основе определенного количества часов, посвященных изучению предмета. Проще говоря, чем сильнее связь, тем точнее будет наше предсказание.
Использование Excel для вычисления коэффициентов корреляции
Я уверен, что, взглянув на эти ужасные вычисления коэффициентов корреляции, вы испытаете истинную радость, узнав, что программа Excel может выполнить за вас всю эту работу с помощью функции КОРРЕЛ со следующими характеристиками:
Например, на рисунке показана функция КОРРЕЛ, используемая при вычислении коэффициента корреляции для примера с экзаменационной оценкой.
Как рассчитать эмпирическое корреляционное отношение в excel. Как рассчитать коэффициент корреляции в Excel
- На экране появилось окошко настроек анализа. В строчку «Входной интервал» необходимо ввести диапазон абсолютно всех колонок, принимающих участие в анализе. В рассматриваемом примере — это столбики «Величина продаж» и «Затраты на рекламу». В настройках отображения вывода изначально выставлен параметр «Новый рабочий лист», что означает показ результатов на другом листе. По желанию можно поменять локацию вывода результата. После проведения всех настроек нажимаем на «ОК».
Такой способ отображения данных позволяет быстро оценить влияние, а коэффициент корреляции отображает силу зависимости. Однако делать окончательный вывод на основе корреляционных исследований не рекомендуется, необходимо проводить дополнительный анализ влияющих факторов.
Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности. Обосновать отбор факторов в модель
1. Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности. Обосновать отбор факторов в модель.
2. Построить уравнение множественной регрессии в линейной форме с выбранными факторами.
3. Оценить статистическую значимость уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента.
4. Построить уравнение регрессии со статистически значимыми факторами. Оценить качество уравнения регрессии с помощью коэффициента детерминации R 2 . Оценить точность построенной модели.
5. Оценить прогноз объема выпуска продукции, если прогнозные значения факторов составляют 75% от их максимальных значений.
По данным, представленным в таблице 1 (n =17), изучается зависимость объема выпуска продукции Y (млн. руб.) от следующих факторов (переменных):
X1 – численность промышленно-производственного персонала, чел.
X2 – среднегодовая стоимость основных фондов, млн. руб.
X5 – техническая вооруженность одного рабочего, млн. руб.
X6 – выработка товарной продукции на одного работающего, руб.
№ | Y | X1 | X2 | X3 | X4 | X5 | X6 |
39,5 | 4,9 | 3,2 | |||||
46,4 | 60,5 | 20,4 | |||||
43,7 | 24,9 | 9,5 | |||||
35,7 | 50,4 | 34,7 | |||||
41,8 | 5,1 | 17,9 | |||||
49,8 | 35,9 | 12,1 | |||||
44,1 | 48,1 | 18,9 | |||||
48,1 | 69,5 | 12,2 | |||||
47,6 | 31,9 | 8,1 | |||||
58,6 | 139,4 | 29,7 | |||||
70,4 | 16,9 | 5,3 | |||||
37,5 | 17,8 | 5,6 | |||||
62,0 | 27,6 | 12,3 | |||||
34,4 | 13,9 | 3,2 | |||||
35,4 | 37,3 | 19,0 | |||||
40,8 | 55,3 | 19,3 | |||||
48,1 | 35,1 | 12,4 |
Построить матрицу парных коэффициентов корреляции. Проверить наличие мультиколлинеарности. Обосновать отбор факторов в модель
В таблице 2 представлена матрица коэффициентов парной корреляции для всех переменных, участвующих в рассмотрении. Матрица получена с помощью инструмента Корреляция из пакета Анализ данных в Excel.
Y | X1 | X2 | X3 | X4 | X5 | X6 |
Y | ||||||
X1 | 0,995634 | |||||
X2 | 0,996949 | 0,994947 | ||||
X3 | -0,25446 | -0,27074 | -0,26264 | |||
X4 | 0,12291 | 0,07251 | 0,107572 | 0,248622 | ||
X5 | 0,222946 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | |
X6 | 0,067685 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
1) У имеет довольно высокие парные корреляции с переменными Х1, Х2 (>0,5) и низкие с переменными Х3,Х4,Х5,Х6 (<0,5);
2) Переменные анализа Х1, Х2 демонстрируют довольно высокие парные корреляции, что обуславливает необходимость проверки факторов на наличие между ними мультиколлинеарности. Тем более, что одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.
Для выявления мультиколлинеарности факторов выполним тест Фаррара-Глоубера по факторам Х1,Х2,Х3,Х4,Х5,Х6.
Проверка теста Фаррара-Глоубера на мультиколлинеарность факторов включает несколько этапов.
1) Проверка наличия мультиколлинеарности всего массива переменных.
Одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных. Для выявления мультиколлинеарности между факторами вычисляется матрица межфакторных корреляций R с помощью Пакета анализа данных (таблица 3).
X1 | X2 | X3 | X4 | X5 | X6 |
X1 | 0,994947 | -0,27074 | 0,07251 | 0,166919 | -0,00273 |
X2 | 0,994947 | -0,26264 | 0,107572 | 0,219914 | 0,041955 |
X3 | -0,27074 | -0,26264 | 0,248622 | -0,07573 | -0,28755 |
X4 | 0,07251 | 0,107572 | 0,248622 | 0,671386 | 0,366382 |
X5 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | 0,600899 |
X6 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Между факторами Х1 и Х2, Х5 и Х4, Х6 и Х5 наблюдается сильная зависимость (>0,5).
Определитель det (R) = 0,001488 вычисляется с помощью функции МОПРЕД. Определитель матрицы R стремится к нулю, что позволяет сделать предположение об общей мультиколлинеарности факторов.
2) Проверка наличия мультиколлинеарности каждой переменной с другими переменными:
· Вычислим обратную матрицу R -1 с помощью функции Excel МОБР (таблица 4):
X1 | X2 | X3 | X4 | X5 | X6 | |
X1 | 150,1209 | -149,95 | 3,415228 | -1,70527 | 6,775768 | 4,236465 |
X2 | -149,95 | 150,9583 | -3,00988 | 1,591549 | -7,10952 | -3,91954 |
X3 | 3,415228 | -3,00988 | 1,541199 | -0,76909 | 0,325241 | 0,665121 |
X4 | -1,70527 | 1,591549 | -0,76909 | 2,218969 | -1,4854 | -0,213 |
X5 | 6,775768 | -7,10952 | 0,325241 | -1,4854 | 2,943718 | -0,81434 |
X6 | 4,236465 | -3,91954 | 0,665121 | -0,213 | -0,81434 | 1,934647 |
· Вычисление F-критериев , где – диагональные элементы матрицы , n=17, k = 6 (таблица 5).
F1 (Х1) | F2 (Х2) | F3 (Х3) | F4 (Х4) | F5 (Х5) | F6 (Х6) |
89,29396 | 89,79536 | 0,324071 | 0,729921 | 1,163903 | 0,559669 |
· Фактические значения F-критериев сравниваются с табличным значением Fтабл= 3,21 (FРАСПОБР(0,05;6;10)) при n1= 6 и n2 = n — k – 1=17-6-1=10 степенях свободы и уровне значимости α=0,05, где k – количество факторов.
· Значения F-критериев для факторов Х1 и Х2 больше табличного, что свидетельствует о наличии мультиколлинеарности между данными факторами. Меньше всего влияет на общую мультиколлинеарность факторов фактор Х3.
3) Проверка наличия мультиколлинеарности каждой пары переменных
· Вычислим частные коэффициенты корреляции по формуле , где – элементы матрицы (таблица 6)
Таблица 6. Матрица коэффициентов частных корреляций
X1 | X2 | X3 | X4 | X5 | X6 |
X1 | |||||
X2 | 0,996086 | ||||
X3 | -0,22453 | 0,197329 | |||
X4 | 0,093432 | -0,08696 | 0,415882 | ||
X5 | -0,32232 | 0,337259 | -0,1527 | 0,581191 | |
X6 | -0,24859 | 0,229354 | -0,38519 | 0,102801 | 0,341239 |
Таблица 7.t-критерии для коэффициентов частной корреляции
X1 | X2 | X3 | X4 | X5 | X6 |
X1 | |||||
X2 | 35,6355 | ||||
X3 | -0,72862 | 0,636526 | |||
X4 | 0,296756 | -0,27604 | 1,446126 | ||
X5 | -1,07674 | 1,13288 | -0,4886 | 2,258495 | |
X6 | -0,81158 | 0,745143 | -1,31991 | 0,326817 | 1,147999 |
Фактические значения t-критериев сравниваются с табличным значением при степенях свободы n-k-1 = 17-6-1=10 и уровне значимости α=0,05;
Из таблиц 6 и 7 видно, что две пары факторов X1 и Х2, Х4 и Х5 имеют высокую статистически значимую частную корреляцию, то есть являются мультиколлинеарными. Для того чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных коллинеарной пары. В паре Х1 и Х2 оставляем Х2, в паре Х4 и Х5 оставляем Х5.
Таким образом, в результате проверки теста Фаррара-Глоубера остаются факторы: Х2, Х3, Х5, Х6.
Завершая процедуры корреляционного анализа, целесообразно посмотреть частные корреляции выбранных факторов с результатом Y.
Построим матрицу парных коэффициентов корреляции, исходя из данных таблицы 8.
Таблица 8. Данные выпуска продукции с отобранными факторами Х2, Х3, Х5, Х6.
№ наблю-дения | Y | X2 | X3 | X5 | X6 |
39,5 | 3,2 | ||||
46,4 | 20,4 | ||||
43,7 | 9,5 | ||||
35,7 | 34,7 | ||||
41,8 | 17,9 | ||||
49,8 | 12,1 | ||||
44,1 | 18,9 | ||||
48,1 | 12,2 | ||||
47,6 | 8,1 | ||||
58,6 | 29,7 | ||||
70,4 | 5,3 | ||||
37,5 | 5,6 | ||||
12,3 | |||||
34,4 | 3,2 | ||||
35,4 | |||||
40,8 | 19,3 | ||||
48,1 | 12,4 |
В последнем столбце таблицы 9 представлены значения t-критерия для столбца У.
Таблица 9.Матрица коэффициентов частной корреляции с результатом Y
Y | X2 | X3 | X5 | X6 | t критерий (tтабл(0,05;11)= 2,200985 |
Y | 0,996949 | -0,25446 | 0,222946 | 0,067685 | |
X2 | 0,996949 | -0,26264 | 0,219914 | 0,041955 | 44,31676 |
X3 | -0,25446 | -0,26264 | -0,07573 | -0,28755 | 0,916144 |
X5 | 0,222946 | 0,219914 | -0,07573 | 0,600899 | -0,88721 |
X6 | 0,067685 | 0,041955 | -0,28755 | 0,600899 | 1,645749 |
Из таблицы 9 видно, что переменная Y имеет высокую и одновременно статистически значимую частную корреляцию с фактором Х2.
Корреляционный анализ как сделать в excel
Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.
Y | X1 | X2 | X3 | X4 | X5 | X6 |
Y | ||||||
X1 | 0,995634 | |||||
X2 | 0,996949 | 0,994947 | ||||
X3 | -0,25446 | -0,27074 | -0,26264 | |||
X4 | 0,12291 | 0,07251 | 0,107572 | 0,248622 | ||
X5 | 0,222946 | 0,166919 | 0,219914 | -0,07573 | 0,671386 | |
X6 | 0,067685 | -0,00273 | 0,041955 | -0,28755 | 0,366382 | 0,600899 |
Примеры использования
Рассмотрим несколько задач, чтобы понять принцип работы статистической функции.
Пример 1. В фирме есть бюджет на рекламную кампанию в месяц, а также есть объем продаж продукта, необходимо посчитать зависимость этих величин.
В произвольной ячейке записываете формулу со ссылкой на два диапазона и получаете число.
Результат близок к единице, значит между рекламой и продажами продукта существует сильная прямая зависимость.
Пример 2.
Есть показатели продаж мебели за квартал, а также изменение цены на товар за тот же период времени.
В данном случае коэффициент корреляции стремится к -1, что говорит о сильной обратной зависимости. То есть с увеличением цены товара, продажи падают.
Пример 3.
Имеются затраты на квартиру и еду за три месяца, необходимо вычислить зависимость этих статей расхода друг от друга.
Полученный результат говорит о слабой связи этих категорий.
— коэффициент корреляции;
— проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 ;
— коэффициенты уравнения линейной регрессии;
— диаграмму рассеяния (корреляционное поле) и график линии регрессии;
Функция ПИРСОН пошаговая инструкция
- Если значение близко к 1 или -1, то существует сильная прямая или обратная связь между величинами.
- Коэффициент около 0,5 или -0,5 говорит о том, что между массивами слабая взаимосвязь.
- Если получается число близкое к нулю, то величины не связаны между собой.
Профессиональному инвестору может понадобиться рассчитать сотни корреляций, так что вариант по формуле не подходит. Естественно, эта задача уже давно автоматизирована, и, как по мне, проще всего рассчитать коэффициент корреляции в Excel.