Содержание

Мультиколлинеарность

Серьезной проблемой при построении моделей множественной регрессии по МНК является мультиколлинеарность, представляющая собой линейную взаимосвязь двух или нескольких объясняющих переменных.

Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки и малую значимость, в то время как модель в целом является значимой (высокое значение R 2 ).

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Многомерный статистический анализ в экономических задачах компьютерное моделирование в SPSS учебное пособие Международный журнал прикладных и фундаментальных исследований. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

1. Гусарова О.М. Моделирование результатов бизнеса в менеджменте организации // В сборнике: Перспективы развития науки и образования сборник научных трудов по материалам Международной научно-практической конференции. – Тамбов, 2014. – С. 42–43.

Мультиколлинеарность — это. Что такое Мультиколлинеарность?

Показатели α и β являются коэффициентами частной эластичности объема производства Y соответственно по затратам капитала К и труда L. Это означает, что при увеличении одних только затрат капитала (труда) на 1% объем производства увеличится на α% (β%).

1. Мультиколлинеарность

Под строгой мультиколлинеарностью понимается ситуация, когда между регрессорами в модели есть точная линейная связь, т.е. когда одна объясняющая переменная точным образом линейно выражается через другие.

Представим, например, что при анализе макроэкономической модели в качестве переменных в неё включили экспорт, импорт и чистый экспорт. Чистый экспорт равен разности между экспортом и импортом и, следовательно, при включении в модель этих трёх переменных окажется, что регрессоры модели линейно выражаются друг через друга.

В терминах матричной записи точная мультиколлинеарность предполагает линейную зависимость столбцов матрицы регрессоров, откуда следует неполный ранг матрицы регрессоров. Это означает, что при полной мультиколлинеарности невозможно вычислить МНК-оценки коэффициентов, потому что матрица является вырожденной, и матрица не определена.

Из определения и из приведенного выше примера легко догадаться, как можно решить проблему строгой мультиколлинеарности. Для этого следует исключить лишнюю переменную. Например, если в модели уже учтены экспорт и импорт, то понятно, что включение ещё и чистого экспорта не принесет никакой дополнительной информации, и этой третьей переменной можно безболезненно пожертвовать.

Современные эконометрические пакеты при возникновении чистой мультиколлинеарности сами избавляются от одной из линейно зависимых переменных, чтобы вычисление МНК-оценок стало технически возможным.

Частичная мультиколлинеарность не нарушает ни одну из предпосылок классической линейной модели множественной регрессии и поэтому не приводит к смещению оценок коэффициентов модели.

Есть несколько способов выявить мультиколлинеарность на этапе предварительного анализа данных (то есть ещё до оценки параметров уравнения регрессии). О наличии существенной частичной мультиколлинеарности в модели говорят:

где — это коэффициент детерминации из оцененной вспомогательной регрессии.

Если коэффициенты VIF для всех регрессоров оказались меньше 10, это значит, что существенной мультиколлинеарности в модели не наблюдается. В противном случае стоит сделать вывод о том, что в модели есть мультиколлинеарность.

Пример 4.1. Мультиколлинеарность.

На этапе предварительного анализа данных он оценил следующие вспомогательные уравнения:

Что можно сказать о наличии мультиколлинеарности в исходной модели?

Коэффициенты VIF для переменных равны, соответственно: , и . Так как некоторые из коэффициентов больше 10, можно заключить, что в модели присутствует существенная мультиколлинеарность.

Некоторые признаки мультиколлинеарности можно увидеть уже после оценки параметров модели. Перечислим их:

— Неустойчивость результатов. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов. Например, если после оценки уравнения по 200 наблюдениям вы исключили из выборки несколько точек, оценили модель заново и обнаружили сильное изменение результатов.

— Незначимость большинства переменных. Каждая переменная в отдельности является незначимой, а уравнение в целом является значимым и характеризуется близким к единице коэффициентом .

Что можно предпринять, если вы столкнулись с негативными последствиями мультиколлинеарности в вашей модели? Существует несколько путей решения этой проблемы.

Если есть возможность увеличить количество наблюдений, то это отличный вариант, так как больший размер выборки увеличит точность результатов, компенсировав её потерю из-за мультиколлинеарности.

Использование альтернативных (нелинейных) форм зависимостей в некоторых случаях также может снизить остроту проблемы мультиколлинеарности. Оценивание такого рода моделей мы обсудим в конце данной главы.

Некоторые специфические инструменты, которые иногда тоже могут быть полезны в борьбе с мультиколлинеарностью, обсуждаются в рамках курсов машинного обучения и многомерного статистического анализа. См.: метод главных компонент, LASSO и ridge-регрессии, метод эластичной сети.↩︎

10 Мультиколлинеарность - Мультиколлинеарность

Фиктивные переменные включаются в модель множественной регрессии, если необходимо узнать влияние каких-нибудь дискретных факторов, например, числа человек в семье, месяца года, цвета окраски машины и т.п.

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Исследуется зависимость между доходом и потреблением в какой-либо стране, например Бельгии, и выборка включает как франкоговорящие семьи, так и семьи, говорящие по-фламандски. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

Мультиколлинеарность может проявляться и при отсутствии явных парных корреляционных зависимостей между переменными, так как мультиколлинеарность – ситуация линейной зависимости между объясняющими переменными. Однако вовсе необязательно эта зависимость должна быть парной.

ВЫБОР ЭКЗОГЕННЫХ ФАКТОРОВ В МОДЕЛЬ РЕГРЕССИИ ПРИ МУЛЬТИКОЛЛИНЕАРНОСТИ ДАННЫХ — Международный журнал прикладных и фундаментальных исследований (научный журнал)

При этом следует помнить, что в модели множественной регрессии всегда желательно присутствие хоть одной не фиктивной переменной, так как дисперсия фиктивной переменной очень мала и это сказывается достоверности оценок.

Обнаружение мультиколлинеарности

ПРИМЕР. Задача состоит в построении модели для предсказания объема реализации одного из
продуктов кондитерской фирмы.
Объем реализации – это зависимая переменная Y(млн. руб.) В качестве независимых, объясняющих
переменных выбраны: время — X1, расходы на рекламу X 2 (тыс. руб.), цена товара X3 (руб.), средняя
цена товара у конкурентов X4 (руб.), индекс потребительских расходов X5 (%).

Этот алгоритм содержит три вида статистических
критериев проверки наличия
мультиколлинеарности:
1) всего массива переменных (критерий «хиквадрат»);
2) каждой переменной с другими переменными (Fкритерий);
3) каждой пары переменных (t-тест).

Мнение эксперта

Витальева Анжела, консультант по работе с офисными программами

Со всеми вопросами обращайтесь ко мне!

Задать вопрос эксперту

Для обнаружения мультиколлинеарности признаков в программе Gretl выдаются значения факторов инфляции дисперсии Метод инфляционных факторов и таблица диагностики коллинеарности Belsley-Kuh-Welsch 6 табл. Если же вам нужны дополнительные объяснения, обращайтесь ко мне!

Для обнаружения мультиколлинеарности признаков в программе Gretl выдаются значения факторов инфляции дисперсии (Метод инфляционных факторов) и таблица диагностики коллинеарности Belsley-Kuh-Welsch [6] (табл. 1), в которой каждая строка соответствует своему индексу обусловленности η_j, а элементы строки – значения q_ij.. Сумма элементов по столбцам равна 1.