Мультиколлинеарность
Серьезной проблемой при построении моделей множественной регрессии по МНК является мультиколлинеарность, представляющая собой линейную взаимосвязь двух или нескольких объясняющих переменных.
Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:
1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
2) оценки имеют большие стандартные ошибки и малую значимость, в то время как модель в целом является значимой (высокое значение R 2 ).
Мультиколлинеарность — это. Что такое Мультиколлинеарность?
Показатели α и β являются коэффициентами частной эластичности объема производства Y соответственно по затратам капитала К и труда L. Это означает, что при увеличении одних только затрат капитала (труда) на 1% объем производства увеличится на α% (β%).
1. Мультиколлинеарность
Под строгой мультиколлинеарностью понимается ситуация, когда между регрессорами в модели есть точная линейная связь, т.е. когда одна объясняющая переменная точным образом линейно выражается через другие.
Представим, например, что при анализе макроэкономической модели в качестве переменных в неё включили экспорт, импорт и чистый экспорт. Чистый экспорт равен разности между экспортом и импортом и, следовательно, при включении в модель этих трёх переменных окажется, что регрессоры модели линейно выражаются друг через друга.
В терминах матричной записи точная мультиколлинеарность предполагает линейную зависимость столбцов матрицы регрессоров, откуда следует неполный ранг матрицы регрессоров. Это означает, что при полной мультиколлинеарности невозможно вычислить МНК-оценки коэффициентов, потому что матрица является вырожденной, и матрица не определена.
Из определения и из приведенного выше примера легко догадаться, как можно решить проблему строгой мультиколлинеарности. Для этого следует исключить лишнюю переменную. Например, если в модели уже учтены экспорт и импорт, то понятно, что включение ещё и чистого экспорта не принесет никакой дополнительной информации, и этой третьей переменной можно безболезненно пожертвовать.
Современные эконометрические пакеты при возникновении чистой мультиколлинеарности сами избавляются от одной из линейно зависимых переменных, чтобы вычисление МНК-оценок стало технически возможным.
Частичная мультиколлинеарность не нарушает ни одну из предпосылок классической линейной модели множественной регрессии и поэтому не приводит к смещению оценок коэффициентов модели.
Есть несколько способов выявить мультиколлинеарность на этапе предварительного анализа данных (то есть ещё до оценки параметров уравнения регрессии). О наличии существенной частичной мультиколлинеарности в модели говорят:
где — это коэффициент детерминации из оцененной вспомогательной регрессии.
Если коэффициенты VIF для всех регрессоров оказались меньше 10, это значит, что существенной мультиколлинеарности в модели не наблюдается. В противном случае стоит сделать вывод о том, что в модели есть мультиколлинеарность.
Пример 4.1. Мультиколлинеарность.
На этапе предварительного анализа данных он оценил следующие вспомогательные уравнения:
Что можно сказать о наличии мультиколлинеарности в исходной модели?
Коэффициенты VIF для переменных равны, соответственно: , и . Так как некоторые из коэффициентов больше 10, можно заключить, что в модели присутствует существенная мультиколлинеарность.
Некоторые признаки мультиколлинеарности можно увидеть уже после оценки параметров модели. Перечислим их:
— Неустойчивость результатов. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов. Например, если после оценки уравнения по 200 наблюдениям вы исключили из выборки несколько точек, оценили модель заново и обнаружили сильное изменение результатов.
— Незначимость большинства переменных. Каждая переменная в отдельности является незначимой, а уравнение в целом является значимым и характеризуется близким к единице коэффициентом .
Что можно предпринять, если вы столкнулись с негативными последствиями мультиколлинеарности в вашей модели? Существует несколько путей решения этой проблемы.
Если есть возможность увеличить количество наблюдений, то это отличный вариант, так как больший размер выборки увеличит точность результатов, компенсировав её потерю из-за мультиколлинеарности.
Использование альтернативных (нелинейных) форм зависимостей в некоторых случаях также может снизить остроту проблемы мультиколлинеарности. Оценивание такого рода моделей мы обсудим в конце данной главы.
Некоторые специфические инструменты, которые иногда тоже могут быть полезны в борьбе с мультиколлинеарностью, обсуждаются в рамках курсов машинного обучения и многомерного статистического анализа. См.: метод главных компонент, LASSO и ridge-регрессии, метод эластичной сети.↩︎
ВЫБОР ЭКЗОГЕННЫХ ФАКТОРОВ В МОДЕЛЬ РЕГРЕССИИ ПРИ МУЛЬТИКОЛЛИНЕАРНОСТИ ДАННЫХ — Международный журнал прикладных и фундаментальных исследований (научный журнал)
При этом следует помнить, что в модели множественной регрессии всегда желательно присутствие хоть одной не фиктивной переменной, так как дисперсия фиктивной переменной очень мала и это сказывается достоверности оценок.
Обнаружение мультиколлинеарности
ПРИМЕР. Задача состоит в построении модели для предсказания объема реализации одного из
продуктов кондитерской фирмы.
Объем реализации – это зависимая переменная Y(млн. руб.) В качестве независимых, объясняющих
переменных выбраны: время — X1, расходы на рекламу X 2 (тыс. руб.), цена товара X3 (руб.), средняя
цена товара у конкурентов X4 (руб.), индекс потребительских расходов X5 (%).
Этот алгоритм содержит три вида статистических
критериев проверки наличия
мультиколлинеарности:
1) всего массива переменных (критерий «хиквадрат»);
2) каждой переменной с другими переменными (Fкритерий);
3) каждой пары переменных (t-тест).
Заметки по R: Мультиколлинеарность
Под строгой мультиколлинеарностью понимается ситуация, когда между регрессорами в модели есть точная линейная связь, т.е. когда одна объясняющая переменная точным образом линейно выражается через другие.