Tishanskiysdk.ru

Про кризис и деньги
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Многомерный регрессионный анализ

Многомерная линейная регрессия

Материал из MachineLearning.

Многомерная линейная регрессия — это линейная регрессия в n-мерном пространстве (объекты и признаки являются n-мерными векторами).

Содержание

Многомерная линейная регрессия

Имеется множество объектов и множество ответов . Также имеется набор вещественнозначных признаков . Введём матричные обозначения: матрицу информации , целевой вектор , вектор параметров и диагональную матрицу весов:

Оценим качество его работы на выборке методом наименьших квадратов:

, или, в матричных обозначениях,
.

Задача с произвольной матрицей весов легко приводится к единичной матрице весов заменой :

Таким образом, в дальнейшем будем рассматривать только задачу с единичными весами.

Найдём минимум по α:

Если , то можно обращать матрицу , где введено обозначение .

В таком случае функционал качества записывается в более удобной форме:

, где — проекционная матрица:

— вектор, являющийся проекцией на .

В таких обозначениях:

, а так как , то в силу диагональности матрицы D.

А решение метода наименьших квадратов запишется в следующем виде:

Проблемы

Мультиколлинеарность

Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы F T F, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые.
Мультиколлинеарность матрицы определяется её числом обусловленности:

, где λ — собственные значения матрицы F T F.

Чем больше число обусловленности, тем ближе матрица F T F к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin 3 . 10 6 .

  1. Разброс значений αj. Появляются большие положительные и большие отрицательные коэффициенты αj. По абсолютной величине коэффициента становится невозможно судить о степени важности признака fj . Коэффициенты утрачивают интерпретируемость.
  2. Неустойчивость решения α* при (кажущейся) устойчивости Fα*. Малые изменения данных, например, шум или добавление нового объекта, могут сильно изменить вектор коэффициентов.
  3. Отсюда следует опасность переобучения, так как снижается обобщающая способность алгоритма.

Для борьбы с мультиколлинеарностью применяются существуют методы:

  1. Регуляризация. Накладываются дополнительные ограничения на норму вектора коэффициентов α. Примером могут служить гребневая регрессия или L1-регуляризация)
  2. Преобразование признаков. Исходные n признаков с помощью некоторых преобразований переводятся в меньшее число m новых признаков. В частности, линейные преобразования приводят к методу главных компонент.
  3. Отбор признаков. Производится явный перебор всевозможных подмножеств признаков. Для линейной регрессии удаётся строить эффективные методы, совмещающие перебор подмножеств с оптимизацией коэффициентов. К таким методам относятся, опять-таки, лассо Тибширани и ортогонализация Грама–Шмидта.

Разный масштаб признаков

Другой важной проблемой многомерной линейной регрессии является разнородность признаков. Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только «крупномасштабные» признаки. Чтобы этого избежать, делается стандартизация матрицы F:

где — выборочное среднее, а — выборочная дисперсия. При этом после стандартизации исходных данных то же самое преобразование необходимо будет применять ко всем объектам, подаваемым на вход алгоритма α*(x) = f(x, α*). Также следует отметить, что ковариационная матрица F T F после стандартизации становится корреляционной матрицей.

Большая Энциклопедия Нефти и Газа

Многомерный регрессионный анализ

Многомерный регрессионный анализ широко используется в экономических и прогностических исследованиях. [1]

Многомерный регрессионный анализ очень чувствителен к нарушению исходных предпосылок. Активный эксперимент организован так, что все исходные предпосылки выполняются. В пассивном эксперименте очень часто нарушаются хотя бы две исходные предпосылки. Исследователь, занимающийся изучением технологических процессов, обычно игнорирует эту предпосылку. Он включает в программу изучения очень большое число независимых переменных, полагая, что большую их часть можно будет потом отсеять с помощью / — критерия, невзирая на то, что оценки коэффициентов регрессии сильно коррелированы. Оценки коэффициентов регрессии оказываются смещенными. Это не происходит в активном эксперименте — там отсеивание производится на стадии линейного приближения, когда матрица независимых переменных ортогональна. Вторая предпосылка формулируется так: независимые переменные измеряются без ошибок. В пассивном эксперименте эта предпосылка постоянно нарушается — ошибка в измерении независимой переменной нередко оказывается сравнимой с интервалом варьирования этой переменной. В активном эксперименте этого обычно не бывает — — он лучше организован, там всегда контролируется воспроизводимость опыта. [2]

Успешно пригоняется многомерный регрессионный анализ . Однако здесь настолько слохио переплелись дисперсионный и регрессионный анализы, что трудно провести четкую границу между этики разделами математической статистики. Зстественно поставить вопрос: почему многомерный регрессионный анализ работает только тогда, когда он применяется к данным активного эксперимента. Наивно объяснять это только тем, что в активном эксперименте матрица независимых переменных X з соответствии с концепцией рототабельности организована так, что матрица Х Х оказывается инвариантной к ортогональному вращению коордячат. [3]

Рассмотрим методологические вопросы проведения многомерного регрессионного анализа и преодоление трудностей при оценке параметров получаемых моделей при прогнозировании текущей нефтеотдачи на любой момент времени разработки. [4]

Естественно поставить следующий вопрос: почему многомерный регрессионный анализ работает только тогда, когда он применяется к данным активного эксперимента. Можно ли объяснить это только тем, что в активном эксперименте матрица независимых переменных X в соответствии с концепцией рота-табельности организована так, что матрица Х Х оказывается инвариантной к ортогональному вращению координат. Нам кажется, что такое объяснение было бы несколько наивным. [5]

Обрабатывающие программы позволяют рассчитывать различные статистические характеристики, проводить многомерный регрессионный анализ , полиномиальный тренд-анализ; по результатам поискового запроса могут быть построены гистограммы распределения признаков, на графопостроителе построены карты, получены данные для решения задачи подсчета запасов. [6]

В связи с этим для получения корреляционного выражения Методом многомерного регрессионного анализа были обработаны таблицы коэффициентов распределения азота из атласа ВНИИГаза — СевКавНИИГаза. [7]

Мальти, В.И. Азаматовым и др. было показано, что величины коэффициентов продуктивности можно рассчитать с помощью метода многомерного регрессионного анализа по комплексу геолого-промысловых данных. [8]

Кроме традиционных вопросов точечного и интервального оценивания и общей теории оценок, в книге изложены метод стохастических аппроксимаций, многомерный регрессионный анализ , дисперсионный анализ, факторный анализ, теория оценивания неизвестных параметров в стохастических разностных уравнениях, основы теории распознавания и проверки гипотез, элементы общей статистической теории решений, основы метода статистического моделирования. [9]

Таким образом, применяя известные методы прогнозирования к отдельным группам потребителей газа, имеющим одинаковые законы потребления, а затем многомерный регрессионный анализ , получили сравнительно простой метод перспективного прогнозирования суммарного графика газопотребления для целого района. [10]

Читать еще:  Анализ хозяйственной деятельности предприятий апк

Сейчас имеется большой опыт [8], показывающий, что не удается получать сколько-нибудь интересные в практическом отношении результаты, применяя многомерный регрессионный анализ к данным пассивного эксперимента. Рассеяние относительно уравнения регрессии, как правило, мало отличается от рассеяния относительно среднего арифметического. [11]

В этих условиях целесообразно использовать экспериментально-статистические методы, реализующие кибернетическую концепцию черного ящика в сочетании с факторным экспериментом и математическим аппаратом многомерного регрессионного анализа . [12]

С целью решения этих важных вопросов было проведено статистическое моделирование эффективности солянокислотной обработки ( СКО), отражаемой с помощью различных показателей, с использованием многомерного регрессионного анализа . [13]

Исследования, проведенные по ряду разрабатываемых нефтяных месторождений Западной Сибири ( Усть-Балыкское, Западно-Сургутское, Правдинское, Самотлорское, Советское), показали, что / Cj можно определить с помощью многомерного регрессионного анализа , реализованного в виде соответствующих программ. При оценке коэффициента продуктивности по косвенным данным необходимо подобрать такие признаки, от которых этот параметр будет зависеть наиболее сильно. Как известно, коэффициент продуктивности — параметр, который в значительной мере зависит от гидропроводности. Следовательно, необходимо подобрать такие геологопромысловые и геофизические признаки, которые бы зависели от величин, характеризующих именно этот сложный фильтрационный параметр. [14]

Следует также проверить, скоррелированны ли действия скрытых элементов. В многомерном регрессионном анализе при росте муль-тиколлинеарности значения коэффициентов регрессии становятся все менее надежными. Так же и здесь предпочтительно, чтобы выходы скрытых элементов одного слоя были некоррелированны. Нужно найти собственные значения корреляционной матрицы для выходов скрытых узлов по данным обработки всех обучающих примеров. При полной некоррелированности все собственные значения будут равны единице, а отличия от единицы говорят об избыточном числе скрытых элементов. [15]

Многомерный регрессионный анализ

В многошаговом регрессионном анализе наиболее известны три подхода: Метод случайного поиска с адаптацией. Осуществляется путем построения нескольких уравнений регрессии на

Многомерный регрессионный анализ

Другие курсовые по предмету

Многомерный корреляционный анализ3

Многошаговый регрессионный анализ.4

Многомерный регрессионный анализ5

Метод отсева факторов по t-критерию9

Многомерный регрессионный анализ.15

Многошаговый регрессионный анализ.16

Начальный корреляционный анализ.17

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.

Частными случаями стохастической связи являются корреляционная и регрессионная связи.

Две случайные величины имеют корреляционную связь, если математическое ожидание одной из них изменяется в зависимости от изменения другой. Метод математической статистики, изучающий корреляционные связи между явлениями, называется корреляционным анализом. Основной его задачей является выявление связи между случайными переменными и оценка ее тесноты.

Но не все факторы, влияющие на экономические процессы, являются случайными величинами. Поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом. Кроме того, при изучении экономических процессов необходимо не только выявить связь между переменными, но и изучить и установить ее форму, что и является основной задачей регрессионного анализа.

Поэтому, как видно из написанного выше, многомерный регрессионный анализ, изучению экономических процессов с помощью которого и посвящена настоящая работа, будет гораздо подробнее и точнее при включении в него необходимых элементов корреляционного анализа.

Многомерный корреляционный анализ

В многомерной модели корреляционного анализа (с четырьмя и более переменными) вычисление частных и множественных коэффициентов корреляции основывается на использовании матрицы коэффициентов парной корреляции.

Порядок частного коэффициента корреляции определяется количеством фиксируемых переменных. Выборочный частный коэффициент корреляции любого порядка можно определить по формуле

Это выражение предполагает вычисление большого числа выборочных частных коэффициентов корреляции от нулевого до (к-3)-го порядка, что является достаточно трудоемкой операцией.

Более удобным является вычисление частных коэффициентов корреляции по следующей схеме.

На основе матрицы выборочных коэффициентов парной корреляции

где Q симметричная положительно определенная матрица, имеем

и так далее, где

Dij определитель матрицы, образованной из матрицы (1) вычеркиванием i-ой строки и j-го столбца для каждого определителя соответственно.

Для проверки значимости частного коэффициента корреляции используется величина t, имеющая t-распределение Стьюдента с числом степеней свободы =n-l-2:

где n число наблюдений;

l число фиксированных переменных;

rчаст соответствующий выборочный частный коэффициент корреляции.

С помощью таблицы распределения Стьюдента по уровню значимости и =n-l-2 находится tкр. При tн tкр гипотеза Но:част = 0 отвергается.

Доверительный интервал для частных коэффициентов корреляции строится при помощи z-преобразования Фишера

, аналогично рассмотренным ранее случаям.

Для определения тесноты связи между зависимой переменной и совокупностью объясняющих переменных используется выборочный коэффициент множественной корреляции, определяемый по формуле

где D определитель матрицы выборочных коэффициентов корреляции;

Dii алгеброическое дополнение к элементу rii.

Для проверки значимости коэффициента множественной корреляции используется величина

имеющая F-распределение с 1=l и =n-l-2 степенями свободы.

Многошаговый регрессионный анализ.

Очевидно, что простое поверхностное изучение данных не позволяет обнаружить, какие факторы, рассмотренные на стадии статистического анализа исходной информации, являются существенными, а какие нет. Может случиться, что якобы отсутствующая корреляция с данным фактором обнаруживается после того, как связь с другим фактором уже исключена.

Необходимо найти оптимальный вариант модели, отражающий основные закономерности исследуемого явления с достаточной степенью статистической надежности.

В модель должны быть включены все факторы, которые с экономической точки зрения оказывают влияние на зависимую переменную (в нашем случае средняя продолжительность жизни). При невыполнении этого требования модель может оказаться неадекватной вследствие недоучета существенных факторов.

С другой стороны, количество факторов, включаемых в модель, не должно быть слишком большим. Невыполнение этого требования приводит к необходимости увеличения числа наблюдений, к невозможности использования достаточно сложных зависимостей, к снижению точности оценок, к сложности интерпретации модели и к трудности ее практического использования.

Таким образом, возникает задача уменьшения числа переменных, включаемых в модель, без нарушения исходных предпосылок, т.е. задача понижения размерности модели.

Выделяют два существенных подхода к решению проблемы сокращения количества исходных переменных:

  1. отсеивание менее существенных факторов в процессе построения регрессионной модели;
  2. замена исходного набора переменных меньшим числом эквивалентных факторов, полученных в результате преобразований исходного набора.
Читать еще:  Услуги по анализу данных

Процедура отсева несущественных факторов в процессе построения регрессионной модели и получила название многошагового регрессионного анализа.

Этот метод основан на вычислении нескольких промежуточных уравнений регрессии, в результате анализа которых получают конечную модель, включающую только факторы, оказывающие статистически существенное влияние на исследуемую зависимую переменную. Различные сочетания одних и тех же факторов оказывают разное влияние на зависимую переменную. Вследствие этого появляется необходимость выбора наилучшей модели, т.к. перебирать все возможные варианты сочетания факторов и строить множество уравнений регрессии (количество которых может быть очень велико) просто не имеет смысла.

Таким образом методы пошагового регрессионного анализа позволяют избежать столь громоздких расчетов и получить достаточно надежную и полную модель зависимости исследуемого признака от ряда объясняющих переменных.

Как было сказано выше, основой многошагового регрессионного анализа является построение уравнения регрессии. Рассмотрим более подробно его систему и основные понятия.

Многомерный регрессионный анализ

В общем виде многомерная линейная регрессионная модель зависимости y от объясняющих переменных , ,…, имеет вид:

Для оценки неизвестных параметров взята случайная выборка объема n из (k+1)мерной случайной величины (y, ,,…,).

Уравнение множественной регрессии

Назначение сервиса . С помощью онлайн-калькулятора можно найти следующие показатели:

  • уравнение множественной регрессии, матрица парных коэффициентов корреляции, средние коэффициенты эластичности для линейной регрессии;
  • множественный коэффициент детерминации, доверительные интервалы для индивидуального и среднего значения результативного признака;

Кроме этого проводится проверка на автокорреляцию остатков и гетероскедастичность.

  • Решение онлайн
  • Видеоинструкция
  • Оформление Word

Отбор факторов обычно осуществляется в два этапа:

  1. теоретический анализ взаимосвязи результата и круга факторов, которые оказывают на него существенное влияние;
  2. количественная оценка взаимосвязи факторов с результатом. При линейной форме связи между признаками данный этап сводится к анализу корреляционной матрицы (матрицы парных линейных коэффициентов корреляции). Научно обоснованное решение задач подобного вида также осуществляется с помощью дисперсионного анализа — однофакторного, если проверяется существенность влияния того или иного фактора на рассматриваемый признак, или многофакторного в случае изучения влияния на него комбинации факторов.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

  1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.
  2. Каждый фактор должен быть достаточно тесно связан с результатом (т.е. коэффициент парной линейной корреляции между фактором и результатом должен быть существенным).
  3. Факторы не должны быть сильно коррелированы друг с другом, тем более находиться в строгой функциональной связи (т.е. они не должны быть интеркоррелированы). Разновидностью интеркоррелированности факторов является мультиколлинеарность — тесная линейная связь между факторами.

Пример . Постройте регрессионную модель с 2-мя объясняющими переменными (множественная регрессия). Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели.
Решение.
К исходной матрице X добавим единичный столбец, получив новую матрицу X

Решение:
Для проверки полученных расчетов используем инструменты Microsoft Excel «Анализ данных» (см. пример).

Пример №4 . На основе данных, приведенных в Приложении и соответствующих Вашему варианту (таблица 2), требуется:

  1. Построить уравнение множественной регрессии. При этом признак-результат и один из факторов остаются теми же, что и в первом задании. Выберите дополнительно еще один фактор из приложения 1 (границы наблюдения должны совпадать с границами наблюдения признака-результата, соответствующего Вашему варианту). При выборе фактора нужно руководствоваться его экономическим содержанием или другими подходами. Пояснить смысл параметров уравнения.
  2. Рассчитать частные коэффициенты эластичности. Сделать вывод.
  3. Определить стандартизованные коэффициенты регрессии (b-коэффициенты). Сделать вывод.
  4. Определить парные и частные коэффициенты корреляции, а также множественный коэффициент корреляции; сделать выводы.
  5. Оценить значимость параметров уравнения регрессии с помощью t-критерия Стьюдента, а также значимость уравнения регрессии в целом с помощью общего F-критерия Фишера. Предложить окончательную модель (уравнение регрессии). Сделать выводы.

Решение. Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

Умножаем матрицы, (X T X)

Умножаем матрицы, (X T Y)

Находим определитель det(X T X) T = 139940.08
Находим обратную матрицу (X T X) -1

se 2 = (Y — X*s) T (Y — X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = σ*(X T X) -1

Дисперсии параметров модели определяются соотношением S 2 i = Kii, т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X сильная
Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора хi при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции — последовательно берутся пары yx1,yx2. , x1x2, x1x3.. и так далее и для каждой пары находится коэффициент корреляции

Коэффициент детерминации
R 2 = 0.97 2 = 0.95, т.е. в 95% случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — высокая

Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл: Tтабл (n-m-1;a) = (17;0.05) = 1.74
Поскольку Tнабл Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

Построение парной регрессионной модели

Рекомендации к решению контрольной работы.

Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии.

Пример №3 . Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x1, дохода компании x2 и объема инвестиций в расширение и модернизацию производства x3. Исходные данные представлены выборкой объема n=50.

Тема I. Парная линейная регрессия
Постройте парные линейные регрессии — зависимости признака y от факторов x1, x2, x3 взятых по отдельности. Для каждой объясняющей переменной:

  1. Постройте диаграмму рассеяния (поле корреляции). При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки).
  2. Вычислите коэффициенты уравнения выборочной парной линейной регрессии (для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические») или надстройкой Пакет Анализа), коэффициент детерминации, коэффициент корреляции (функция КОРЕЛЛ), среднюю ошибку аппроксимации.
  3. Запишите полученное уравнение выборочной регрессии. Дайте интерпретацию найденным в предыдущем пункте значениям.
  4. Постройте на поле корреляции прямую линию выборочной регрессии по точкам .
  5. Постройте диаграмму остатков.
  6. Проверьте статистическую значимость коэффициентов регрессии по критерию Стьюдента (табличное значение определите с помощью функции СТЬЮДРАСПОБР) и всего уравнения в целом по критерию Фишера (табличное значение Fтабл определите с помощью функции FРАСПОБР).
  7. Постройте доверительные интервалы для коэффициентов регрессии. Дайте им интерпретацию.
  8. Постройте прогноз для значения фактора, на 50% превышающего его среднее значение.
  9. Постройте доверительный интервал прогноза. Дайте ему экономическую интерпретацию.
  10. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемого фактора на показатель.
Читать еще:  Анализ пассива предприятия вывод

Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя y при значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.

Многомерный регрессионный анализ

Теоретическая часть. 3

Многомерный корреляционный анализ. 3

Многошаговый регрессионный анализ. 4

Многомерный регрессионный анализ. 5

Метод отсева факторов по t-критерию. 9

Практическая часть. 10

Вариационные характеристики. 10

Корреляционный анализ. 14

Многомерный регрессионный анализ. 15

Многошаговый регрессионный анализ. 16

Начальный корреляционный анализ. 17

Приложение: Олимп курсовая итог. 21

Использованная литература. 30

Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.

Частными случаями стохастической связи являются корреляционная и регрессионная связи.

Две случайные величины имеют корреляционную связь, если математическое ожидание одной из них изменяется в зависимости от изменения другой. Метод математической статистики, изучающий корреляционные связи между явлениями, называется корреляционным анализом. Основной его задачей является выявление связи между случайными переменными и оценка ее тесноты.

Но не все факторы, влияющие на экономические процессы, являются случайными величинами. Поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом. Кроме того, при изучении экономических процессов необходимо не только выявить связь между переменными, но и изучить и установить ее форму, что и является основной задачей регрессионного анализа.

Поэтому, как видно из написанного выше, многомерный регрессионный анализ, изучению экономических процессов с помощью которого и посвящена настоящая работа, будет гораздо подробнее и точнее при включении в него необходимых элементов корреляционного анализа.

Теоретическая часть. Многомерный корреляционный анализ

В многомерной модели корреляционного анализа (с четырьмя и более переменными) вычисление частных и множественных коэффициентов корреляции основывается на использовании матрицы коэффициентов парной корреляции.

Порядок частного коэффициента корреляции определяется количеством фиксируемых переменных. Выборочный частный коэффициент корреляции любого порядка можно определить по формуле

Это выражение предполагает вычисление большого числа выборочных частных коэффициентов корреляции от нулевого до (к-3)-го порядка, что является достаточно трудоемкой операцией.

Более удобным является вычисление частных коэффициентов корреляции по следующей схеме.

На основе матрицы выборочных коэффициентов парной корреляции

(1)

где Q – симметричная положительно определенная матрица, имеем

(2)

(3)

и так далее, где

Dij – определитель матрицы, образованной из матрицы (1) вычеркиванием i-ой строки и j-го столбца для каждого определителя соответственно.

Для проверки значимости частного коэффициента корреляции используется величина t, имеющая t-распределение Стьюдента с числом степеней свободы =n-l-2:

, (4)

где n – число наблюдений;

l – число фиксированных переменных;

rчаст – соответствующий выборочный частный коэффициент корреляции.

С помощью таблицы распределения Стьюдента по уровню значимости a и =n-l-2 находится tкр. При tн >tкр гипотеза Но:rчаст = 0 отвергается.

Доверительный интервал для частных коэффициентов корреляции строится при помощи z-преобразования Фишера

, аналогично рассмотренным ранее случаям.

Для определения тесноты связи между зависимой переменной и совокупностью объясняющих переменных используется выборочный коэффициент множественной корреляции, определяемый по формуле

, (5)

где D – определитель матрицы выборочных коэффициентов корреляции;

Dii – алгеброическое дополнение к элементу rii.

Для проверки значимости коэффициента множественной корреляции используется величина

, (6)

имеющая F-распределение с 1=l и =n-l-2 степенями свободы.

Многошаговый регрессионный анализ.

Очевидно, что простое поверхностное изучение данных не позволяет обнаружить, какие факторы, рассмотренные на стадии статистического анализа исходной информации, являются существенными, а какие – нет. Может случиться, что якобы отсутствующая корреляция с данным фактором обнаруживается после того, как связь с другим фактором уже исключена.

Необходимо найти оптимальный вариант модели, отражающий основные закономерности исследуемого явления с достаточной степенью статистической надежности.

В модель должны быть включены все факторы, которые с экономической точки зрения оказывают влияние на зависимую переменную (в нашем случае – средняя продолжительность жизни). При невыполнении этого требования модель может оказаться неадекватной вследствие недоучета существенных факторов.

С другой стороны, количество факторов, включаемых в модель, не должно быть слишком большим. Невыполнение этого требования приводит к необходимости увеличения числа наблюдений, к невозможности использования достаточно сложных зависимостей, к снижению точности оценок, к сложности интерпретации модели и к трудности ее практического использования.

Таким образом, возникает задача уменьшения числа переменных, включаемых в модель, без нарушения исходных предпосылок, т.е. задача понижения размерности модели.

Выделяют два существенных подхода к решению проблемы сокращения количества исходных переменных:

Ссылка на основную публикацию
Adblock
detector