Tishanskiysdk.ru

Про кризис и деньги
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Методы многомерного статистического анализа

Методы многомерного статистического анализа

Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными пе­ременными, признаками.

Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистиче­ской совокупности ни было, мы всегда можем построить диаграмму рассея­ния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак — возраст человека, тогда диаграмма рассеяния долж­на быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.

В реально­сти на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают де­сятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.

Раздел статистики, посвященный исследованиям экспе­риментов с многомерными наблюдениями, называется многомерным стати­стическим анализом.

Измерение сразу нескольких признаков (свойств объекта) в одном экс­перименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.

К многомерному статистическому анализу относят следую­щие разделы:

• методы контроля качества.

Факторный анализ

При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а ино­гда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от инте­ресующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти призна­ки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для обнаружения факторов, влияющих на измеряемые переменные, ис­пользуются методы факторного анализа.

Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведе­нию человека или характеру ответов на те или иные вопросы. Для объяс­нения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.

В основе различных моделей факторного анализа лежит следующая ги­потеза: наблюдаемые или измеряемые параметры являются лишь косвенны­ми характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосред­ственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято на­зывать факторами.

Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.

Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вби­рают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначаль­ных наблюдениях. Обычно это осуществляется с помощью метода главных компонент,хотя иногда используют и другие приемы (метод максимального правдоподобия).

Метод главных компонент сводится к выбору новой ортогональной си­стемы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компонен­ты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компо­нент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа — преобразование, вращение факторов для облегчения интерпретации.

Дискриминантный анализ

Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характе­ристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.

Дискриминантный анализ это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.

Рассмотрим некоторые примеры.

• Дискриминантный анализ оказывается удобным при обработке ре­зультатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандида­тов разделить на две группы: «подходит» и «не подходит».

• Использование дискриминантного анализа возможно банковской ад­министрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.

Читать еще:  Взаимосвязь экономического анализа и аудита

• Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйствен­ной деятельности.

Методы дискриминантного анализа позволяют строить функции изме­ряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных призна­ков) было немного. В этом случае результаты анализа легче содержательно толковать.

Благодаря своей простоте особую роль играет линейный дискриминант­ный анализ, в котором классифицирующие признаки выбираются как ли­нейные функции от первичных признаков.

Кластерный анализ

Методы кластерного анализа позволяют разбить изучаемую совокуп­ность объектов на группы «схожих» объектов, называемых кластерами.

Слово кластер английского происхождения — cluster переводится как кисть, пучок, группа, рой, скопление.

Кластерный анализ решает следующие задачи:

• проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;

• ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает воз­можность воспользоваться стандартной гипотетико-дедуктивной схе­мой научных исследований.

Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) — они начинают с создания эле­ментарных кластеров, каждый из которых состоит ровно из одного исходно­го наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.

Момент остановки этого процесса может задаваться исследователем (на­пример, указанием требуемого числа кластеров или максимального рассто­яния, при котором достигнуто объединение).

Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы — дерева объединения кластеров.

Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:

х1 – среднегодовая стоимость основных производственных фондов, млрд руб.;

х2 – материальные затраты на 1 руб. произведенной продукции, коп.;

х3 – объем произведенной продукции, млрд руб.

В таблице приведены соответствующие значения для каждого из предприятий:

Методы многомерного статистического анализа. Кластер-анализ. Понятие об иерархическом методе и о методе К-средних. Многомерная классификация с использованием нечетких множеств.

Многомерный статистический анализ.Его цель: построение упрощенного укрупненного ряда объектов.

Кластерный анализ – объединение объектов в группу с единой целью (признаков много).

Способы кластерного анализа:

1. иерархический (дерево иерархического анализа):

Oсновная идея иерархического метода заключается в последовательном объединении группируемых объектов — сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

2. метод К-средних.

Требует заранее заданных классов (кластеров). Подчеркивает внутриклассовую дисперсию. основан на гипотезе о наиболее вероятном количестве классов. Задачей метода является построение заданного числа кластеров, которые должны максимально отличаться друг от друга.

Процедура классификации начинается с построения заданного числа кластеров, полученных путем случайной группировки объектов. Каждый кластер должен состоять из максимально «похожих» объектов, причем сами кластеры должны быть максимально «непохожими» друг на друга.

Результаты этого метода позволяют получить центры всех классов (а также и другие параметры дескриптивной статистики) по каждому из исходных признаков, а также увидеть графическое представление о том, насколько и по каким параметрам различаются полученные классы.

Если рез-ты классификаций, полученные разными методами совпадают, то это подтверждает реальн. Сущ-е групп (надежность, достоверность).

Методы многомерного статистического анализа. Факторный анализ, цели его использования. Понятие о факторных нагрузках и факторных весах, пределы их значений; доля суммарной дисперсии, объясняемой факторами.

Многомерный статистический анализ.Его цель: построение упрощенного укрупненного ряда объектов.

В основе факторного анализа лежит идея о том, что за сложными взаимосвязями явно заданных признаков стоит относительно более простая структура, отражающая наиболее существенные черты изучаемого явления, а «внешние» признаки являются функциями скрытых общих факторов, определяющих эту структуру.

Цель: переход от большего числа признаков к небольшому числу факторов.

в факторном анализе все величины, входящие в факторную модель, стандартизированы, т.е. являются безразмерными величинами со средним арифметическим значением 0 и средним квадратическим отклонением 1.

Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкойданного признака по данному общему фактору. Это число в интервале от -1 до 1. Чем дальше от 0, тем более сильная связь. Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет.

Читать еще:  Факторный анализ фонда оплаты труда пример

Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором. Факторы являются стандартизованными величинами, не могут быть = нулю. Факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. что она ниже средней.

Таблица факторных весов имеет n строк по числу объектов и k столбцов по числу общих факторов. Положение объектов на оси каждого фактора показывает, с одной стороны, тот порядок, в котором они ранжированы по этому фактору, а с другой стороны, равномерность или же неравномерность в их расположении, наличие скоплений точек, изображающих объекты, что дает возможность визуально выделять более или менее однородные группы.

11. Виды качественных признаков. Номинальные признаки, примеры из исторических источников. Таблица сопряженности. Коэффициент связи номинальных признаков, пределы его значений.

Качественные (или категориальные) данные делятся на два типа: ранговые и номинальные.

Номинальные данные представлены категориями, для которых порядок абсолютно не важен. Для них не определен никакой другой способ сравнения, кроме как на буквальное совпадение/несовпадение.

Примеры номинальных переменных:

· Национальность: англичанин, белорус, немец, русский, японец и пр.

· Род занятий: служащий, врач, военный, учитель и т.д.

· Профиль образования: гуманитарное, техническое, медицинское, юридическое и т.д.

Если в случае с уровнем образования мы еще могли сравнивать людей в терминах «лучше-хуже» или «выше-ниже», то теперь мы лишены даже этой возможности; единственный корректный способ сравнения ‑ это говорить, что данные персоналии «все являются историками», или «все не являются юристами».

Своеобразие качественных данных не означает, что их нельзя анализировать с помощью математических и статистических методов.

Таблицы сопряженности

Таблицей сопряженности называется прямоугольная таблица, по строкам которой указываются категории одного признака (например, разные социальные группы), а по столбцам — категории другого (например, партийная принадлежность). Каждый объект совокупности попадает в какую-либо из клеток этой таблицы в соответствии с тем, в какую категорию он попадает по каждому из двух признаков. Таким образом, в клетках таблицы стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков (число людей, принадлежащих конкретной социальной группе и входящих в определенную партию). В зависимости от характера распределения этих частот внутри таблицы можно судить о том, существует ли связь между признаками. Что означает связь между социальным статусом и партийной принадлежностью? В данном случае о наличии связи свидетельствовало бы наличии определенных политических пристрастий у членов разных социальных групп. Формально говоря, эта связь понимается как более частая (или наоборот, редкая) совместная встречаемость отдельных комбинаций категорий по сравнению с ожидаемой встречаемостью — ситуацией чисто случайного попадания объектов туда (например, более высокая доля крестьян в партии трудовиков, а дворян — в партии кадетов, чем доли этих социальных групп во всей совокупности депутатов Думы).

12. Виды качественных признаков. Ранговые признаки, примеры из исторических источников. В каких пределах находятся значения коэффициента ранговой корреляции? Какие коэффициенты следует использовать для оценки связи рангового и номинального признаков?

Качественные (или категориальные) данные делятся на два типа: ранговые и номинальные.

Ранговые данные представлены категориями, для которых можно указать порядок, т.е. категории сравнимы по принципу «больше-меньше» или «лучше-хуже».

Примеры ранговых переменных:

· Оценки на экзаменах имеют явно выраженную ранговую природу и выражаются категориями типа: «отлично», «хорошо», «удовлетворительно» и т.д.

· Уровень образования может быть представлен как набор категорий: «высшее», «среднее» и т.п.

Несомненно, мы можем ввести ранговую шкалу и с ее помощью упорядочить всех людей, для которых мы знаем их уровень образования или балл на экзамене. Однако, верно ли, что оценка «хорошо» на столько же хуже, чем «отлично», насколько оценка «удовлетворительно» хуже, чем «хорошо»? Несмотря на то, что формально, в случае с оценками, можно получить разницу в баллах, вряд ли корректно измерять расстояние от «отличника» до «хорошиста» пользуясь теми же правилами, что для расстояния от Москвы до Петербурга. В случае с уровнем образования особенно отчетливо видно, что простые вычисления невозможны, поскольку не существует единого правила вычитания «среднего» уровня образования из «высшего», даже, если мы присвоим высшему образованию код «3», а среднему – код «2».

Читать еще:  Предмет анализа хозяйственной деятельности

Своеобразие качественных данных не означает, что их нельзя анализировать с помощью математических и статистических методов.Ряд объектов, упорядоченных в соответствии со степенью проявления некоторого свойства, называют ранжированным, каждому числу такого ряда присваивается ранг.

Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции.

Эти коэффициенты строятся на основе следующих трех свойств:

· если ранжированные ряды по обоим признакам полностью совпадают (т.е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен +1, что означает полную положительную корреляцию:

· если объекты в одном ряду расположены в обратном порядке по сравнению со вторым, коэффициент равен -1, что означает полную отрицательную корреляцию;

· в остальных ситуациях значения коэффициента заключены в интервале [-1, +1]; возрастание модуля коэффициента от 0 до 1 характеризует увеличение соответствия между двумя ранжированными рядами.

Указанными свойствами обладают коэффициенты ранговой корреляции Спирменаr и Кедаллаt.

Коэффициент Кедалла дает более осторожную оценку корреляции, чем коэффициент Спирмена (числовое значение t всегда меньше, чем r).

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰).

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций.

Методы многомерного статистического анализа

Словарь социолингвистических терминов. — М.: Российская академия наук. Институт языкознания. Российская академия лингвистических наук . Ответственный редактор: доктор филологических наук В.Ю. Михальченко . 2006 .

Смотреть что такое «Методы многомерного статистического анализа» в других словарях:

методы многомерного статистического анализа — Методы математической статистики, нацеленные на построение оптимальных планов сбора, систематизации и обработки многомерных статистических данных. Выделяются три группы методов: 1) методы анализа многомерных распределений и их основных… … Словарь лингвистических терминов Т.В. Жеребило

Методы многомерного статистического анализа — Методы математической статистики, нацеленные на построение оптимальных планов сбора, систематизации и обработки многомерных статистических данных. Выделяются три группы методов: 1) методы анализа многомерных распределений и их основных… … Общее языкознание. Социолингвистика: Словарь-справочник

Методы многомерного анализа (multivariate analysis methods) — Многомерность свойственна психол. данным по природе, поскольку они чаще всего состоят по крайней мере из неск. наблюдений за поведением одного человека или группы лиц. М. м. а. и были созданы для совместной обработки таких данных, напр. для их… … Психологическая энциклопедия

Методы анализа социолингвистических данных — Процедуры, которые используют социолингвисты, подвергая анализу исходный материал, полученный в ходе исследований. Анализ данных практически всегда предполагает использование статистического аппарата. Обработка статистических данных ведется с … Словарь социолингвистических терминов

Методы социолингвистических исследований — Социолингвистика возникла на стыке двух наук социологии и лингвистики и использует методику и технику исследований обеих наук. Методы социолингвистических исследований основаны на органичном сочетании собственно социолингвистических… … Словарь социолингвистических терминов

Корреляционные методы (correlation methods) — К. м., получившие свое назв. благодаря тому, что основываются на «со отношении» («co relation») переменных, представляют собой статистические методы, начало к рым было положено в работах Карла Пирсона примерно в конце XIX в. Они тесно связаны с… … Психологическая энциклопедия

МЕТОД МНОГОМЕРНОГО ШКАЛИРОВАНИЯ — система методических приемов и способов сбора и обработки психологической, социально психологической и социологической информации для получения объективных данных о скрытых или явных закономерностях поведения (функционирования) сложных,… … Социология: Энциклопедия

ГОСТ Р 50779.10-2000: Статистические методы. Вероятность и основы статистики. Термины и определения — Терминология ГОСТ Р 50779.10 2000: Статистические методы. Вероятность и основы статистики. Термины и определения оригинал документа: 2.3. (генеральная) совокупность Множество всех рассматриваемых единиц. Примечание Для случайной величины… … Словарь-справочник терминов нормативно-технической документации

КОНТЕНТ-АНАЛИЗ — – один из основных видов анализа документов, заключающийся в количественном подсчете каких л. признаков, свойств изучаемого явления, отраженных в документе, с последующей оценкой на основе этого содержательных характеристик конфликтов. Для… … Энциклопедический словарь по психологии и педагогике

Дисперсный анализ — Статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Д.а. позволяет оценивать систематические расхождения между несколькими… … Словарь социолингвистических терминов

Ссылка на основную публикацию
Adblock
detector