Многомерный анализ данных в экономике. Введение в многомерный статистический анализ - калинина

Из предисловия автора
Глава 1. Введение
1.1. Многомерное нормальное распределение как модель
1.2. Общий обзор многомерных методов
Литература
Глава 2. Многомерное нормальное распределение
2.1. Введение
2.2. Понятия, связанные с многомерными распределениями
2.3. Многомерное нормальное распределение
2.4. Распределение линейной комбинации нормально распределенных величин; независимость величин; частные распределения
2.5. Условные распределения и множественный коэффициент корреляции
2.6. Характеристическая функция; моменты
Литература
Задачи
Глава 3. Оценка вектора среднего значения и ковариационной матрицы
3.1. Введение
3.2. Оценки наибольшего правдоподобия для вектора среднего значения и ковариационной матрицы
3.3. Распределение вектора выборочного среднего; заключение о среднем значении, когда ковариационная матрица известна
Литература
Задачи
Глава 4. Распределения и использование выборочных коэффициентов корреляции
4.1. Введение
4.2. Коэффициент корреляции двумерной выборки
4.3. Частные коэффициенты корреляции
4.4. Множественный коэффициент корреляции
Литература
Задачи
Глава 5. Обобщенная T2-статистика
5.1. Введение
5.2. Обобщенная T2-статистика и ее распределение
5.3. Применения T2-статистики
5.4. Распределение T2-статистики при наличии конкурирующих гипотез; функция мощности
5.5. Некоторые оптимальные свойства критерия Т2
5.6. Многомерная проблема Беренса - Фишера
Литература
Задачи
Глава 6. Классификация наблюдений
6.1. Проблема классификации
6.2. Принципы правильной классификации
6.3. Методы классификации наблюдений в случае двух генеральных совокупностей с известным распределением вероятностей
6.4. Классификация наблюдений в случае двух генеральных совокупностей, имеющих известные многомерные нормальные распределения
6.5. Классификация наблюдений в случае двух многомерных нормальных генеральных совокупностей, параметры которых оцениваются по выборке
6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
Литература
Задачи
Глава 7. Распределение выборочной ковариационной матрицы и выборочной обобщенной дисперсии
7.1. Введение
7.2. Распределение Уишарта
7.3. Некоторые свойства распределения Уишарта
7.4. Теорема Кохрена
7.5. Обобщенная дисперсия
7.6. Распределение множества коэффициентов корреляции в случае диагональной ковариационной матрицы совокупности
Литература
Задачи
Глава 8. Проверка общих линейных гипотез. Дисперсионный анализ
8.1. Введение
8.2. Оценки параметров многомерной линейной регрессии
8.3. Критерии отношения правдоподобия для проверки линейных гипотез о коэффициентах регрессии
8.4. Моменты отношения правдоподобия в случае, когда справедлива нулевая гипотеза
8.5. Некоторые распределения величин U
8.6. Асимптотическое разложение распределения отношения правдоподобия
8.7. Проверка гипотез о матрицах коэффициентов регрессии и доверительные области
8.8. Проверка гипотезы о равенстве средних значений нормальных распределений с общей ковариационной матрицей
8.9. Обобщенный дисперсионный анализ
8.10. Другие критерии для проверки линейной гипотезы
8.11. Каноническая форма
Литература
Задачи
Глава 9. Проверка гипотезы о независимости множеств случайных величин
9.1. Введение
9.2. Отношение правдоподобия как критерий для проверки гипотезы о независимости множеств случайных величин
9.3. Моменты отношения правдоподобия при условии, что справедлива нулевая гипотеза
9.4. Некоторые распределения отношения правдоподобия
9.5. Асимптотическое разложение распределения величины h (отношения правдоподобия)
9.6. Пример
9.7. Случай двух множеств случайных величин
Литература
Задачи
Глава 10. Проверка гипотез о равенстве ковариационных матриц и о равенстве одновременно векторов среднего значения и ковариационных матриц
10.1 Введение
10.2 Критерии проверки гипотез о равенстве нескольких ковариационных матриц
10.3. Критерии проверки гипотезы об эквивалентности нескольких нормальных совокупностей
10.4. Моменты отношения правдоподобия
10.5. Асимптотические разложения функций распределения величин V1 и V
10.6. Случай двух генеральных совокупностей
10.7. Проверка гипотезы о том, что ковариационная матрица пропорциональна заданной матрице. Критерий сферичности
10.8. Проверка гипотезы о том, что ковариационная матрица равна данной матрице
10.9. Проверка гипотезы о том, что вектор среднего значения и ковариационная матрица соответственно равны данному вектору и данной матрице
Литература
Задачи
Глава 11. Главные компоненты
11.1. Введение
11.2. Определение главных компонент совокупности
11.3. Оценки наибольшего правдоподобия для главных компонент и их дисперсий
11.4. Вычисление оценок наибольшего правдоподобия для главных компонент
11.5. Пример
Литература
Задачи
Глава 12. Канонические корреляции и канонические величины
12.1. Введение
12.2. Канонические корреляции и канонические величины генеральной совокупности
12.3. Оценка канонических корреляций и канонических величин
12.4. Способ вычислений
12.5. Пример
Литература
Задачи
Глава 13. Распределение некоторых характеристических корней и векторов, не зависящих от параметров
13.1. Введение
13.2. Случай двух матриц Уишарта
13.3. Случай одной невырожденной матрицы Уишарта
13.4. Канонические корреляции
Литература
Задачи
Глава 14. Обзор некоторых других работ по многомерному анализу
14.1. Введение
14.2 Проверка гипотез о ранге и оценка линейных ограничений на коэффициенты регрессии. Канонические корреляции и канонические величины
14.3. Нецентральное распределение Уишарта
14.4. Распределение некоторых характеристических корней и векторов, зависящих от параметров
14.5. Асимптотическое распределение некоторых характеристических корней и векторов
14.6. Главные компоненты
14.7. Факторный анализ
14.8. Стохастические уравнения
14.9. Анализ временных рядов
Литература
Приложение. Теория матриц
1. Определение матриц. Действия над матрицами
2. Характеристические корни и векторы
3. Разбиение векторов и матриц на блоки
4. Некоторые результаты
5. Метод сокращения Дулиттла и метод сгущения по оси для решения систем линейных уравнений
Литература
Предметный указатель

Социальные и экономические объекты, как правило, характеризуются достаточно большим числом параметров, образующих многомерные векторы, и особое значение в экономических и социальных исследованиях приобретают задачи изучения взаимосвязей между компонентами этих векторов, причем эти взаимосвязи необходимо выявлять на основании ограниченного числа многомерных наблюдений.

Многомерным статистическим анализом называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов.

Отметим, что способы сбора данных могут различаться. Так, если исследуется мировая экономика, то естественно взять в качестве объектов, на которых наблюдаются значения вектора X, страны, если же изучается национальная экономическая система, то естественно наблюдать значения вектора X на одной и той же (интересующей исследователя) стране в различные моменты времени.

Такие статистические методы, как множественный корреляционный и регрессионный анализ, традиционно изучаются в курсах теории вероятностей и математической статистики , рассмотрению прикладных аспектов регрессионного анализа посвящена дисциплина «Эконометрика» .

Другим методам исследования многомерных генеральных совокупностей на основании статистических данных посвящено данное пособие.

Методы снижения размерности многомерного пространства позволяют без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных факторов к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. В первой главе описываются методы компонентного и факторного анализа, с использованием которых можно выявлять объективно существующие, но непосредственно не наблюдаемые закономерности при помощи главных компонент или факторов.

Методы многомерной классификации предназначены для разделения совокупностей объектов (характеризующиеся большим числом признаков) на классы, в каждый из которых должны входить объекты, в определенном смысле однородные или близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа, рассматриваемыми во второй главе (Многомерный статистический анализ с использованием “STATISTICA”).

Развитие вычислительной техники и программного обеспечения способствует широкому внедрению методов многомерного статистического анализа в практику. Пакеты прикладных программ с удобным пользовательским интерфейсом, такие как SPSS, Statistica, SAS и др., снимают трудности в применении указанных методов, заключающиеся в сложности математического аппарата, опирающегося на линейную алгебру, теорию вероятностей и математическую статистику, и громоздкости вычислений.

Однако применение программ без понимания математической сущности используемых алгоритмов способствует развитию у исследователя иллюзии простоты применения многомерных статистических методов, что может привести к неверным или необоснованным результатам. Значимые практические результаты могут быть получены только на основе профессиональных знаний в предметной области, подкрепленных владением математическими методами и пакетами прикладных программ, в которых эти методы реализованы.

Поэтому для каждого из рассматриваемых в данной книге методов приводятся основные теоретические сведения, в том числе алгоритмы; обсуждается реализация этих методов и алгоритмов в пакетах прикладных программ. Рассматриваемые методы иллюстрируются примерами их практического применения в экономике с использованием пакета SPSS.

Пособие написано на основе опыта чтения курса «Многомерные статистические методы» студентам Государственного университета управления. Для более подробного изучения методов прикладного многомерного статистического анализа рекомендуются книги .

Предполагается, что читатель хорошо знаком с курсами линейной алгебры (например, в объеме учебника и приложения к учебнику ), теории вероятностей и математической статистики (например, в объеме учебника ).

Дисперсионный анализ.

Целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо , нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Разбиение суммы квадратов. Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений). В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты, т.е. выборка разбивается на две части в которых вычисляются среднии и сумма квадратов отклонений. Расчет тех же показателей по выборки в целом дает большее значение дисперсии, что объясняется расхождение между групповыми средними. Таким образом, дисперсионный анализ позволяет объяснить внутригрупповую изменчивость, которая при исследовании всей группы в целом не может быть изменена.

Проверка значимости в дисперсионном анализе основана на сравнении компоненты дисперсии, обусловленной межгрупповым и компоненты дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие выборочных средних из-за чисто случайной изменчивости. Поэтому, при нулевой гипотезе, внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1.

Преимущества: 1) дисперсионный анализ существенно более эффективен и, для малых выборок, т.к. более информативен; 2)дисперсионный анализ позволяет обнаружить эффекты взаимодействия между факторами и, поэтому, позволяет проверять более сложные гипотезы

Метод главных компонент состоит в линейном понижении размерности, в котором определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные проектируются на пространство меньшей размерности, порожденное компонентами с наибольшей вариацией.

Метод главных компонент является частью факторного анализа, который состоит в том, что две коррелированные переменные объединены в один фактор. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

При сокращении числа переменных решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью. При повторных итерациях выделяются факторы с все меньшей и меньшей дисперсией.

Центроидный метод определения факторов.

Центроидный метод используется при кластерном анализе. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести при не взвешенном центроидном методе..

Взвешенный центроидный метод (медиана) идентичен не взвешенному, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

Кластерный анализ.

Термин кластерный анализ в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. определить кластеры схожих объектов. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".

Алгоритм древовидной кластеризации. Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево, которое представляет собой диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. Другими словами, вы хотите построить "модель", позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин "в модели" будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они "вне модели".

В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

Эта пошаговая процедура "руководствуется" соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности.

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии. Если вы кодируете две группы как 1 и 2, и затем используете эти переменные в качестве зависимых переменных в множественной регрессии, то получите результаты, аналогичные тем, которые получили бы с помощью дискриминантного анализа. В общем, в случае двух совокупностей вы подгоняете линейное уравнение следующего типа:

Группа = a + b1*x1 + b2*x2 + ... + bm*xm

где a является константой, и b1...bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию подобно тому, как это было сделано ранее. Например, когда имеются три совокупности, вы можете оценить: (1) - функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) - другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, вы можете иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

Каноническая корреляция.

Канонический анализ предназначен для анализа зависимостей между списками переменными. Если говорить точнее, он позволяет исследовать зависимость между двумя множествами переменных. При вычислении канонических корней подсчитывают собственные значения матрицы корреляций. Эти значения равны доле дисперсии, объясняемой корреляцией между соответствующими каноническими переменными. При этом полученная доля вычисляется относительно дисперсии канонических переменных, т.е. взвешенных сумм по двум множествам переменных; таким образом, собственные значения не показывают абсолютного значения, объясняемого в соответствующих канонических переменных.

Если извлечь квадратный корень из полученных собственных значений, получим набор чисел, который можно проинтерпретировать как коэффициенты корреляции. Поскольку они относятся к каноническим переменным, их также называют каноническими корреляциями. Как и собственные значения, корреляции между последовательно выделяемыми на каждом шаге каноническими переменными, убывают. Однако другие канонические переменные также могут быть значимо коррелированы, и эти корреляции часто допускают достаточно осмысленную интерпретацию.

Критерий значимости канонических корреляций сравнительно несложен. Во-первых, канонические корреляции оцениваются одна за другой в порядке убывания. Только те корни, которые оказались статистически значимыми, оставляются для последующего анализа. Хотя на самом деле вычисления происходят немного иначе. Программа сначала оценивает значимость всего набора корней, затем значимость набора, остающегося после удаления первого корня, второго корня, и т.д.

Исследования показали, что используемый критерий обнаруживает большие канонические корреляции даже при небольшом размере выборки (например, n = 50). Слабые канонические корреляции (например, R = .3) требуют больших размеров выборки (n > 200) для обнаружения в 50% случаев. Отметим, что канонические корреляции небольшого размера обычно не представляют практической ценности, поскольку им соответствует небольшая реальная изменчивость исходных данных.

Канонические веса. После определения числа значимых канонических корней возникает вопрос об интерпретации каждого (значимого) корня. Напомним, что каждый корень в действительности представляет две взвешенные суммы, по одной на каждое множество переменных. Одним из способов толкования "смысла" каждого канонического корня является рассмотрение весов, сопоставленных каждому множеству переменных. Эти веса также называются каноническими весами.

При анализе, обычно, пользуются тем, что чем больше приписанный вес (т.е., абсолютное значение веса), тем больше вклад соответствующей переменной в значение канонической переменной.

Если вы знакомы с множественной регрессией, вы можете применить для канонических весов интерпретацию, использованную для бета - весов в уравнении множественной регрессии. Канонические веса, в некотором смысле, аналогичны частным корреляциям переменных, соответствующих каноническому корню. Таким образом, рассмотрение канонических весов позволяют понять "значение" каждого канонического корня, т.е. увидеть, как конкретные переменные в каждом множестве влияют на взвешенную сумму (т.е. каноническую переменную).

Параметрические и непараметрические методы оценки результатов.

Параметрические методы, основанные на выборочном распределении определенной статистики. Говоря кратко, если вы знаете распределение наблюдаемой переменной, то можете предсказать, как в повторных выборках равного объема будет "вести себя" используемая статистика - т.е. каким образом она будет распределена.

В практике использование параметрических методов ограничено из-за объема или размера выборки доступной для анализа; проблем с точным измерением признаков наблюдаемого объекта

Таким образом, возникает необходимость в наличие процедур, позволяющих обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно. Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп:

критерии различия между группами (независимые выборки);

критерии различия между группами (зависимые выборки);

критерии зависимости между переменными.

Различия между независимыми группами. Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых. Непараметрическими альтернативами этому критерию являются: критерий серий Вальда-Вольфовица, U критерий Манна-Уитни и двухвыборочный критерий Колмогорова-Смирнова. Если вы имеете несколько групп, то можете использовать дисперсионный анализ. Его непараметрическими аналогами являются: ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест.

Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок. Альтернативными непараметрическими тестами являются: критерий знаков и критерий Вилкоксона парных сравнений. Если рассматриваемые переменные по природе своей категориальны или являются категоризованными (т.е. представлены в виде частот попавших в определенные категории), то подходящим будет критерий хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является ранговый дисперсионный анализ Фридмана или Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).

Зависимости между переменными. Для того, чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистики Спирмена R, тау Кендалла и коэффициент Гамма Если две рассматриваемые переменные по природе своей категориальны, подходящими непараметрическими критериями для тестирования зависимости будут: Хи-квадрат, Фи коэффициент, точный критерий Фишера. Дополнительно доступен критерий зависимости между несколькими переменными так называемый коэффициент конкордации Кендалла. Этот тест часто используется для оценки согласованности мнений независимых экспертов (судей), в частности, баллов, выставленных одному и тому же субъекту.

Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обычных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что воспринимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности (яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не дает верного представления о среднем значении действительной интенсивности стимула. (В обсуждаемом примере скорее следует вычислить геометрическое среднее.) Непараметрическая статистика вычисляет разнообразный набор мер положения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию, гармоническое среднее, квартильный размах и т.д.), позволяющий представить более "полную картину" данных.


выборочной табл. сопряженности макс, правдоподобных оценок:

G 2 = -2 ^ п щ Щт т ■ п ш)

имеет асимптотическое χ 2 -распределе­ние. На этом основана стат. проверка гипотезы о взаимосвязях.

Опыт обработки данных с помощью А.л. показал его эффективность как спо­соба целенаправленного анализа много­мерной табл. сопряженности, содержа­щей (в случае содержательно разумного выбора переменных) огромный, по срав­нению с двухмерными табл., объем ин­тересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же вре­мя детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социо­лог-ЭВМ. Т.о., А.л. обладает значитель­ной гибкостью, представляет возмож­ность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.

Лит.: Аптоп Г. Анализ табл. сопря­женности. М., 1982; Типология и клас­сификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.

А.А. Мирзоев

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИ­СТИЧЕСКИЙ - разд. статистики ма­тематической, посвященный матем. ме­тодам, направленным на выявление ха­рактера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выво­дов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных на­блюдений (см. Наблюдение в статисти­ке). Многомерный признак чаще всего интерпретируется как многомерная вели-


чина случайная, а последовательность многомерных наблюдений - как выбор­ка из генеральной совокупности. В этом случае выбор метода обработки исход­ных стат. данных производится на осно­ве тех или иных допущений относитель­но природы закона распределения изучае­мого многомерного признака (см. Рас­пределение вероятностей).

1. А.м.с. многомерных распределений и их осн. характеристик охватывает си­туации, когда обрабатываемые наблюде­ния имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. зада­чам этого подраздела относятся; оцени­вание статистическое исследуемых мно­гомерных распределений и их осн. пара­метров; иссл-е свойств используемых стат. оценок; иссл-е распределений веро­ятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).

2. А.м.с. характера и структуры взаи­мосвязей компонент исследуемого мно­гомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, ана­лиз дисперсионный, анализ ковариацион­ный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежа­щие к этой гр., включают как алгорит­мы, осн. на предположении о вероятно­стной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероят­ностной модели (последние чаще отно­сят к методам анализа данных).

3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы класси­фикации, Шкала). Узловым для этих мо­делей явл. понятие расстояния либо ме­ры близости между анализируемыми элементами как точками нек-рого про-

АНАЛИЗ ПРИЧИННЫЙ


странства. При этом анализироваться могут как объекты (как точки, задавае­мые в признаковом пространстве), так и признаки (как точки, задаваемые в «объ­ектном» пространстве).

Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех про­блем: стат. иссл-я зависимостей между рассматриваемыми показателями; клас­сификации элементов (объектов) или признаков; снижения размерности рас­сматриваемого признакового простран­ства и отбора наиб, информативных признаков.

Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и клас­сификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в соци­ол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и ос­новы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. ана­лиз в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомер­ные стат. методы для экономистов и ме­неджеров. М., 2000; Ростовцев B.C., Кова­лева Т.Д. Анализ социол. данных с приме­нением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.

ЮН. Толстова

АНАЛИЗ ПРИЧИННЫЙ - методы мо­делирования причинных отношений меж­ду признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области ме­тодов: путевой анализ, как впервые на­звал его основоположник С. Райт; мето­ды структурных эконометрических урав­нений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компо­ненты связи между признаками. Ис­пользуемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-


лос. проблем, связанных с понятием «причинность». Причинный коэффици­ент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причин­ных связей между признаками, а также выявления тех компонент корреляцион­ных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.

Путевая диаграмма отражает графи­чески гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с одно­направленными связями называется ре­курсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы мо­гут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-след­ствия (зависимые, эндогенные) и при­знаки-причины (независимые, экзоген­ные). Однако в системе уравнений эндо­генные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:

х 2
/ N
*1 К
г
к S

Построение диаграммы связей явл. необходимой предпосылкой матем. фор­мулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построе­ния системы регрессионных уравнений проиллюстрируем на примере тех же че­тырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-

АНАЛИЗ ПРИЧИННЫЙ


ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непо­средственно), так и косвенно (опосредо­ванно) и через др. признаки. Первое стан­дартизированное регрессионное уравне­ние соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.

Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответ­ствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулиру­ется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандарти­зованных регрессионных моделей для нашей конкретной причинной диа­граммы имеет вид: Х\ = Ui, А? =

- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -

- baXi + binXi + Й43А3 + Щ. Чтобы оце­нить коэффициенты b, s , необходимо ее решить. Решение существует при усло­вии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называют­ся причинными коэффициентами и час­то обозначаются как Ру. Т.о., Р# показы­вает ту долю изменения вариации эндо­генного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влия­ние остальных признаков уравнения ис­ключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эф­фект признака j на;) вычисляется на ос­нове учета всех путей влияния j на i за исключением прямого.

На диаграмме прямое влияние перво­го признака на четвертый схематически представление прямой стрелой, непо­средственно идущей от Χι к Xt, символи­чески изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. об­разом.

Пусть У, Х\, Хг, ..., Х р - случайные
величины с заданным совместным рас­
пределением вероятностей.
Если для каж­
дого набора значений Χ λ =х\, Х 2 = хг, ...,
Х р = х р определено условное матем. ожи­
дание Υ(χ\, Х2, ..., Хр) - E(Y/(X] = xj,
Χι = Х2, ..., Х р = Хр)), то функция Υ(Χ],
Х2,
..., Хр) называется регрессией величи­
ны У по величинам Х\, Хг, ..., Х р, а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави­
симость У от ΛΊ, Хг ....... Х р проявляется в

изменении средних значений Упри из­
менении Х\, Хг ........ Хр. Хотя при каждом

фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеяни­ем. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, использует­ся средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом прибли­жающей искомую кривую. Делается это с помощью метода наименьших квадра­тов, когда минимизируется сумма квад­ратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оцен­ки с помощью прямой линии, претен­дующей на то, чтобы представлять ис­комую регрессионную зависимость): w

У (У -У) => min (Ν - объем выборки), ы

Этот подход основан на том известном факте, что фигурирующая в приведен­ном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение

Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.

Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.

Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.


Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.

Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.