сделать домашней  добавить в избранное  карта сайта RSS
 

Вебинары HRM.RU

Полный список вебинаров

События

полный список

Последние обсуждения



Опросы
Все опросы

Крыштановский. Анализ социологических данных. Глава 4. Модели регрессионного
анализа 4.3 Ограничения модели регрессии

      Тематические разделы:
      Психология, теории HR
      Психология, теории HR : Социальная психология
      Общий менеджмент : Аналитика
      Книги

      Дата публикации: 01.08.2017






      4.3 Ограничения модели регрессии

      Изложенные методы вычисления и оценки качества модели регрес

      сии в целом, равно как и параметров регрессии в частности, справед

      ливы не всегда. Вполне возможно, что поведение исходных данны

      не позволит использовать стандартный регрессионный подход. Прин

      ципиально важно, что те ограничения, которые предъявляет к дан

      ным статистическая модель регрессионного анализа, одновременн

      оказываются требованиями и к содержательным социологически

      моделям, которые строятся на основе моделей регрессионных.

      Нормальность распределения остатков. Построение довери

      тельных интервалов при оценке коэффициентов регрессии происхо

      дит в предположении, что возможные значения этих коэффициенте

      подчиняются закону нормального распределения. Выражение (4.13

      базируется на этом допущении.

      В свою очередь, данное предположение напрямую основано н

      предположении о нормальном распределении остатков и. А почем"

      собственно, такое предположение должно выполняться, бывают л

      случаи его невыполнения, и что это значит?

      На рис. 4.7 представлена функция плотности нормального распре

      деления. Глядя на этот рисунок, кажется, что требование к нормальности

      распределения остатков является вполне логичным. С определенным

      упрощением можно считать, что это требование означает: маленьких остатков

      должно быть много, а больших остатков — мало. Другими словами,

      основная масса точек должна лежать близко к регрессионной прямой,

      и чем дальше от прямой, тем точек должно быть меньше, и лишь

      небольшое число точек может лежать далеко от прямой.

      Из этого рассуждения не следует, однако, что это должно быть

      именно нормальное распределение. Здесь вступает в силу другое со-»

      ображение, затрагивающее сущность остатков. Из нашей модели

      (см. рис. 4.2) следует, что остатки — это результат действия большого

      числа разнообразных факторов («Другие факторы»), которые воз-

      4.3. Ограничения модели регрессии

      действуют на показатель ·Успеваемость·, кроме показателя ·Уровень

      предварительной подготовки·. Можно предположить, что ни один из

      большого количества ·Других факторов· не влияет на успеваемость

      в большей степени, чем другие.

      -4,0-3,5-3,0-2,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

      Рис. 4.7. Функция плотности нормально распределенной

      случайной величины (со средним = 0 и дисперсией = 1)

      В этой ситуации вступает в силу одна из центральных теорем

      теории вероятностей — центральная предельная теорема. Она утверждает,

      что ·если случайная величина является общим результатом

      взаимодействия большого числа других случайных величин, ни одна

      из которых не является доминирующей, то он будет иметь приблизительно

      нормальное распределение·12. Исходя из этой теоремы предположение

      о нормальности распределения остатков выглядит вполне

      естественным.

      Что произойдет, если условие нормальности распределения остатков

      будет нарушено? Прежде всего, это значит, что мы не сможем

      пользоваться формулами определения доверительных интервалов для

      г См.: Доугерти К. Введение в эконометрику. С. 82.

      коэффициентов регрессии. А раз так, то у нас нет возможности переносить

      результаты, полученные на выборке, на характеристики генеральной

      совокупности. И, следовательно, вычисленная по выборке прямая

      регрессии будет представлять ценность лишь для этой выборки.

      Рассмотрим гипотетический пример, в котором нарушается правило

      нормальности распределения остатков. На рис. 4.8 показана диаграмма

      рассеяния для данных об оценках на вступительных экзаменах

      и о суммарном балле по итогам 1 -го семестра для 40 студентов.

      125 -| Суммарный балл по итогам 1-го семестра

      Рис. 4.8. Гипотетический пример распределения оценок

      при поступлении в вуз и оценок за 1-й семестр обучения

      Коэффициент линейной корреляции Пирсона для этих данных

      составляет 0,33 и значим на уровне а = 0,03. Следовательно, мы можем

      утверждать, что модель линейной зависимости между переменными

      имеет место. Параметры линейной регрессии даны в (4.16) (в

      скобках — значения стандартных ошибок):

      (4.16)

      4.3. Ограничения модели регрессии

      Таким образом, представляется, что мы вполне можем анализировать

      регрессионную модель. Проверим, однако, выполняется ли для

      данных рис. 4.8 требование нормальности распределения остатков.

      На рис. 4.9 изображена гистограмма распределения остатков.

      12 и Количество остатков

      -15,0 -11,0 -7,0 -3,0 0,0 4,0 8,0 12,0 17,0

      -13,0 -9,0 -5,0 -1,0 2,0 6,0 10,0 14,0

      Значения остатков

      Рис. 4.9. Гистограмма распределения остатков

      для регрессионной модели рис. 4.8

      Рисунок 4.9 показывает, что распределение остатков явно отличается

      от нормального. Многие авторы указывают, что когда идет контроль

      на нормальность распределения остатков регрессии, нет необходимости

      требовать жесткого выполнения этого требования13. Однако

      гистограмма (см. рис. 4.9) слишком не похожа на нормальную

      кривую. Она больше напоминает гистограмму случайной величины,

      которая является суммой двух нормально распределенных случайных

      величин с разными средними. Какие выводы можно сделать из такого

      13 См., например: Тюрин Ю.Н., Макаров А. А. Статистический анализ данных на

      компьютере. С. 255.

      Глава 4. Модели регрессионного анализа

      распределения остатков? Первый вывод — пользоваться значениями

      регрессионных коэффициентов и стандартных ошибок (4.16) для определения

      с фиксированной вероятностью доверительных интервалов для

      регрессионных коэффициентов, базируясь на формуле (4.13), нельзя.

      Второй вывод более содержателен. Гистограмма на рис. 4.9 показывает,

      что в нашей модели достаточно много больших положительных

      и достаточно много больших отрицательных остатков. Остатков

      маленьких по абсолютной величине относительно немного.

      Из этого следует, что часть данных лежит выше регрессионной прямой,

      а часть — ниже. Отсюда можно сделать вывод, что наши данные

      представляют собой совокупность двух существенно разных массивов

      данных. В каждом из этих массивов, по всей видимости, наблюдается

      своя форма зависимости между уровнем предварительной подготовки

      студента и успешностью его обучения в вузе.

      Если вернуться к формулировке центральной предельной теоремы,

      можно предположить, что нарушение нормальности остатков произошло

      потому, что один из факторов, входящих в состав «Других

      факторов» (рис. 4.2), оказывает доминирующее влияние на величины

      остатков и что, следовательно, нормальное распределение может

      быть нарушено.

      Выделим из данных (рис. 4.8) точки, которые лежат выше регрессионной

      прямой (массив 1), и точки, которые лежат ниже регрессионной

      прямой (массив 2), и построим регрессии для каждого из

      этих массивов (рис. 4.10).

      Две построенные регрессионные модели имеют показатели качества

      гораздо более высокие, чем одна модель, общая для всех данных.

      Если общая модель имела значение R2 = 0,11, модель для массива 1

      имеет R2 = 0,61, а для массива 2 —R2 = 0,60. Значительно отличаются

      и параметры моделей: для массива 1 Ь0 = 83,1 (5,5); Ъх = 1,14 (0,22).

      Для массива 2 Ь0 = 65,9 (6,8); 6, = 1,38 (0,26).

      Таким образом, контроль на нормальность распределения остатков

      позволил получить важный результат. Наши данные содержат две

      разные совокупности респондентов и в каждой из этих совокупностей

      наблюдаются свои закономерные взаимосвязи между уровнем исходной

      подготовки и успеваемостью. К сожалению, метод регрессионного

      анализа не может сказать, что это за две совокупности. Мо-

      4.3. Ограничения модели регрессии

      жет быть, это юноши и девушки, может быть — студенты из Москвы

      и из других городов и т.д. Наша задача — это поиск признака, который

      делит всю совокупность опрошенных на две группы. Важно, что

      с помощью контроля формальных ограничений метода регрессионного

      анализа мы вышли на интересный социологический результат.

      Рис. 4.10. Разбиение данных рис. 4.8 на 2 массива данных

      и построение регрессионной модели для каждого из массивов

      Равная дисперсия распределения остатков (гомоскедастич-

      ность). Это ограничение метода достаточно легко понять. На рис. 4.11

      показан гипотетический пример распределения данных, который демонстрирует,

      что с увеличением значения х возрастает разброс (дисперсия)

      точек вокруг регрессионной прямой.

      К чему приводит такая картина данных с точки зрения оценок

      регрессионных коэффициентов? В формулах (4.10) и (4.11) для оценки

      стандартных ошибок коэффициентов Ь0 и 6, присутствует величина

      Du — дисперсия остатков. Для данных, представленных на рис. 4.11,

      дисперсия остатков составляет 21,7. Однако, если разбить весь массив

      данных на студентов, получивших на вступительных экзаменах

      невысокий балл (х < 25), и студентов, получивших высокий балл

      Глава 4. Модели регрессионного анализа

      (х > 25), окажется, что дисперсия остатков в этих двух массивах существенно

      разная. Для тех, у кого х < 25, дисперсия остатков равна 7,5, а >

      для тех, у кого х > 25, она равна 33,8.

      Рис. 4.11. Гипотетический пример с нарушением однородности распределения

      данных вокруг регрессионной прямой

      В табл. 4.5 приведены значения параметров регрессии, рассчитанные

      для данных в целом и для двух подмножеств данных.

      Данные табл. 4.5 показывают, что значения самих регрессионных

      коэффициентов во всех трех моделях одинаковы. Однако стандартные

      ошибки регрессионных коэффициентов для тех данных, у

      которых х > 25, гораздо больше, чем те, которые мы получаем, основываясь

      на данных массива в целом14. Следовательно, базируясь на

      14 Обратите внимание, что и для части массива с х < 25 стандартные ошибки

      коэффициентов также больше, чем для массива в целом, хотя и не столь существенно.

      Это может показаться странным, учитывая тот факт, что дисперсия остатков для этой

      части массива значительно меньше, чем у массива в целом. Однако, как указывалось

      при обсуждении формул (4.10) и (4.11), стандартные ошибки зависят не только от дисперсии

      остатков Du, но и от дисперсии х и объема выборки п, причем обе величины

      стоят в знаменателях формул для определения стандартных ошибок. Поскольку ди-

      4.3. Ограничения модели регрессии

      общей для всего массива данных линии регрессии, мы рискуем дать

      ошибочную модель, по крайней мере, для части массива.

      Таблица 4.5. Характеристики регрессионных моделей для

      данных гипотетического примера рис. 4.11

      и для двух подмножеств данных

      Таким образом, обязательным условием для построения регрессионной

      модели является требование одинакового разброса наблюдений

      вокруг линии регрессии для всех значений х. Это требование называется

      требованием гомоскедастичности, что означает одинаковый разброс.

      С социологической точки зрения нарушение гомоскедастичности,

      т.е. гетероскедастичностъ, фактически означает, что для разных

      значений х мы должны строить разные регрессионные модели. Действительно,

      пример (см. рис. 4.11) показывает, что характер зависимости

      между уровнем предварительной подготовки студента и его

      успехами в начале обучения в вузе для студентов, набравших на вступительных

      экзаменах не более 25 баллов, существенно отличается от

      аналогичной зависимости для студентов, набравших более 25 баллов.

      В первой группе студентов зависимость между оценками на вступительных

      экзаменах и оценками в вузе гораздо более тесная, чем для

      студентов второй группы. Даже простой подсчет коэффициента корреляции

      Пирсона для этих двух показателей показывает, что в первой

      группе г = 0,72, а во второй — г = 0,34.

      сперсия х для массива х < 25 уменьшилась (ведь х меняется в этом подмассиве от 21

      До 25, а не от 21 до 29, как во всем массиве), равно как и уменьшилось я, то, несмотря

      на уменьшение Z>u, значения стандартных ошибок все равно возросли.

      Глава 4. Модели регрессионного анализа

      Основным выводом, который можно сделать при обнаружении

      гетероскедастичности, является необходимость разделения массива на

      несколько относительно гомоскедастичных подмассивов и построение

      для каждого из них отдельной модели регрессии. Представляется,

      что при таком подходе и с содержательной точки зрения результаты

      будут гораздо адекватнее.

      Проверка ограничений регрессионной модели. Как уже отмечалось,

      основной метод контроля нормальности распределения остатков

      и гомоскедастичности — это анализ остатков. Большинство статистических

      пакетов анализа данных предоставляют для этого удобные

      средства. В рамках команды Regression пакета программ SPSS

      последовательность действий будет следующей.

      1. В меню команды Linear Regression, после задания зависимой

      и независимой переменных, необходимо выбрать меню, вызываемое

      клавишей Save (рис. 4.12).

      Puc. 4.12. Меню команды Linear Regression пакета программ SPSS

      2. В меню Save в разделе ·Residuals· (остатки) необходимо по

      ставить галочку против позиции Unstandardized (не стандартизован

      4.3. Ограничения модели регрессии

      ные) (рис. 4.13). Это приведет к созданию в матрице данных SPSS

      новой переменной со служебным именем res_l. В качестве значений

      данной переменной будут находиться остатки, вычисленные командой

      Regression для линейной регрессионной модели. На рис. 4.14 приводится

      фрагмент матрицы данных SPSS для примера рис. 4.11с вновь

      созданной переменной res_l.

      Puc. 4.13. Меню Save команды Regression

      3. Полученные таким образом значения переменной r e s l можно,

      с помощью команд меню Graphs Histogram, проверить на нормальность

      распределения остатков. Методом построения двумерного

      графика (Graphs Line) можно оценить гомоскедастичность. В последнем

      случае в качестве переменной по оси х следует использовать

      независимую переменную из регрессионной модели, а в качестве переменной

      по оси у — переменную со значениями остатков.

      Рис. 4.14. Фрагмент матрицы данных SPSS

      с добавленной переменной r e s l



      Share |

       

      Версия для печати

      Читайте также

      Секрет успешной работы с фрилансерами
      Секрет успешной работы с фрилансерами

      В этой заметке открывается секрет и большая тайна. Все знают, что, работая с фрилансером, можно получить как отличный результат, так и большую головную боль. Но от чего этот результат зависит, знают очень немногие. Я знаю. И вам расскажу.

      Каким должен быть рацион офисного сотрудника: исследования
      На работе важно чувствовать себя счастливым
      Как объяснить начальнику, что вы перегружены работой?

      Поговорите с руководством начистоту и предложите решение проблемы

      Хорошая идея: новая комбинация старых элементов
      Хорошая идея: новая комбинация старых элементов

      Рождение новых идей напоминает создание рецепта нового блюда. Для этого необходимо лишь взять некоторые хорошо известные вам ингредиенты и соединить их новым способом. Идеи возникают в результате комбинации, связи, сопоставления, синтеза или ассоциации уже известных понятий.

      Имя 
      Пароль  забыли?
      Присоединяйтесь!

      Новые материалы


      Последние комментарии

      Все статьи


      Интервью




      Публикую статью Алексея Королькова с видеокомментарием
      все интервью


      О проекте      Реклама       Подписка       Контакты       Rambler's Top100 Яндекс цитирования ©2000-2011, HRM