сделать домашней  добавить в избранное  карта сайта RSS
 

Вебинары HRM.RU

Прогноз эффективности кандидатов на основе тестов
Начало 26.05.2017 12.00 (по московскому времени)

Полный список вебинаров

События

полный список

Последние обсуждения

  26.09.2019 16:41:06
Новый уровень безопасности дыхания
  30.08.2019 14:26:41
Worldskills International и 3М запускают новый совместный проект «Образование во имя будущего»
  30.08.2019 11:33:40
Молодые профессионалы за устойчивое будущее
  24.08.2019 14:36:18
Научные эксперименты, продуктовые тесты и мировые технологии для молодых профессионалов
  09.08.2019 16:18:31
Только оригинальные СИЗ обеспечивают гарантированную защиту


Опросы
  Актуальные направления работы HR вашей организации 2017
Все опросы


Крыштановский. Анализ социологических данных. Глава 4. Модели регрессионного
анализа 4.4 Множественный регрессионный анализ

      Тематические разделы:
      Психология, теории HR
      Психология, теории HR : Социальная психология
      Общий менеджмент : Аналитика
      Книги

      Дата публикации: 03.08.2017






      4.4 Множественный регрессионный анализ

      В начале главы, на рис. 4.1 была представлена модель зависимости

      успеваемости от четырех различных характеристик: от уровня подготовки

      студента; активности посещения занятий; активности самостоятельной

      работы; индивидуальных способностей. В дальнейшем мы

      упростили эту модель, сосредоточив свое внимание на анализе воздействия

      только одного фактора — уровня предварительной подготовки

      студента, а остальные показатели, равно как другие, не зафиксированные

      на рис. 4.1, мы объединили в группу «Другие факто-

      4.4. Множественный регрессионный анализ

      ры· и рассматривали их скорее как мешающие построить упрощенную

      модель успеваемости (см. рис. 4.2).

      Благодаря линейной регрессионной модели мы выяснили, что уровень

      предварительной подготовки студентов на 18% определяет их успеваемость

      на первых этапах обучения в вузе, построили модель линейной

      регрессии, которая описывает указанную зависимость (4.6). Попытаемся

      теперь вернуться к рис. 4.1, снова упростив эту модель, но сделав ее

      все-таки сложнее, чем модель на рис. 4.2 (рис. 4.15).

      Рис. 4.15. Упрощенная модель ·Успеваемость студента·

      К сожалению, в нашем распоряжении нет данных, в которых

      систематически фиксировалась бы степень активности самостоятельной

      работы студентов. Ограничимся активностью посещения ими обязательных

      занятий. Будем рассматривать пример, данные которого приведены

      в табл. 4.6.

      Мы могли бы повторить весь путь построения модели простой

      линейной регрессии, изучив зависимость успеваемости от активности

      посещения занятий. Однако модель рис. 4.15 подразумевает исследование

      влияния на успеваемость одновременно двух показателей:

      активности посещения занятий и уровня предварительной подготовки.

      Для построения математической модели одновременного влияния

      нескольких факторов (независимых переменных, предикторов) на зависимую

      переменную используют усложненный вариант простой линейной

      регрессии — модель множественной линейной регрессии.

      Общий вид модели множественной линейной регрессии — это естественное

      развитие уравнения (4.2) для простой линейной регрессии:

      (4.17)

      Глава 4. Модели регрессионного анализа

      Таблица 4.6. Оценки студентов при поступлении в вуз

      и по итогам 1 -го семестра обучения

      Так же, как и в модели простого регрессионного анализа, принимая

      зависимость у от нескольких х в форме (4.17), мы делаем очень

      сильное допущение о линейной форме этой зависимости. Как правило,

      для такого допущения у нас нет сколько-нибудь серьезных социологических

      оснований. Использование модели именно линейного

      регрессионного анализа основано, прежде всего, на хорошей разработанности

      этого метода. Для обоснования применимости данной

      модели к конкретным социологическим данным необходимо провести

      4.4. Множественный регрессионный анализ

      отдельное исследование, о чем мы будем говорить, обсуждая нелинейные

      регрессионные модели.

      Приступая к построению множественной регрессионной модели,

      прежде всего необходимо ответить на вопрос: существует ли вообще

      хоть какая-то зависимость между у и предикторами? Быть может,

      никакой зависимости нет и наши усилия по построению модели

      заведомо обречены на неудачу?

      Как и в ситуации простой регрессионной модели, индикатором

      наличия зависимости выступает коэффициент корреляции Пирсона.

      При выборе независимых переменных для модели (4.17) целесообразно

      вычислить корреляции между у и предикторами.

      Коэффициенты корреляции для данных табл. 4.6 составляют:

      г х] = 0,43; г л = -0,62, они высоко значимы и, следовательно, построение

      модели множественной регрессии для этих данных имеет смысл.

      Точно так же, как и в модели простой регрессии, для вычисления

      значений регрессионных коэффициентов 60, bv b2,..., bn в множественной

      регрессии используется метод наименьших квадратов. И так же,

      как в ситуации простой регрессии, важнейшей задачей является оценка

      точности регрессионных коэффициентов. Формула для оценки стандартной

      ошибки коэффициента регрессии Ъх для случая двух независимых

      переменных приведена ниже (4.18). Формула для оценки стандартной

      ошибки Ъг будет такой же, только индекс хх заменен на хг Эта

      формула отличается от формулы стандартной ошибки для простой линейной

      регрессии (4.11) наличием второго сомножителя.

      (4.18)

      где c.o.Oj — стандартная ошибка коэффициента ЪА; D — дисперсия

      остатка; Dxl — дисперсия хх; п — объем выборки; гЛх2 — квадрат

      коэффициента корреляции Пирсона для переменных х{ и *•'.

      Таким образом, при вычислении стандартной ошибки для регрессионных

      коэффициентов, наряду с дисперсией остатков и дисперсией

      независимой переменной, у нас появляется еще один источник

      ошибки — корреляция между независимыми переменными. При этом

      Глава 4. Модели регрессионного анализа

      из формулы (4.18) следует, что чем больше значение этого коэффициента

      (чем теснее связаны независимые переменные между собой), тем

      больше будет величина стандартной ошибки.

      Точно так же, как и для случая простой регрессии, вычисляются i

      значения ^-статистики (формула (4.14)), которая, с одной стороны,

      показывает, во сколько раз значение регрессионного коэффициента

      больше его стандартной ошибки, с другой стороны, служит для оценки

      вероятности того, что соответствующий регрессионный коэффициент

      равен нулю.

      Как и в случае простой регрессии, нам необходим инструмент

      общей оценки качества построенной множественной регрессионной

      модели. Напомним, что в простой регрессии эту функцию выполнял 1

      коэффициент детерминации Л2 (4.9), который показывает, какую часть

      от общей дисперсии у объясняют независимые переменные. Ничто не

      мешает нам и в множественной регрессионной модели также использовать

      R2 для оценки качества этой модели.

      Дополним табл. 4.6 колонкой у и вычислим значения R2 для этой

      модели (табл. 4.7).

      В обсужденном примере мы получили достаточно большое зна- ]

      чение коэффициента R2 и можем, вроде бы, утверждать, что уровень !

      исходной подготовки студента и активность посещения занятий в зна- |

      чительной степени определяют его успехи в учебе. А если бы R2 оказался

      равен 0,2, либо вообще 0,05? В этом случае наша радость по

      поводу качества построенной модели была бы гораздо скромнее. Более

      того, вполне может возникнуть и более серьезный вопрос: а может

      быть, полученное значение вообще статистическая случайность |

      и связи между анализируемыми показателями на самом деле нет?

      Если аналогичные сомнения возникают у нас в отношении значений

      регрессионных коэффициентов, то, как уже отмечалось, мы

      можем вычислить стандартные ошибки и, используя Г-статистику, про-

      верить, можем ли мы отвергнуть гипотезу о равенстве нулю генерального

      значения соответствующего коэффициента. А есть ли такого рода

      инструменты для R21 Можем ли каким-то образом вычислить доверительный

      интервал для полученного значения R2?

      4.4. Множественный регрессионный анализ

      Таблица 4.7. Оценки студентов при поступлении в вуз

      и по итогам 1-го семестра обучения

      Ответ, к сожалению, отрицательный. У нас нет таблицы критических

      значений R2, и по этой причине мы не можем пойти по пути,

      который используем для оценки значимости регрессионных коэффи-

      Глава 4. Модели регрессионного анализа

      циентов. Метод, который применяется для вычисления уровня значимости

      К1, более громоздкий. Рассмотрим его подробнее.

      В модели регрессионного анализа мы предполагаем, что каждое значение

      зависимой переменной складывается из того значения, которое

      предсказывается моделью, — у, и некоторой ошибки (остатка) — и.

      (4.19)

      В этом случае дисперсия у может быть представлена в виде суммы:

      (4.20)

      Исходя из определения дисперсии перепишем последнее выра

      жение

      (4.21)

      Умножив обе части уравнения на п и вспомнив, что й~ = 0, мы

      получаем выражение:

      (4.22)

      Левая часть уравнения (4.22) представляет собой общую сумму

      квадратов отклонений у от его средней. В литературе это выражение

      принято обозначать знаком TSS (Total Sum of Squares). Первое слагаемое

      в правой части (4.22) является той частью суммы квадратов отклонений

      от средней, которая объясняется регрессионной моделью и

      обозначается как ESS (Explained Sum of Squares). Наконец, последний

      член в уравнении (4.22) есть не что иное, как просто сумма квадрат

      тов остатков RSS (Residuals Sum of Squares)15. Таким образом, уравнение

      (4.22) можно представить в виде:

      (4.23)

      15 Обратите внимание, что в этих обозначениях коэффициент детерминации (4.9)

      „, ESS

      можно переписать как к = — -

      4.4. Множественный регрессионный анализ

      Для оценки значимости коэффициента детерминации R2 используется

      F-статистика, которая вычисляется как отношение средних

      квадратов по формуле:

      (4.24)

      ti — k — X

      где п — число наблюдений; к — число независимых переменных.

      Таким образом, F-статистика представляет собой отношение

      объясненной суммы квадратов (в расчете на одну переменную) к

      необъясненной сумме квадратов (в расчете на одну степень свободы).

      Таблицы критических значений F-статистики приведены во многих

      учебниках и, следовательно, мы легко можем установить уровень значимости

      коэффициента детерминации для конкретного случая, что и

      дает возможность оценки достоверности коэффициента R2.

      К сожалению, данный метод оценки коэффициента детерминации

      не дает возможности построения доверительного интервала для

      R2. Следовательно, получив некоторое значение R2 по результатам анализа

      данных в выборке, мы не сможем оценить значение этого коэффициента

      в генеральной совокупности.

      При выполнении команды регрессионного анализа большинство

      статистических пакетов проводят оценку значимости R2 через разложение

      дисперсии по схеме (4.23) и рассчитывают значение F-статис-

      тики. Команда Regression пакета SPSS выводит эту информацию в

      таблице, называемой ANOVA. В табл. 4.8 и 4.9 приводятся результаты

      выполнения команды Regression пакета SPSS для данных табл. 4.5.

      Во второй колонке Sum of Squares табл. 4.8 находятся суммы квадратов

      из формулы (4.23): в первой строке — ESS, во второй строке —

      RSS, в последней строке — TSS. В колонке Mean Square находятся те

      же суммы квадратов, но уже деленные на числа степеней свободы

      (см. знаменатель формулы (4.24)). В следующей колонке — значение

      ^-статистики, и, наконец, в последней колонке Sig. — тот уровень

      значимости, на котором мы можем отвергнуть гипотезу о равенстве

      нулю R2. Таким образом, табл. 4.7 показывает, что мы можем отвергнуть

      Глава 4. Модели регрессионного анализа

      гипотезу об отсутствии влияния предикторов на .у на уровне значимости

      а = 0,002 < 0,05. Иными словOми, с вероятностью Р = 0,998 мы можем

      заключить, что суммарный балл на вступительных экзаменах и процент

      пропущенных занятий влияют на успеваемость студента.

      Таблица 4.8. Результаты разложения дисперсии

      при выполнении регрессионного

      анализа данных табл. 4.5

      Таблица 4.9. Коэффициенты регрессии при выполнении

      регрессионного анализа данных табл. 4.5

      Coefficients

      В табл. 4.9 мы получили различные показатели, касающиеся per

      рессионных коэффициентов. Смысл и значение этих показателе'

      идентичны смыслу показателей, вычисляемых в случае простой ли

      нейной регрессии (см. табл. 4.4 и комментарии к ней). Однако ест

      одна колонка, значение которой мы пока не обсуждали. Это колонк

      4.4. Множественный регрессионный анализ

      Standardized Coefficients, содержащая стандартизованные коэффициенты

      регрессии.

      Необходимость в стандартизованных коэффициентах регрессии

      продемонстрируем на примере. Изучается влияние на частоту покупки

      определенного товара двух факторов: величины дохода {) и возраста

      покупателя (х2). В результате проведенного регрессионного анализа

      было получено следующее уравнение:

      (4.25)

      где/ — частота покупки товара; JC, — доход; х2 — возраст.

      Влияние обеих переменных на у высоко значимо: ^-статистика

      для о, и Ъ2 равна 10 и 15 соответственно, что явно превышает разумные

      критические значения. При этом, поскольку коэффициент при

      переменной х2 в 15 раз выше, чем коэффициент при xv кажется, что

      на частоту покупки возраст влияет гораздо сильнее, чем доход.

      В этом рассуждении, однако, не учтен один важный факт. А именно

      то, что интервал изменения возраста составляет менее 40 единиц

      (в данном случае — лет), поскольку в исследовании опрашивались

      респонденты от 25 до 60 лет. Интервал изменения дохода составляет

      несколько тысяч единиц (рублей). А именно, масштаб изменениях, в

      сотни раз больше, чем масштаб изменения х2. Таким образом, суммарное

      воздействие дохода может оказаться гораздо существеннее,

      чем суммарное влияние возраста.

      Данная ситуация вполне типична при построении регрессионных

      моделей для анализа социологических данных. Поскольку размерности

      используемых переменных могут быть очень разные, оказывается,

      что регрессионные коэффициенты Ь. часто не дают нам возможности

      сказать, какая же из переменных сильнее влияет на^.

      Для решения задачи сопоставления влияния независимых переменных

      на у используют стандартизованную форму регрессионного

      уравнения. При этом подходе все переменные в уравнении регрессии

      стандартизуют, т.е. вместо у и всех предикторов используют их стандартизованные

      значения:

      (4.26)

      Как изменится регрессионное уравнение, если вместо у их мы

      будем использовать соответственно Z и Z1 Во-первых, поскольку в

      результате преобразования (4.26) не изменятся коэффициенты корреляции

      между всеми переменными, показатель качества регрессионной

      модели R2 не изменится. Во-вторых, если вспомнить, что коэффициент

      60 вычисляется по формуле

      (4.27)

      становится ясно, что при такой замене Ь0 в регрессионном уравнении

      станет равным нулю. В результате стандартизованная форма регрессионного

      уравнения будет выглядеть следующим образом:

      (4.28)

      Что дает нам такая измененная форма уравнения регрессии? Для

      построения нашей модели, вообще говоря, ничего. Поскольку в отличие

      от использовавшихся в основном уравнении предикторов все Zxl

      в уравнении (4.28) имеют одинаковый масштаб измерений, то коэффициенты

      р. в этом уравнении сравнимы между собой. Таким образом,

      сопоставляя эти коэффициенты между собой, мы можем понять,

      какая из переменных оказывает на^ более сильное влияние.

      Таким образом, глядя на коэффициенты Beta колонки 4 табл. 4.9

      видно, что активность посещения занятий влияет на успеваемость студента

      в 1,6 раз сильнее, чем уровень его предварительной подготовки.

      Подчеркнем, что стандартизованные коэффициенты регрессии

      не заменяют нестандартизованных. У них другой смысл и назначение.

      Если нестандартизованные коэффициенты показывают, на сколько

      меняется у при изменении соответствующего х на единицу, стандартизованные

      коэффициенты позволяют сопоставить между собой

      общую степень воздействия каждого из х на у.

      4.4. Множественный регрессионный анализ

      Ограничения модели множественного регрессионного анализа.

      Как и при построении модели простой линейной регрессии, для

      корректного вычисления стандартных ошибок регрессионных коэффициентов

      в модели множественной регрессии необходимо выполнять

      требования нормального распределения остатков регрессии и

      гомоскедастичности. Наряду с этими ограничениями у модели множественной

      регрессии есть и свое специфическое ограничение, которое

      называется требованием отсутствия мулыпиколлинеарности.

      Из формулы (4.18) вычисления стандартной ошибки коэффициентов

      регрессии следует, что наличие высокой корреляции между какой-то

      парой независимых переменных приводит к резкому увеличению значений

      стандартных ошибок у соответствующих регрессионных коэффициентов.

      Рассмотрим пример, поясняющий суть данной проблемы.

      Не вызывает сомнения, что на покупательское поведение человека

      значительно влияет размер его дохода. При этом можно предположить,

      что для товаров, на которые распространяется модель ситуативной

      покупки, более существенно влияние показателя личного

      дохода, а для товаров длительного пользования — среднедушевой

      доход. Предположим, что при изучении моделей потребления некоторого

      товара мы хотим узнать, какой из двух показателей оказывает

      более существенное влияние.

      В табл. 4.10 приведены гипотетические данные по анализируемым

      показателям.

      Таблица 4.10. Матрица, содержащая модельные данные

      по трем выбранным показателям

      На первом шаге анализа построим две модели простой регрессии,

      для того чтобы понять, как влияет на частоту покупки каждый

      из рассматриваемых показателей. В табл. 4.11 представлены результаты

      построения этих моделей.

      Таблица 4.11. Параметры моделей простой линейной

      регрессии при двух различных независимых

      переменных

      4.4. Множественный регрессионный анализ

      Данные табл. 4.11 показывают, что обе модели высоко значимы.

      Что же покажет регрессионная модель с одновременным участием двух

      означенных переменных в качестве независимых?

      Результаты построения этой модели весьма неожиданны. Значение

      R2 этой модели составило 0,32 при значимости 0,04. Это первая

      неожиданность — значимость одновременного воздействия на у двух

      переменных меньше, чем отдельно любой модели.

      Вторую неожиданность дает таблица регрессионных коэффициентов

      (табл. 4.12).

      Таблица 4.12. Регрессионные коэффициенты

      Coefficients

      Из табл. 4.12 следует, что обе переменных оказывают слабо значимое

      влияние на у. Это уже совершенно непонятно, поскольку R2

      Достаточно высоко значим, т.е. совокупное влияние двух переменных

      существенно.

      Объяснение этим парадоксам легко найти, если подсчитать коэффициент

      корреляции Пирсона двух независимых переменных. Он

      составляет 0,82 и, следовательно, в данном примере мы столкнулись

      со случаем нарушения ограничения мультиколлинеарности. Оказывается,

      что в ситуации сильной корреляции независимых переменных

      Доверять оценкам коэффициентов регрессии нельзя. Следовательно,

      мы не можем решить задачу выявления более сильно влияющих факторов

      с использованием метода множественной регрессии.

      Визуальный контроль диаграммы рассеяния часто показывает,

      что даже когда большинство точек лежит более или менее близко к

      регрессионной прямой, есть, как правило, небольшое число точек, у

      которых расстояние с прямой весьма велико. На рис. 4.16 показана

      диаграмма рассеяния для гипотетического массива данных по 20 наблюдениям.

      Регрессионная модель достаточно хорошо описывает дан-

      Рис. 4.16. Диаграмма рассеяния для гипотетического примера

      Однако на диаграмме можно увидеть две точки, которые располагаются

      достаточно далеко от прямой (на рис. 4.16 они обведены

      кругами). С социологической точки зрения наличие такого рода точек

      достаточно примечательно. Оказывается, что есть два наблюдения,

      которые, по всей видимости, плохо вписываются в ту тенденцию,

      которая существует для 18 остальных наблюдений. Такого рода точки,

      резко выпадающие из общей тенденции и соответственно далеко

      отстоящие от регрессионной прямой, в регрессионном анализе принято

      называть выбросами.

      Наличие выбросов — весьма негативный факт, как с математической,

      так и с содержательной точки зрения. С математической точки

      зрения выбросы ухудшают нормальность распределения остатков

      и увеличивают их дисперсию, что влечет увеличение стандартных

      ошибок регрессионных коэффициентов и уменьшение коэффициента

      4.4. Множественный регрессионный анализ

      детерминации. С социологической точки зрения все еще хуже. Возникает

      подозрение, что наши данные неоднородны. В них есть часть

      наблюдений, для которых характерен один вид зависимости у от х, и

      другая часть, у которых эта зависимость иная. Мы же строим для всех

      данных одну, единую модель, которая в результате не будет описывать

      ни одну из этих частей данных. В некотором смысле все это напоминает

      вычисление средней температуры по больнице, в которой у половины

      больных температура 42°, а у половины — 32°. В среднем

      температура составляет 37°, и, опираясь на эту цифру, можно сказать,

      что больные, в основном, близки к выздоровлению.

      Следует отметить, что появление выбросов при построении регрессионных

      моделей для социологических данных — явление весьма

      распространенное. Одной из причин их появления бывают ошибки

      ввода данных. Например, при вводе данных в компьютер для показателя

      дохода оператор совершил ошибку и вместо ·10 000 рублей·

      ввел ·1000 рублей·. При построении регрессионной модели эта анкета,

      скорее всего, окажется выбросом. Таким образом, анализ выбросов

      может служить эффективным инструментом контроля данных.

      Второй причиной появления выбросов при анализе социологических

      данных является попадание в выборку специфических совокупностей

      респондентов, которые по некоторым параметрам резко

      отличаются от остальной выборки. Например, при сборе данных по

      всероссийской выборке в массив вполне могут попасть работники

      нефтедобычи из Тюменской области. Поскольку средние зарплаты у

      данной категории респондентов значительно выше, чем в среднем по

      стране, то при построении регрессионной модели они могут оказаться

      выбросами. Очевидно, в такой ситуации строить общую модель

      нецелесообразно. Следует разделить массив на достаточно однородные

      группы и построить модели для каждой из них. Таким образом,

      анализ выбросов может помочь выделить специфические группы респондентов

      из общего массива данных.

      К чему приведет удаление выбросов из данных примера на

      Рис. 4.16? Во-первых, к резкому улучшению качества модели регрессии.

      Коэффициент детерминации вырос с 0,44 до 0,72. Стандартные

      ошибки регрессионных коэффициентов уменьшились в 1,5 раза.

      Глава 4. Модели регрессионного анализа

      Во-вторых, изменились сами значения регрессионных коэффициентов,

      т.е. изменилось содержание регрессионной модели. По нашему мнению,

      модель с удаленными выбросами адекватнее отражает исследуемые закономерности.

      Важным вопросом, который необходимо решить при анализе

      выбросов, является следующий: в какой момент определенное наблюдение

      следует считать выбросом? Две точки, обозначенные на рис. 4.16

      как выбросы, для наглядности изображены действительно далеко отстоящими

      от прямой. А если бы они располагались чуть-чуть ближе к

      прямой, они все равно являлись бы выбросами, или уже нет? Где та

      граница, которая отделяет выбросы от «нормальных» данных?

      Однозначного ответа на этот вопрос нет. В каждом конкретном

      случае ответ приходится искать исходя, прежде всего, из решаемой

      социологической задачи.

      Определяя какое-то наблюдение как выброс, мы исходим из величины

      остатка. Остаток—это расстояние между реальным значением

      у, которое есть у данного респондента, и значением у, которое

      предсказывает респонденту модель. Исходя из того, что такое в нашей

      задаче у, мы и задаем границу, определяющую выброс. Например,

      при построении модели влияния уровня предварительной подготовки

      на успеваемость студента в качестве у у нас выступал средний

      балл, полученный студентом в 1-м семестре (см. табл. 4.1, рис. 4.3)J

      Как выбросы определим наблюдения, для которых остаток превышает

      15 по абсолютной величине. Почему мы выбрали «15» в качестве

      границы? Исходя из здравого смысла — кажется, что те респонденты,

      у которых предсказанное значение среднего балла за 1-й семестр отличается

      от реального на 15 и более, плохо вписываются в построенную

      модель и этих респондентов из модели лучше удалить.

      А можно ли было взять в качестве порогового значения 10? Ведь

      отклонение на 10 тоже достаточно сильное. При определении порогового

      значения для выбросов необходимо обратить внимание на дисперсию

      остатков. Для данных табл. 4.1 и регрессионной модели (4.6)

      стандартное отклонение а остатков составляет 11,3. Отсюда следует,

      что если мы будем использовать 10 в качестве границы (величин

      меньше а), то, в силу требования нормальности распределения остат

      4.4. Множественный регрессионный анализ

      1

      ков, в выбросы у нас попадет более — случаев, что весьма нежелательно.

      Следовательно, при определении границы выбросов важным

      фактором выступает разброс остатков.

      Команда Linear Regression пакета SPSS предлагает в качестве

      выбросов считать случаи, когда значение остатка выходит за границу

      трех стандартных отклонений остатков (используется правило За).

      На рис. 4.17 приведено меню Statistics команды Linear Regression, в

      котором обведена часть, фиксирующая диагностику выбросов. Заметьте,

      что предлагается выбросами считать значения остатков, выходящие

      за За. Однако, в том окне, где на рис. 4.17 стоит цифра ·3·,

      можно указать и любое другое целое число.

      Рис. 4.17. Меню Statistics команды Linear Regression

      При выборе параметров, обозначенных в меню, команда регрессии

      напечатает номера тех наблюдений, в которых значения остатков

      выходят за границы трех стандартных отклонений.

      Наряду с теми ограничениями метода линейного регрессионного

      анализа, о которых мы говорили (нормальность распределения ос-

      Глава 4. Модели регрессионного анализа

      татков; гомоскедастичность; отсутствие мультиколлинеарности), есть

      еще одно очень серьезное ограничение — уровень измерения переменных,

      используемых в модели. Все рассуждения, статистические

      характеристики и меры связи, которые использовались при построении

      модели регрессии, применимы только к показателям, измеренным

      на интервальном или абсолютном уровнях16. В отношении социологических

      данных это очень неприятно, поскольку большинство переменных,

      с которыми работают социологи, измерены на порядковом

      или номинальном уровнях.

      Если не преодолеть ограничение на уровень измерения переменных,

      окажется, что область применения регрессионных моделей в социологии

      весьма ограничена. Оказывается, что преодолеть это ограничение

      можно, причем несколькими путями.

      В табл. 4.13 приведены модификации регрессионного подхода

      для ситуаций с разным уровнем измерения переменных.

      Таблица 4.13. Разновидности регрессионных моделей в

      зависимости от уровня измерения переменных

      Несмотря на кажущуюся сложность и объемность табл. 4.13 (и

      соответственно многообразие регрессионных моделей), в ней легко

      разобраться, если учесть, что во всех моделях, наряду с классической

      идеей регрессии, присутствуют еще два новых подхода. Во-первых,

      это идея фиктивных переменных и, во-вторых, идея логитов.







      Share |

       

      Версия для печати

      Читайте также
      Часть IV. ТЕХНОЛОГИИ И МЕТОДЫ УПРАВЛЕНИЯ ПЕРСОНАЛОМ. Глава 9. Методы оптимизации кадрового состава и реорганизации структуры.

      Об управленческих командах и их создании специалисты в области высокоэффективного менеджмента, организационного развития и социальной психологии заговорили относительно недавно, чуть больше 30 лет назад. Первые исследования командной деятельности, опубликованные в начале 60-х годов, были посвящены поискам способов повышения эффективности и продуктивности управленческого труда.
      Как ужиться с плохим начальником

      Наладить отношения с ненавистным боссом поможет одна из четырех стратегий
      Мотивы поведения людей на рабочем месте

      Выполняя работу, человек руководствуется в своей деятельности далеко не одним мотивом, а разнонаправленными мотивами или сложной цепочкой последовательно связанных мотивов. Узнайте основные мотивы, влияющие на поведение человека на рабочем месте.


      Эффект домино. Перемены в организации начинаются с ее сотрудников

      Эффективное развитие компании всегда требует значительных стартегических изменений. Однако организации часто упускают из виду явные изменения на рынке и не могут вовремя оценить сложившуюся ситуацию. Людям не удается осуществить перемены, даже когда они чувствуют их необходимость. А начатые изменения глохнут в рутине повседневности. Многие, лишь оказавшись в кризисной ситуации, приступают к изменениям, но даже в этом случае не могут довести их до логического конца.

      Анонс книги издательства Юрайт

      Молодежь ставит содержание работы выше высокой зарплаты
      Имя 
      Пароль  забыли?
      Присоединяйтесь!

      Новые материалы

         Названы самые высокооплачиваемые вакансии в Башкирии
         Не все профессии равны. Вчерашние школьники идут в телевизионщики и PR
         Новочебоксарские безработные граждане обучаются востребованным профессиям
         Где в Уфе заработать 100 тысяч рублей в месяц
         Сколько в среднем получают владимирские врачи?


      Последние комментарии

        
         мне приятно Вас читать 99 % читаемое мной - мусор... А на ваших постах глаза отдыхают 
         Действительно, Эдуард, что это я! Всё ещё hr, всё ещё пишу - с удовольствием вернусь)))
         Марина, вы вернетесь к нам или уже все?)
         вы можете оставлять активную ссылку на источник 
      Все статьи


      Интервью




      Публикую статью Алексея Королькова с видеокомментарием
      все интервью


      О проекте      Реклама       Подписка       Контакты       Rambler's Top100 Яндекс цитирования ©2000-2011, HRM