§2. Определение параметров линейного однофакторного уравнения регрессии

К оглавлению
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 
35 36 37 38 39 40 41 42 43 44 

Пусть у нас имеются данные о доходах (х) и спросе на некоторый

товар Си) за ряд лет (п):

Год

1

2

3

п

Доход

X

*1

*2

хз

*п

Спрос

У

У\

У2

Уз

Уп

Предположим, что между х и у существует линейная взаимосвязь,

т.е.

у = а + Ьх.

Для того, чтобы найти уравнение регрессии, прежде всего

нужно исследовать тесноту связи между случайными величинами

х и у, т.е. корреляционную зависимость.

Пусть

х\, Х2, ..., хп — совокупность значений независимого, факторного

признака;

Уи У2> •••> Уп ~ совокупность соответствующих значений зависимого,

результативного признака;

п — количество наблюдений.

Для нахождения уравнения регрессии вычисляются следующие

величины:

1. Средние значения

X -

Х\ + Х2 + ... + Хп

п

п

77 _ 1 = 1

5>/

/=1 п для экзогенной переменной;

для эндогенной переменной.

2. Отклонения от средних величин

АХ; -х, АЛ = у-1 - У •

3. Величины дисперсии и среднего квадратичного отклонения

5>/2

стх = V А с >

ЕАЛ

2

Я = ^

^ л-1

^ = 7^7-

Величины дисперсии и среднего квадратичного отклонения

характеризуют разброс наблюдаемых значений вокруг среднего

значения. Чем больше дисперсия, тем больше разброс.

4. Вычисление корреляционного момента (коэффициента ко-

вариации):

п

X АХ; • Ays

Ах{ • Ayi + Ах2 • Ау2 + ... + Ахп • Ду„ /=1

*•' ~ Л-1 /1-1

Корреляционный момент отражает характер взаимосвязи между

х и у. Если Кх у > 0, то взаимосвязь прямая. Если Л^ у < О, то

взаимосвязь обратная.

5. Коэффициент корреляции вычисляется по формуле

R - Кх^ х, У ~

ахау

Доказано, что коэффициент корреляции находится в интервале

от минус единицы до плюс единицы (-1 < Rxy< 1). Коэффициент

корреляции в квадрате (R^y) называется коэффициентом

детерминации.

Если RXt у > |0,8|, то вычисления продолжаются.

6. Вычисления параметров регрессионного уравнения.

Коэффициент b находится по формуле

ь=Кх'у

Dx

После чего можно легко найти параметр а:

а = у - Ъх .

Коэффициенты а и b находятся методом наименьших квадратов,

основная идея которого состоит в том, что за меру суммарной

погрешности принимается сумма квадратов разностей

(остатков) между фактическими значениями результативного

признака yt и его расчетными значениями д>/р, полученными

при помощи уравнения регрессии

yip =a + bxt.

При этом величины остатков находятся по формуле

Щ = У! ~ yip,

где yi — фактическое значение у; yt p — расчетное значение у.

Пример. Пусть у нас имеются статистические данные о доходах

(х) и спросе (у). Необходимо найти корреляционную зависимость

между ними и определить параметры уравнения регрессии.

Год

1

2

1 3

4

5

6

Доход

X

10

12

14

16

18

20

Спрос

У

6

8

8

10,3

10,5

13

Предположим, что между нашими величинами существует

линейная зависимость.

Тогда расчеты лучше всего выполнить в Excel, используя статистические

функции:

СРЗНАЧ — для вычисления средних значений;

ДИСП — для нахождения дисперсии;

СТАНДОТКЛОН — для определения среднего квадратичного

отклонения;

КОРЕЛЛ — для вычисления коэффициента корреляции.

Корреляционный момент можно вычислить, найдя отклонения

от средних значений для ряда х и ряда у, затем при помощи

функции СУММПРОИЗВ определить сумму их произведений,

которую необходимо разделить на я-1.

Результаты вычислений можно свести в таблицу 2.1.

Т а б л и ц а 2.1

Параметры линейного однофакторного уравнения регрессии

Показатели

Среднее значение

Дисперсия

Среднее квадратичное отклонение

Корреляционный момент

Коэффициент корреляции

Параметры

X

15

14

3,7417

8,96

0,9712

Ъ = 0,64

У

9,3

6,08

2,4658

а = -0,3

В итоге наше уравнение будет иметь вид

у = -0,3 + 0,64* .

Используя это уравнение, можно найти расчетные значения

у и построить график (рис. 2.2).

14т

12

о

8.

I 1 0

8

6

у = а + Ьх

)г 1 1

2 \

i i

• / •

^ /

i

10 12 14 16 18 20

х (доходы)

Ломаная линия на графике отражает фактические значения

у, а прямая линия построена с помощью уравнения регрессии и

отражает тенденцию изменения спроса в зависимости от дохода.

Однако встает вопрос, насколько значимы параметры а и 6?

Какова величина погрешности?