Các biến phụ thuộc bị giới hạn
Trong những trường hợp như vậy thì biến phụ thuộc của chúng ta có hai tính chất (nó là một biến
giả, biến nhị thức, biến định tính . . .). Các biến giả được bổ sung dễ dàng vào mô hình hồi qui bội
dưới dạng biến giải thích, nhưng trong việc sử dụng chúng dưới dạng biến phụ thuộc lại đòi hỏi các
kỹ thuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Niên Khóa 2007 - 2008
Các biến phụ thuộc bị giới hạn
Chúng ta có thể tiếp xúc với các dữ liệu liên quan đến các trường hợp như: tại sao có những người
nằm trong lực lượng lao động và một số người khác thì không, tại sao có những người nằm dưới
mức nghèo đói và có những người lại nằm trên mức đó, tại sao có những người sở hữu một căn nhà
và những người khác thì không, tại sao một loại thuốc mới khi lâm sàng thể nghiệm thì có tác dụng
với một số người nhưng lại không có tác dụng với người khác, tại sao có sinh viên theo học đại học
điểm của họ lại được cải thiện còn các sinh viên khác thì không. Như vậy có rất nhiều trường hợp
mà chúng ta sẽ nghiên cứu giống như những trường hợp đã nêu ở trên.
Để giải thích tại sao lại xảy ra những trường hợp như vậy, hay nói khác đi là chúng ta muốn tìm ra
những nhân tố ảnh hưởng đến các trường hợp "có" hoặc "không" thì cần thiết phải áp dụng công cụ
kinh tế lượng quen thuộc.
Trong những trường hợp như vậy thì biến phụ thuộc của chúng ta có hai tính chất (nó là một biến
giả, biến nhị thức, biến định tính . . .). Các biến giả được bổ sung dễ dàng vào mô hình hồi qui bội
dưới dạng biến giải thích, nhưng trong việc sử dụng chúng dưới dạng biến phụ thuộc lại đòi hỏi các
kỹ thuật đặc biệt. Mô hình áp dụng cho trường hợp này là mô hình xác xuất.
Có ba mô hình xác xuất khác nhau:
1) LPM (Linear probability model) dùng phương pháp ước lượng OLS
2) Logit dùng phương pháp ước lượng CDF (cummulative distribution function)
3) Probit dùng phương pháp ước lượng CDF (cummulative distribution function)
LPM Mô hình xác suất tuyến tính.
Bằng mô hình xác suất tuyến tính chúng ta có thể hiểu được điểm mấu chốt của phép hồi qui mà
biến phụ thuộc có hai tính chất.
Hàm hồi qui tổng thể có dạng:
Y = β + β2X2i +β3X3i +L βKXKi +εi
i 1 +
E Y| X'] =β1 + β2Xi +β3Xi +L+ βKX + E εi
[i s 2 3 Ki [ ]
EY] = β1 + β2X2i + β3X3i + L+ βXKi
[i
Nếu chúng ta viết E[Y| X] thì có nghĩa là giá trị kỳ vọng của biến phụ thuộc hai tính chất có điều
kiện của biến hồi qui X. Nói cách khác, xác suất để biến phụ thuộc này bằng một là một hàm tuyến
tính của các biến hồi qui X. Chúng ta có thể chứng minh điều này như sau:
Biến ngẫu nhiên Yi này có phân phối xác suất rời rạc như sau:
Yi Pr(Y = Yi)
1 p
0 1-p
Nguyễn Trọng Hoài 1
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Phân phối này là phân phối nhị thức Bernoulli
Giá trị kỳ vọng của biến ngẫu nhiên này là :
E[Yi ] = 1 × p + 0 × (1 - p) = p
Có nghĩa là Pr (Y = 1Xi) = Pi
Và chúng ta cũng có điều kiện cho một xác xuất
0Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Để thực hiện WLS chúng ta thực hiện 3 bước sau đây:
1) OLS: ˆ ˆ ˆ ˆ ˆ
p i = β1 + β 2 X 2i + β 3 X 3i + L + β K X Ki
Ở bước này chúng ta loại bỏ các quan sát có xác xuất âm hoặc lớn hơn 1
1
2) Các trọng số : w i = trong đó σ i = (p i (1 - p i ))
ˆ ˆ ˆ 1/ 2
σi
ˆ
3) Xây dựng WLS chúng ta có mô hình mà phương sai của sai số thoả điều kiện là
homocedasticity.
Các bước này có thể thực hiện bằng cách chọn phương pháp ước lượng trong Eviews
3) Không thoả mãn điều kiện cơ bản của xác xuất
0Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Một mô hình xác suất hợp lý hơn mô hình LPM có thể được mô tả như sau:
Xác suất
Ví dụ về mô hình LPM:
GRIMP = Biến hai tính chất
= 0 nếu điểm của sinh viên không cải thiện
= 1 nếu điểm của sinh viên đã cải thiện
GPA = Điểm trung bình trước khi vào trường
Nguyễn Trọng Hoài 4
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Dường như có mối quan hệ thuận giữa điểm trung bình trước khi vào trường của sinh viên và khả
năng cải thiện điểm của mình (GRIMP), điều này được thể hiện bằng đường thẳng trong biểu đồ
phân tán trên.
Hai biến giải thích khác cũng có sẵn: PreTest đo kiến thức có trước về nội dung khoá học (trái lại
GPA chỉ đo lường điểm trung bình khi học tập chung); và PSI là biến mô tả liệu một sinh viên đã
tham gia một kỹ thuật giảng dạy đặc biệt không (PSI = 1 nếu sinh viên đã tham gia kỹ thuật đặc
biệt này, và nếu không trải qua thì PSI = 0).
Đồng thời hãy khảo sát các biểu đồ phân tán giữa GRIMP với những biến hồi qui nêu trên:
Nguyễn Trọng Hoài 5
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Mỗi biểu đồ phân tán này không giống với những biểu đồ phân tán và các đường hồi qui mà chúng
ta đã nghiên cứu trước đây. Dữ liệu dường như không nằm dọc theo đường hồi qui. Vơi bản chất
của dữ liệu đã có, thật khó tìm ra hiện tượng "chính xác hoàn hảo" dọc theo đường hồi qui khi mà
chúng ta xây dựng các " giá trị ước lượng".
Nguyễn Trọng Hoài 6
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Việc giải thích ở đây thật đơn giản : Một sinh viên có GPA cao hơn 1 điểm có xác suất cải thiện
điểm cao hơn 0,46; sinh viên có tiếp cận với phương pháp giảng dạy mới có khả năng tăng xác suất
cải thiện điểm thêm 0,38.
Bây giờ, xét một sinh viên có GPA là 2 và có 20 điểm cho kiểm tra trước khi vào học, và là người
đã tham gia phương pháp giảng dạy cải tiến. Với một sinh viên như vậy chúng ta có thể tính được
xác xuất sau đây
pi = - 1,50 + 0,46 × 2,0 + 0,01 × 20 + 0,38 = - 0,18
ˆ
Không thể xảy ra các giá trị xác suất âm do đo kết quả xác xuất này khó chấp nhận .
Mô hình Logit
Logit tuân theo dạng CDF Logistic :
exp ( β 1 + β 2 X 2 i + L + β K X Ki )
Pr(Yi = 1 | Xs , βs) = p =
1 + exp ( β 1 + β 2 X 2 i + L + β K X Ki )
Pi/(1-Pi) = ezi
Trong đó Z i = β 1 + β 2 X 2 i + β 3 X 3 i + L + β K X Ki
Ln [Pi/(1-Pi)] = Zi là hàm Logit
Ước lượng các hệ số β của mô hình Logit bằng phương pháp ML thay vì OLS (tại sao? giải thích
khi xác xuất bằng 0 và bằng 1)
Giải thích các hệ số trong mô hình Logit
Tác động biên đối với xác xuất. Chúng ta dễ dàng chứng minh được
∂ Pr(Y = 1 | x) ∂p
= = p (1- p ) × β2
∂x 2 ∂x 2
Như vậy tác động biên của xác xuất theo một biến X nào đó không còn không đổi mà phụ thuộc
vào giá trị của X. Chúng ta sẽ sử dụng một ví dụ để minh hoạ điều này.
Mô hình Probit
Mô hình probit sử dụng hàm CDF chuẩn chuẩn hoá
Sử dụng ví dụ thu nhập và xác xuất sở hữu nhà, với quan điểm là khi mua nhà thì thu nhập phải
vượt qua một ngưỡng nào đó
Ii = β1 + β2Xi
Ứng với thu nhập dưới I* thì xác xuất mua nhà bằng 0 và khi Ii > I* thì xác xuất mua nhà
pi = Pr(Y=1 X) :
Nguyễn Trọng Hoài 7
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
pi = P (Y = 1 | X) = p(I i * 〈 I i ) = p(Zi〈β 1 + β 2 X i ) = F (β 1 + β 2 X i )
Trong đó F ký hiệu cho hàm mật độ tích lũy chuẩn chuẩn hóa (CDF)
1 Ii
∫
2
F(I i ) = e −s /2
dZ
−∞
2π
Như vậy I i = F −1 (I i ) = F −1 (Pi ) = β 1 + β 2 X i
Đây chính là dạng hàm Probit
Xác suất =
F(β 1 + β 2 x)
β1 + β 2 x
β 2 cho chúng ta biết thay đổi biên dọc theo trục hoành khi tăng một đơn vị X. Để xem điều này
tác động lên xác suất như thế nào, chúng ta diễm tả bằng biểu thức sau:
∂ Pr(Y = 1 | x) ∂p ∂F(β 1 + β 2 x) ∂F(β 1 + β 2 x) ∂(β 1 + β 2 x)
= = = × = F ' (β 1 + β 2 x) × β 2
∂x ∂x ∂x ∂(β 1 + β 2 x) ∂x
Ở đây chúng ta giải thích tác động biên của xác xuất khi thay đổi X, xác xuất để Y = 1 sẽ biến đổi
theo giá trị X cụ thể có nghĩa là tác động biên sẽ thay đổi theo X và nhìn vào đồ thị của hàm F
chúng ta có thể biết tác động biên đang tăng dần hoặc giảm dần đối với xác xuất ứng với các giá trị
X tương ứng.
Trong thành phần sau cùng của biểu thức, F ' là đạo hàm của CDF và nó chính là PDF.
Chúng ta sẽ thấy rằng EViews sẽ giúp chúng ta ước lượng các hệ số của hàm Probit một cách
nhanh chóng.
Hồi qui Probit theo nhiều biến hồi qui :
P(Y = 1 | x 2 L x K ) = p = F (β 1 + β 2 x 2 + β 3 x 3 + L + β K x K )
Nguyễn Trọng Hoài 8
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Chúng ta có thể suy ra:
I i = F −1 (I i ) = F −1 (Pi ) = β1 + β 2 X 2 i + β 3 X 3i + ..... + β k X ki
Khi chúng ta biết giá trị của những tham số và giá trị của những biến hồi qui này , thì chúng ta có
thể tính được những xác suất phù hợp.
Ước lượng các hệ số trong mô hình Probit và Logit.
Sự vận dụng của những mô hình này bằng EViews gần giống nhau. EViews ước tính cả hai loại
mô hình bằng phương pháp tương đồng tối đa (Maximum-Likelihood Method).
Khởi động EViews
Open / Workfile / gradespsi.wf1 (đây là tên một file bất kỳ mà ở đây chúng ta vẫn sử dụng file về
tình huống điểm của sinh viên)
Quick / Estimate Equation
Estimation Settings / Method / Binary
Options / Robust Standard Errors
◙ Logit◙ Probit
Equation Specification: Grimp C GPA Pretest PSI
Đánh giá và kiểm định ý nghĩa thống kê mô hình Logit và probit
1) Đánh giá độ thích hợp tốt của mô hình
Pseudo R2 = Mc Fadden R2 = 1 - (LLFUR / LLFR)
2) Kiểm tra ý nghĩa thống kê các hệ số
Sử dụng thống kê z thay vì thống kê t
Bảng phân phối chuẩn chuẩn hoá với giá trị tới hạn (critical value Z và mức ý nghĩa / 2 cho
kiểm định hai đuôi)
Công thức tính thống kê Z không cần thiết vì Eviews đã tính cho chúng ta, chúng ta cũng
không cần tra bảng phân phối chuẩn chuẩn hoá vì trong kết quả của Eviews có cột P-Value.
3) Kiểm định ý nghĩa chung của toàn bộ mô hình
Sử dụng thống kê Khi bình phương thay vì thống kê F
LR= Likelihood ratio = 2(LLFUR - LLFR) so sánh với giá trị tới hạn thống kê khi bình
phương với mức ý nghĩa cho trước và df = số biến độc lập trong mô hình.
Tất cả các yêu cầu tính toán khi kiểm định mức ý nghĩa của mô hình đều có thể được Eviews cung
cấp.
Nguyễn Trọng Hoài 9
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Ví dụ về mô hình probit:
Như vậy biến hồi qui Pretest không có ý nghĩa thống kê . Nhưng dù sao chúng ta cũng giữ nó lại vì
mục đích minh họa.
Giả sử chúng ta muốn tách tác động của hai biến lên xác suất thành công: GPA và tiếp cận với
phương pháp giảng dạy mới (PSI = 1). Để làm như vậy, hãy tính hai dạng khác nhau của biến PSI,
với điều kiện giữ cho biến Pretest không đổi tại giá trị trung bình của nó.
Giá trị trung bình của biến Pretest = 21,94
Khi PSI = 0
Genr Index0 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*0
Khi PSI = 1
Genr Index1 = -7,45232 + 1,625810*GPA + 0,051729*21,94 + 1,426332*1
Nhớ rằng có hai nguyên nhân giải thích toàn bộ biến thiên cho hai biến này: các giá trị khác biệt
của PSI, và biến thiên của GPA nhân với hệ số của GPA. Nếu có các biến hồi qui bổ sung, thì
chúng ta giữ chúng không đổi giống như cách mà chúng ta đã làm với với biến pretest.
Tiếp theo, hãy tính chuỗi Pr(Grimp = 1) đối với từng chuỗi chỉ số :
Genr Prgrimp0 = @cnorm(index0)
Nguyễn Trọng Hoài 10
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Genr Prgrimp1 = @cnorm(index1)
Cuối cùng, hãy vẽ các biểu đồ phân tán của những xác suất này theo GPA:
Bôi đen GPA, Prgrimp0, Prgrimp1
View / Graph / Simple Scatter
Ở đây chúng ta có thể thấy tác động của GPA và tác động của PSI lên xác suất để một sinh viên có
khả năng cải thiện điểm của mình.
Việc tính các tác động biên cũng đơn giản. Giả sử rằng Anh/Chị muốn tính tác động biên của GPA
ở mỗi điểm trên đồ thị. Để làm việc này, chúng ta chỉ đơn giản tính pdf của phân phối chuẩn cho
mỗi giá trị đối với chỉ số này, sau đó nhân nó với hệ số của GPA. Trên EViews, hàm pdf chuẩn là
@dnorm.
Genr MarGPA0 = @dnorm(index0)*1.625810
Genr MarGPA1 = @dnorm(index1)*1.625810
Nguyễn Trọng Hoài 11
Chương Trình Giảng Dạy Kinh Tế Fulbright Các phương pháp phân tích Các biến phụ thuộc bị giới hạn
Những đường này chỉ ra tác động biên cho xác suất của sự thay đổi về việc cải thiện như thế nào
khi GPA thay đổi. Nên ghi nhớ là chúng ta cần giải thích chúng bằng biểu đồ trước đây. Sự thực là
tác động biên của MARGPA1 thấp khi GPA = 4 phản ánh thực tế là xác suất cải thiện gần bằng 1,
vì vậy các cải thiện tiếp theo là rất nhỏ.
Nguyễn Trọng Hoài 12