Hồi Quy Tuyến Tính Ols Với 10 Khuyết Tật
Trong ước lượng hồi quy ols chúng ta thường kiểm tra 5 sai phạm của hồi quy thông dụng, nhưng trên thực tế hay để kết quả hồi quy tăng độ tin cậy, chúng ta còn có thêm 5 kiểm định hay là kiểm tra sai phạm mà chúng ta thường bỏ qua. Trong bài viết này chúng tôi sẽ giới thiệu tất cả 10 khuyết tật của hồi quy và thực hiện trên phần mềm thống kê R. Trong bài viết này mình sẽ chia thành 2 phần: 5 sai phạm cùa quá trình hồi quy ( R2 thấp, biến độc lập không có ý nghĩa thống kê, đa cộng tuyến, ph& #432;ơng sai thay đổi, tương quan chuỗi), và 5 khuyết tật của hồi quy. (Ràng buột của hệ số hồi quy, phần dư có phân phối chuẩn, kiểm tra thiếu biến, kiểm tra tính tuyến tính và kiểm tra giá trị ngoại vi).
Mình chia thành 2 phần nhằm mục đích các bạn không mất thời gian đọc hết bài với những kiểm định mà mình đã biết. OK chúng ta bắt đầu bằng việc tạo giả thuyết và kiểm tra dữ liệu.
I. DỮ LIỆU
1.1 Kết nối dữ liệu
1.2 Đồ thị dữ liệu:
1.3 Hồi quy OLS
II, 5 Sai phạm của mô hình hồi quy OLS
2.1 Biến độc lập có ý nghĩa hay không?
Một trong những vấn đề quan trọng của quá trình hồi quy là biến độc lập có ý nghĩa thống kê hay không? hay nói cách khách là biến độc lập có tác động lên biến phụ thuộc hay không ? Trong ví dụ trên chúng ta tìm mối quan hệ giữa Nhập khẩu có tác động lên Tăng trưởng kinh tế, điều này có nghĩa biến độc lập của chúng ta buột phải có ý nghĩa thống kê. ( Nếu không có ý nghĩa thống kê thì nghiên cứu làm gì ?)
Ta đặt giả thuyết như sau:
- H0: Biến Nhập khẩu không tác động lên tăng trưởng GDP
- H1: Biến Nhập khẩu có tác động đến tăng trưởng GDP
Từ kết quả hồi quy trên, ta có P-value < 0.05, chúng ta bác bỏ H0 chấp nhận H1; Tức biến Nhập khẩu có ảnh hưởng đến tăng trưởng kinh tế.
Nói tóm lại, trong mô hình nghiên cứu biến độc lập phải có ý nghĩa thống kê.
2.2 Mức độ giải thích của mô hình R2
Trong quá trình chạy định lượng co mô hình nghiên cứu, chúng ta thường hay gặp trường hợp là chỉ số R2 quá thấp, điều này biến độc lập giải thích được quá ít biến phụ thuộc.
Trong kết quả hồi quy trên ta có R 2 = 0,88; Điều này có nghĩa biến độc lập đã giải thích đến 88% biến phụ thuộc trong mô hình. Đây là một con số tương đối đẹp.
2.3 Đa cộng tuyến
Đa cộng tuyến làm một trọng những sai phạm nghiêm trọng nhất, gần như là không có cách khắc phục, tức là ta không thể nào dùng phương pháp hồi quy tuyến tính OLS này được nữa, phải dùng hồi quy khác, nó sẽ đụng chạm nhiều vấn đề nữa ... trong bài viết này chúng tôi không tập trung vào giải quyết vấn đề này.
Chúng ta dùng chỉ số VIF để kiểm tra đa cộng tuyến trong mô hình, nói tới đây thì tại VN chúng ta có 2 trường phái xác nhận đa cộng tuyến là so sánh VIF với 10 và VIF với 5. Trong bài viết này chúng tôi chọn so sánh VIF với 10 cho nó đơn giản và dễ dàng hơn.
Trong ví dụ của chúng ta do có 1 biến độc lập nên chắc chắn VIF=1, vì vậy không có hiện tượng đa cộng tuyến trong mô hình nghiên cứu.
2.4 Phương sai sai số thay đổi
Lại một trong những giả thuyết quan trọng của hồi quy tuyến tính nữa là, phương sai của sai số phải không thay đổi, bởi vậy chúng ta cần kiểm tra giả thuyết này sau khi hồi quy, để kiểm tra chúng ta có thể dùng đồ thị hay dùng kiểm định điều được, trước tiên ta xem đồ thị của phuong sai như thế nào?
Ta dùng kiểm định Breusch-Pagan test, có kết quả như sau:
Ta đặt giả thuyết như sau:
- H0: Phương sai sai số cố định
- H1: Phương sai sai số thay đổi
Từ kết quả trên, ta có P-value < 0.05, nên ta bác bỏ H0 chấp nhận H1 nên mô hình nghiên cứu có hiện tượng phương sai số thay đổi.
2.5 Tự tương quan
Trong mô hình nghiên cứu chúng ta cần phải kiểm tra thêm hiện tượng tự tương quan, để kiểm tra hiện tượng tương quan chuỗi chúng ta sử dụng kiểm định Durbin - Watson test
Ta có P-value < 0.05, nên mô hình nghiên cứu có hiện tượng tự tương quan chuỗi.
III, 5 Khuyết tật của hồi quy tuyến tính
3.1 Ràng buột hệ số hồi quy
Kiểm định sự Ràng buột của hệ số hồi quy hay còn gọi là các hệ số hồi quy không đồng thời bằng 0, đây là một kiểm định các bạn thật sự khó hiểu về ý nghĩa của nó, diễn giải nôm na là các biến độc lập trong mô hình có ít nhất là 1 biến độc lập có tác động đến biến phụ thuộc, để biết được vấn đề này chúng ta sử dụng kiểm định Wald
3.2 Kiểm tra bỏ xót biến
Để kiểm tra thiếu biến trong mô hình nghiên cứu chúng ta sử dùng kiểm định RAMSEY'S RESET TEST
- H0: Mô hình nghiên cứu không bị bỏ xót biến
- H1: Mô hình nghiên cứu bỏ xót biến
Ta có P-value < 0.05, bởi vậy mô hình nghiên cứu của chúng ta đã bỏ xót biến.
Vấn đề đặt ra ở đây là mô hình bỏ xót biến, vậy biến bỏ xót là biến nào ?
3.3 Phần dư có phân phối chuẩn
Một trong những kiểm định mà chúng ta thường hay bỏ qua đó là kiểm tra phân phối chuẩn cho phần dư, đặc biệt là rất cần thiết cho những mô hình nghiên cứu có quan sát ít. Để kiểm tra phân phối chuẩn chúng ta có thể dùng đồ thị histogram để xem xét
Kết quả của kiểm định
3.4 Mô hình nghiên cứu là tuyến tính
Cái kiểm định này thì ít người sử dụng, nhưng chúng tôi vấn giới thiệu đến các bạn tham khảo. Để xác nhận kết quả của kiểm định chúng ta sử dụng đồ thị như sau:
3.5 Kiểm tra quan sát ngoại vi
Tức là trong kiểm định này, chúng ta có loại các quan sát bất thường hay còn gọi là ngoại vi hay không ? ( Hay chúng ta thường hay dùng thuật ngữ lại loại bỏ outlier