Phân tích hồi quy nhị phân Binary Logistic trong SPSS

NGÀY ĐĂNG: 16/12/2020 |DANH MỤC: Hồi quy

1. Lý thuyết về hồi quy Binary Logistic

Hồi quy Binary Logistic là mô hình phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có hai giá trị: 0 và 1. Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó như chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,… Những biến nghiên cứu có hai biểu hiện như vậy được mã hóa thành hai giá trị 0 và 1, được gọi là biến nhị phân.

Hồi quy nhị phân Binary Logistic trong SPSS

Khi biến phụ thuộc ở dạng nhị phân, chúng ta không thể phân tích với dạng hồi quy tuyến tính thông thường vì mô hình sẽ vi phạm các giả định hồi quy … Các giả định quan trọng này bị vi phạm sẽ làm mất hiệu lực thống kê của các kiểm định trong hồi quy, dẫn đến kết quả ước lượng không còn chính xác. Trong khi đó, hồi quy Binary Logistic lại không cần thiết phải thỏa mãn các giả định này.

VIDEO HƯỚNG DẪN

2. Phương trình hồi quy Binary Logistic

Thay vì chúng ta ước lượng giá trị của biến phụ thuộc Y theo biến độc lập X như ở hồi quy đa biến, thì trong hồi quy Binary Logistic, chúng ta sẽ ước lượng xác suất xảy ra sự kiện Y (probability) khi biết giá trị X. Biến phụ thuộc Y có hai giá trị 0 và 1, với 0 là không xảy ra sự kiện và 1 là xảy ra sự kiện. Từ đặc điểm này, chúng ta có thể đánh giá được khả năng xảy ra sự kiện (Y = 1) nếu xác suất dự đoán lớn hơn 0.5, ngược lại, khả năng không xảy ra sự kiện (Y = 0) nếu xác suất dự đoán nhỏ hơn 0.5. Ta có hàm xác suất như sau:

Hồi quy nhị phân Binary Logistic trong SPSS

Trong đó Pi = P(Y = 1) = E(Y = 1/ X) là xác suất xảy ra sự kiện. Thực hiện các phép chuyển đổi toán học, chúng ta thu được phương trình hồi quy Binary Logistic như sau:

Hồi quy nhị phân Binary Logistic trong SPSS

Trong đó:

  • Pi: xác suất xảy ra sự kiện (Y = 1)
  • 1-Pi: xác suất không xảy ra sự kiện (Y = 0)
  • B0: hằng số hồi quy
  • B1, B2, … Bn: hệ số hồi quy

3. Phân tích hồi quy nhị phân Binary Logistic trên SPSS

Sử dụng tập dữ liệu thực hành có tên 300 – DLTH 2 – BINARY.sav (tệp dữ liệu thực hành đi kèm với Ebook SPSS 26 tại đây). Đây là nghiên cứu của một ngân hàng tại TP.HCM về khả năng trả nợ của khách hàng. Ngân hàng xác định rằng các yếu tố học vấn, độ tuổi, thu nhậphộ khẩu thường trú có liên hệ tới khả năng trả nợ của khách hàng. Căn cứ trên các yếu tố này, ngân hàng muốn xây dựng một cơ sở để quyết định đối tượng nào nên cho vay và không cho vay. Mô hình hồi quy Binary Logistic được thiết lập để đánh giá sự tác động của bốn yếu tố học vấn, độ tuổi, thu nhậphộ khẩu thường trú lên khả năng trả nợ. Cơ cấu biến của tập dữ liệu như sau:

  • TraNo: biến phụ thuộc dạng nhị phân, 1 là có khả năng trả nợ, 0 là không có khả năng trả nợ.
  • HocVan: biến độc lập định lượng, biểu thị số năm đi học. Số năm càng cao, học vấn càng cao.
  • Tuoi: biến độc lập định lượng, biểu thị số tuổi hiện tại.
  • ThuNhap: biến độc lập định lượng, biểu thị mức thu nhập hàng tháng của gia đình (triệu đồng).
  • HoKhau: biến độc lập định danh gồm ba giá trị, 1 là đáp viên có hộ khẩu tại TP.HCM, 2 là đáp viên có hộ khẩu tại các tỉnh Nam Bộ trừ TP.HCM, 3 là các tỉnh khác.

Các giả thuyết được đặt ra:

  • Giả thuyết H1: Học vấn có sự tác động đến khả năng trả nợ
  • Giả thuyết H2: Độ tuổi có sự tác động đến khả năng trả nợ
  • Giả thuyết H3: Thu nhập có sự tác động đến khả năng trả nợ
  • Giả thuyết H4: Hộ khẩu có sự tác động đến khả năng trả nợ

Thực hiện phân tích hồi quy Binary Logistic để đánh giá sự tác động của các biến độc lập lên biến phụ thuộc. Chúng ta vào Analyze > Regression > Binary Logistic…

Hồi quy nhị phân Binary Logistic trong SPSS

Đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Covariates.

Hồi quy nhị phân Binary Logistic trong SPSS

Trong số các biến độc lập, HoKhau là biến định danh, chúng ta cần có bước chuyển biến này về dạng biến định lượng. Bài viết này sẽ chỉ tập trung vào các biến độc lập là biến định lượng, cách thực hiện cho biến định danh, các bạn vui lòng xem tại Ebook SPSS 26.

Trong Options, chúng ta tích chọn vào Classification plots để xuất biểu đồ phân loại, chọn vào Iteration history để xem sự thay đổi của giá trị -2LL qua các mô hình. Nhấp vào Continue quay lại cửa sổ ban đầu.

Hồi quy nhị phân Binary Logistic trong SPSS

Method, chúng ta chọn phương pháp đưa biến vào cùng lúc Enter. Sau đó nhấp vào OK để xuất kết quả ra output.

Hồi quy nhị phân Binary Logistic trong SPSS

SPSS sẽ xuất ra hai block là Block 0 và Block 1. Block 0 là kết quả mô hình khi chưa đưa bất kỳ biến độc lập nào vào. Do đó, chúng ta chỉ đọc kết quả ở Block 1, kết quả mô hình hồi quy cuối cùng.

 Xem thêm: Đánh giá độ phù hợp mô hình Binary Logistic

Hồi quy nhị phân Binary Logistic trong SPSS

Bảng Omnibus Tests of Model Coefficients cho chúng ta kết quả kiểm định Chi-square để đánh giá giả thiết sự phù hợp của mô hình hồi quy. Giá trị sig kiểm định Chi-square ở hàng Model bằng 0.000 < 0.05, do đó, mô hình hồi quy là phù hợp.

Hồi quy nhị phân Binary Logistic trong SPSS Hồi quy nhị phân Binary Logistic trong SPSS

Bảng Model Summary cho kết quả mức độ phù hợp của mô hình. Giá trị -2LL với mô hình trống là 412.027, trong khi đó -2LL ở mô hình đề xuất cuối cùng là 144.696. Điều này cho thấy các biến độc lập đưa vào mô hình đã làm giảm đáng kể -2LL so với mô hình trống. Do đó, mô hình hồi quy là phù hợp.

Giá trị Cox & Snell R Square và Nagelkerke R Square đều lớn hơn 0.5, trong đó giá trị Nagelkerke R Square bằng 0.790 tương đối cao (tiến gần về 1). Như vậy chúng ta có thể kết luận mô hình hồi quy có độ phù hợp cao.

Hồi quy nhị phân Binary Logistic trong SPSS

Bảng Classification Table cho chúng ta kết quả phân loại các trường hợp thực tế (Observed) và dự đoán (Predicted).

  • Trong 133 trường hợp quan sát thực tế không trả được nợ, dự đoán có 123 trường hợp không trả được, tỷ lệ dự đoán đúng là 123/133 = 92.5%.
  • Trong 167 trường hợp quan sát thực tế trả được nợ, dự đoán có 152 trường hợp trả được, tỷ lệ dự đoán đúng là 152/167 = 91.0%.

Như vậy, tỷ lệ dự đoán đúng trung bình cho toàn mô hình là (123+152)/(123+152+10+15) = 91.7%.

Hồi quy nhị phân Binary Logistic trong SPSS

Bảng Variables in the Equation cho chúng ta kết quả kiểm định Wald, hệ số hồi quy và Exp(B) từng biến độc lập.

Biến HocVan có giá trị sig kiểm định Wald bằng 0.450 > 0.05, do đó biến này không có ý nghĩa trong mô hình hồi quy. Các biến còn lại gồm Tuoi, ThuNhap, HoKhau đều có sig kiểm định Wald nhỏ hơn 0.05, do đó các biến này đều có ý nghĩa trong mô hình hồi quy. Bên cạnh kết quả hồi quy của biến HoKhau, sẽ có thêm kết quả của hai biến HoKhau1 và HoKhau2 tương ứng với hai biến giả của HoKhau. Sig kiểm định Wald của hai biến giả này đều nhỏ hơn 0.05, nghĩa là việc có hộ khẩu TP.HCM hoặc có hộ khẩu tại các tỉnh Nam bộ trừ TP.HCM đều có sự tác động lên khả năng trả nợ. Từ đây có thể suy luận, việc có hộ khẩu tại các tỉnh khác cũng có sự tác động lên khả năng trả nợ.

Hệ số hồi quy B của các biến độc lập có ý nghĩa đều mang dấu dương. Do vậy, khi các biến độc lập Tuoi, ThuNhap tăng sẽ làm tăng khả năng trả nợ (tăng khả năng biến phụ thuộc TraNo nhận giá trị 1).

Giá trị Exp(B) cho chúng ta biết mức độ tác động của các biến độc lập lên khả năng trả nợ, hay nói cách khác là khả năng biến phụ thuộc TraNo nhận giá trị 1.

  • Cứ tuổi tăng lên 1 thì khả năng trả nợ tăng lên 1.538 lần.
  • Cứ thu nhập tăng lên 1 triệu đồng thì khả năng trả nợ tăng lên 1.459 lần.
  • Cứ hộ khẩu mang giá trị 1 thì khả năng trả nợ tăng 75.740 lần. Hộ khẩu mang giá trị 2, khả năng trả nợ tăng 4.472 lần.

Từ các hệ số hồi quy, chúng ta có được phương trình hồi quy Binary Logistic như sau:

Hồi quy nhị phân Binary Logistic trong SPSS

4. Ứng dụng hồi quy Binary Logistic cho dự báo

Một trong những ứng dụng rất mạnh của hồi quy Binary Logistic đó chính là khả năng dự báo. Giả sử có hai người đến ngân hàng trong ví dụ ở trên vay nợ, họ có các thông tin cá nhân như sau:

– Người A: 40 tuổi, thu nhập hàng tháng là 16 triệu đồng, hộ khẩu tại Bình Dương

– Người B: 35 tuổi, thu nhập hàng tháng là 17 triệu đồng, hộ khẩu tại Khánh Hòa

Chúng ta sẽ sử dụng đến hàm xác suất để đánh giá khả năng trả nợ của A và B:

Hồi quy nhị phân Binary Logistic trong SPSS

Lần lượt thay thế thông tin cá nhân của A và B vào hàm xác suất:

Hồi quy nhị phân Binary Logistic trong SPSS

Kết quả cho thấy người A có khả năng trả nợ lên tới 93%, trong khi đó người B chỉ là 32%. Như vậy, ngân hàng nên cho người A vay vì khả năng thu hồi nợ cao và cân nhắc không cho người B vay vì khả năng thu hồi nợ thấp. Cũng lưu ý rằng, đây là khả năng trả nợ dự đoán với mức độ chính xác là 91.7% (theo kết quả bảng Classification Table).

Nếu bạn gặp khó khăn khi kết quả hồi quy nhị phân không có ý nghĩa, các biến độc lập bị loại nhiều. Bạn có thể tham khảo dịch vụ SPSS của Xử Lý Định Lượng để team có thể hỗ trợ bạn xử lý nhanh và hiệu quả nhất.

Xem chi tiết từng bước thực hiện phân tích hồi quy nhị phân Binary Logistic với biến định lượng, định tính và trọn bộ kiến thức SPSS áp dụng luận văn được biên soạn chi tiết, dễ hiểu kèm dữ liệu thực hành tại Ebook SPSS 26.