Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus seperti itu adalah regresi linier, baik sederhana maupun berganda.
Namun, adakalanya regresi linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon (Y) bertipe data nominal, sedangkan variabel bebas/prediktornya (X) bertipe data interval atau rasio.
Contoh kasus (diambil dari rencana skripsi Choirul Maqsudi):
Ingin diketahui apakah konsumen akan membeli makanan di rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2 kemungkinan respon konsumen, yaitu konsumen membeli dan tidak membeli.
Dari contoh kasus di atas, dapat diketahui bahwa tipe data variabel respon (Y) adalah nominal, yaitu kategorisasi keputusan konsumen apakah membeli atau tidak (misal membeli dilambangkan angka 1, sedangkan tidak membeli dengan angka 0), sedangkan tipe data untuk variabel bebas (X) setidak-tidaknya interval (skala likert). Bila metode regresi linier biasa diterapkan pada kasus semacam ini, menurut Kutner, dkk.(2004), akan terdapat 2 pelanggaran asumsi Gauss-Markov dan 1 buah pelanggaran terhadap batasan dari nilai duga (fitted value) dari variabel respon (Y), yaitu:
- Error dari model regresi yang didapat tidak menyebar normal.
- Ragam (variance) dari error tidak homogen (terjadi heteroskedastisitas pada ragam error).
- Sedangkan, pelanggaran bagi batasan nilai duga Y (fitted value) adalah bahwa nilai duga yang dihasilkan dari model regresi linier biasa melebihi rentang antara 0 s.d. 1. Hal ini jelas tidak masuk akal , karena batasan nilai pada variabel Y (dalam kasus ini adalah membeli=1 dan tidak membeli=0). Bayangkan jika Anda mendapatkan nilai duga Y = 4 saat Anda memasukkan suatu nilai X tertentu. What does it mean? It is no longer interpretable, guys.
Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon (Y), misal membeli dan tidak membeli. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat lebih dari 2 kategorisasi.
Model Logistik memiliki bentuk fungsi seperti pada persamaan (1) dan (2). Untuk memudahkan interpretasi, maka model logistik ditransformasi menjadi bentuk fungsi logit, seperti pada persamaan (3). Nilai duga regresi logistik (Y duga) merupakan nilai peluang. Lebih tepatnya berapakah peluang seorang konsumen akan membeli makanan di warung/rumah makan tersebut berdasarkan penilaiannya pada variabellokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Rentang nilai duga yang dihasilkan akan berkisar antara 0 s.d. 1. (Kita ingat bahwa kisaran atau rentang nilai peluang adalah 0 s.d 1).
Catatan:
Regresi logistik tidak terbatas hanya da[pat diterapkan pada kasus dimana variabel X nya bertipe interval atau rasio saja. Tapi regresi logistik juga bisa diterapkan untuk kasus dimana variabel X nya bertipe data nominal atau ordinal. Hal ini seperti ini analog dengan regresi linier dengan variabel dummy.
Daftar Pustaka:
Kutner, M.H., C.J. Nachtsheim dan J. Neter. Applied Linear Regression Models. Fourth Edition. The McGraw-Hill Companies, Inc. Singapore.