Showing posts with label ANALISIS REGRESI. Show all posts
Showing posts with label ANALISIS REGRESI. Show all posts

Tabel Distribusi

Tulisan ini memuat titik-titik kritis untuk distribusi z (normal baku), distribusi t dan distribusi F. Penulis menganggap bahwa ketiga tabel distribusi tersebut adalah tabel distribusi yang paling banyak digunakan. Titik-titik kritis dan nilai peluang yang tertulis di dalam tulisan ini dapat dikatakan lebih presisi dibandingkan yang tertulis di dalam sebagian besar buku-buku cetak. Hal ini disebabkan karena penulis menggunakan format penulisan hingga 6 angka dibelakang koma. Sedangkan pada kebanyakan buku-buku cetak, format penulisan hanya hingga 4 angka dibelakang koma. Selain itu, banyaknya titik-titik kritis yang dibangkitkan pada umumnya lebih banyak daripada yang tertulis pada buku-buku cetak. Tentu saja, tidak semua orang membutuhkan tingkat ketelitian seperti itu. Namun hal ini dilakukan semata-mata untuk memberikan yang terbaik kepada semua pihak. Oleh karena itu, penulis berharap bahwa tulisan ini dapat bermanfaat bagi siapapun yang membutuhkan tabel distribusi z, t dan F.


download tabel

Regresi Logistik

Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus seperti itu adalah regresi linier, baik sederhana maupun berganda.
Namun, adakalanya regresi linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon (Y) bertipe data nominal, sedangkan variabel bebas/prediktornya (X) bertipe data interval atau rasio.
Contoh kasus (diambil dari rencana skripsi Choirul Maqsudi):
Ingin diketahui apakah konsumen akan membeli makanan di rumah makan berdasarkan penilaian konsumen terhadap lokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Dalam kasus ini hanya ada 2 kemungkinan respon konsumen, yaitu konsumen membeli dan tidak membeli.
Dari contoh kasus di atas, dapat diketahui bahwa tipe data variabel respon (Y) adalah nominal, yaitu kategorisasi keputusan konsumen apakah membeli atau tidak (misal membeli dilambangkan angka 1, sedangkan tidak membeli dengan angka 0), sedangkan tipe data untuk variabel bebas (X) setidak-tidaknya interval (skala likert). Bila metode regresi linier biasa diterapkan pada kasus semacam ini, menurut Kutner, dkk.(2004), akan terdapat 2 pelanggaran asumsi Gauss-Markov dan 1 buah pelanggaran terhadap batasan dari nilai duga (fitted value) dari variabel respon (Y), yaitu:
  1. Error dari model regresi yang didapat tidak menyebar normal.
  2. Ragam (variance) dari error tidak homogen (terjadi heteroskedastisitas pada ragam error).
  3. Sedangkan, pelanggaran bagi batasan nilai duga Y (fitted value) adalah bahwa nilai duga yang dihasilkan dari model regresi linier biasa melebihi rentang antara 0 s.d. 1. Hal ini jelas tidak masuk akal , karena batasan nilai pada variabel Y (dalam kasus ini adalah membeli=1 dan tidak membeli=0). Bayangkan jika Anda mendapatkan nilai duga Y = 4 saat Anda memasukkan suatu nilai X tertentu. What does it mean? It is no longer interpretable, guys.
Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel respon (Y), misal membeli dan tidak membeli. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat lebih dari 2 kategorisasi.
Model Logistik memiliki bentuk fungsi seperti pada persamaan (1) dan (2). Untuk memudahkan interpretasi, maka model logistik ditransformasi menjadi bentuk fungsi logit, seperti pada persamaan (3). Nilai duga regresi logistik (Y duga) merupakan nilai peluang. Lebih tepatnya berapakah peluang seorang konsumen akan membeli makanan di warung/rumah makan tersebut berdasarkan penilaiannya pada variabellokasi, pelayanan, pendapatan, kebersihan, selera dan harga. Rentang nilai duga yang dihasilkan akan berkisar antara 0 s.d. 1. (Kita ingat bahwa kisaran atau rentang nilai peluang adalah 0 s.d 1).
Catatan:
Regresi logistik tidak terbatas hanya da[pat diterapkan pada kasus dimana variabel X nya bertipe interval atau rasio saja.  Tapi regresi logistik juga bisa diterapkan untuk kasus dimana variabel X nya bertipe data nominal atau ordinal. Hal ini seperti ini analog dengan regresi linier dengan variabel dummy.
Daftar Pustaka:
Kutner, M.H., C.J. Nachtsheim dan J. Neter. Applied Linear Regression Models. Fourth Edition. The McGraw-Hill Companies, Inc. Singapore.

Ternyata, Intersep Tak Selalu Bermakna

Contoh Persamaan Regresi:
Y = 2 + 10X ……..(1)
Y = variabel respon; X = variabel prediktor/bebas
Angka 2 pada persamaan (1) biasanya disebut sebagai intersep, sedangkan angka 10 biasanya disebut sebagai slope. Pada umumnya, intersep diartikan sebagai nilai rata-rata Y bila nilai X sama dengan nol.
Sering ditemui di lapangan, para peneliti yang melakukan analisis data dengan regresi linier, baik sederhana maupun berganda, selalu “memaksa” untuk menginterpretasikan makna nilai intersep dari persamaan regresi yang didapatkan. Padahal, intersep tidak selalu dapat diartikan, apalagi jika tidak ada dukungan secara teori terhadap kasus yang sedang diteliti. Intersep sebenarnya merupakan komponen yang harus muncul agar nilai slope dapat dihitung. Apabila data pengamatan untuk variabel bebas/prediktor (variabel X) tidak mengikutkan nilai 0 (atau mendekati 0), maka peneliti perlu berhati-hati dalam memaknai intersep. Apabila tetap dipaksakan untuk memaknai intersep tanpa didukung oleh latar belakang keilmuan untuk kasus yang diteliti, dikuatirkan akan melanggar aturan dari penggunaan persamaan regresi, yaitu bahwa persamaan regresi tidak dapat digunakan untuk memprediksi nilai variabel respon (variabel Y) secara ekstrapolasi. Hal ini disebabkan karena kita tidak tahu apakah bentuk hubungan antara variabel respon dan prediktor juga masih berbentuk linier apabila nilai pengamatan variabel prediktor diperluas hingga mendekati nilai 0. Dalam hal ini, peneliti dituntut memahami secara lebih mendalam mengenai latar belakang keilmuan dari kasus yang diteliti. Biasanya, secara teoritis, para ahli suatu bidang ilmu telah menjelaskan mengenai peran intersep dalam ilmu tersebut. Misalnya dalam bidang eonomi, untuk penelitian mengenai biaya, intersep biasanya diartikan sebagai fixed cost, sedangkan slope diartikan sebagai variabel cost. :)
Daftar Pustaka:
1.Kutner,M.H., C.J. Nachtsheim dan J. Neter. 2004. APPLIED LINEAR REGRESSION MODELS. International Edition. The McGraw-Hill Companies,Inc. Singapore.
2.Literatur lain yang tidak dapat disebutkan satu-persatu.

Prosedur Analisis Regresi dengan Variabel Dummy

SISTEM PENGKODEAN DUMMY
Pengkodean data kategorikal memerlukan pengkategorian eksklusif. Artinya satu subjek/sampel adalah masuk dalam satu kategori, tidak boleh dua kategori. Sampel A misalnya, tidak boleh masuk ke dalam kategori laki-laki dan perempua. Si B tidak boleh masuk ke dalam kategori PNS dan wiraswasta meskipun kedua profesi tersebut dijalaninya. Aturan ini berlaku variabel dummy. Sebuah variabel dengan kategori sebanyak k akan membutuhkan seperangkat k – 1 variabel dummy untuk menjangkau semua informasi yang terkandung didalamnya. Jadi misalnya saya memiliki variabel tingkat pendidikan dari SD hingga PT (4 kategori) maka jumlah variabel kategori yang sama buat ada 3 kategori. Menggunakan pola koding biner (0,1), variabel dummy selalu vaiables berbentuk dikotomi.
Semua responden yang menjadi anggota kategori yang diberi kode 1 sedangkan responden tidak dalam kategori tersebut dikode dari 0. Dengan cara seperti ini maka setiap responden akan memiliki kode 1 pada kategori yang sesuai dengannya dan kode 0 pada kategori yang tidak sesuai dengannya. Kode biner dapat dianggap sebagai mirip ke saklar listrik: kode A 1 sinyal bahwa kategori yang diberikan adalah “on” untuk responden (misalnya, dia adalah anggota dari kelompok tertentu, atau karakteristik tertentu hadir ), karena bukan anggota, variabel dummy yang menunjukkan kategori yang diaktifkan “off (yaitu, karakteristik ini tidak ada).
CONTOH DESAIN PENELITIAN
Sebuah penelitian hendak menguji prediksi ketahanan kerja terhadap kepuasan kerja. Karena dari teori dinyatakan bahwa kepuasan kerja turut dipengaruhi oleh jabatan dan bidang kerja, maka peneliti turut memasukkannya dalam penelitian. Formulasi informasi variabelnya sebagai berikut :
- Variabel dependen : kepuasan kerja (Y)
- Variabel independen : ketahanan kerja (X1), jabatan (X2), bidang kerja (X3)
Variabel kepuasan kerja dan ketahanan kerja adalah variabel kuantitatif karena bersifat kontinum karena didapatkan dari pengukuran melalui skala Jabatan dan bidang kerja adalah variabel kualitatif karena bersifat kategorikal. Dalam hal ini jabatan ada 2 kategori : pelaksana & manajerial. Bidang kerja ada 3 yaitu suplai, produksi, dan marketing.
CONTOH PENYAJIAN DATA
Untuk menyajikan data dengan variabel yang berbentuk dummy, kita mengkodenya dengan kode 1 dan 0. Misalnya jabatan yang terdiri dari 2 kategori, maka kita membuat 1 variabel baru yang isinya adalah kode 1 dan 0, misalnya 1 untuk manajer dan 0 untuk pelaksana. Agar memudahkan pemaknaan terhadap hasil berilah angka 1 pada kategori yang secara teoritik akan memiliki nilai prediksi lebih tinggi. Dalam hal ini saya memberikan kode 1 pada manajer. Data ini dapat diunduh di sini
Jika kategorinya lebih dari 2, maka kita juga melakukan hal yang sama. Variabel bidang kerja saya jabarkan menjadi 3 variabel baru, dengan kode 1 dan 0. Tampilannya bisa dilihat di Tabel 1.

Terlihat ada variabel bidang yang terdiri dari 3 kategori (1 untuk suplai, 2 untuk produksi dan 3 untuk marketing). Lalu saya menjabarkannya menjadi 3 variabel yang memiliki nama sesuai dengan kategorinya. Misalnya untuk variabel suplai, kode 1 saya berikan pada subjek pada bagian suplai, dan kode 0 untuk variabel produksi dan marketing. Setelah siap, data bisa kita masukkan ke SPSS.
ANALISIS DATA
Untuk menganalisisnya, kita bisa menggunakan regresi berganda (multiple regression) atau regresi berjenjang (hierarchical regression). Jika kita hendak mencari secara langsung prediksi semua variabel independen kita bisa memiliki regresi berganda, akan tetapi jika kita ingin melihat prediksi tiap variabel independen secara berurutan kita menggunakan regresi berjenjang. Kali ini kita akan menggunakan regresi berganda.
Dalam analisis regresi berganda dengan variabel dummy, tidak semua kategori dalam variabel dummy dilibatkan analisis regresi jika jumlah kategorinya. Jika jumlah kategori lebih dari 2 maka jumlah kategori yang kita libatkan adalah k-1 (k=jumlah kategori). Misalnya jumlah kategori bidang kerja adalah 3, maka jumlah kategori yang kita libatkan adalah 3-1= 2 kategori. Untuk desain kita seperti ini, kita masukkan variabel kepuasan kerja (Y), ketahanan kerja (X1), jabatan (X2) dan 2 kategori pada bidang kerja (X3) yaitu produksi dan marketing. Kategori suplai tidak kita masukkan karena menjadi basis interpretasi variabel bidang kerja nantinya.
LATIHAN 1
Sebelum kita membahas regresi dengan variabal dummy saya mengajak untuk menganalisis dengan regresi variabel kuantitatif yang biasa kita lakukan . Kita akan memprediksi kepuasan kerja (Y) berdasarkan ketahanan kerja (X1).

Bukalah SPSS – Tekan menu ANALYZE – REGRESSION – LINIER. Pada menu yang ditampilkan masukkan variabel puas (Y) pada DEPENDENT, trus tahan (X1) pada kolom INDEPENDENT. Klik OK.

Hasil analisis menunjukkan bahwa variabel ketahanan mampu memprediksi kepuasan kerja (F=7.640; p<0.05) yang terlihat pada kolom ANOVA dengan sumbangan efektif sebesar 29.8 persen yang terlihat dari tabel Model Summary. Artinya ketahanan dapat memprediksi sebesar 29.8 persen kepuasan individu, sisanya diprediksi oleh hal-hal selain ketahanan. Gak apa, 29.8 persen termasuk sumbangan yang sedang kok. Dari tabel koefisien kita dapat menurunkan menjadi persamaan regresi sebagai berikut :
Y = B0 + B1(TAHAN) = 1.243 + 0.706(TAHAN)
Dari persamaan ini kita dapat memprediksi jika seseorang memiliki skor ketahanan mental sebesar 2 maka kepuasannya sebesar Y= 1.243 + 0.706(2) = 2.655. Dan jika ia memiliki ketahanan sebesar 0 maka kepuasannya sebesar 1.243. Inilah yang berkaitan dengan hal-hal lain selain ketahan yang mempengaruhi kepuasan individu, atau 100%-29.8% = 70.20%
LATIHAN 2
Kali ini kita berlatih untuk memprediksi kepuasan kerja (Y) berdasarkan jabatan (X2). Variabel jabatan telah di dummy dengan kode kategori 1 untuk manajer dan 0 untuk pelaksana.
Bukalah SPSS – Tekan menu ANALYZE – REGRESSION – LINIER. Pada menu yang ditampilkan masukkan variabel puas (Y) pada DEPENDENT, trus jabatan (X2) pada kolom INDEPENDENT Klik OK.


Terlihat pada tabel ANOVA bahwa jabatan mampu memprediksi kepuasan secara signifikan (F-40.668; p<0.05). Pada tabel Coefficient terlihat bahwa ada perbedaan kepuasan antara jabatan manajer dan pelaksana (b=3.300; p<0.05). Persamaan regresi untuk analisis ini adalah sebagai berikut :
Y = B0 + B1 (MANAJER)
Y = 4.50 + 3.30 (MANAJER)
Misalnya kita ditanya berapakah kepuasan individu PELAKSANA ? Kita masukkan ke dalam persamaan di atas, PELAKSANA adalah sama dengan MANAJER = 0 (ingat pengkodean di muka)
Y = 4.50 + 3.30 (0) = 3.30
Berapa kepuasan MANAJER (MANAJER = 1)
Y = 4.50 + 3.30 (1) = 7.80
Jabatan manajer memiliki kepuasan lebih tinggi dibanding dengan pelaksana (selisih 4.5 poin)
LATIHAN 3
Sekarang sedikit kompleks, kita berlatih untuk memprediksi kepuasan kerja (Y) berdasarkan bidang kerja (X3) yang memiliki banyak kategori.
Bukalah SPSS – Tekan menu ANALYZE – REGRESSION – LINIER. Pada menu yang ditampilkan masukkan variabel PUAS (Y) pada DEPENDENT, trus masukkan kategori SUPLAI dan PRODUKSI pada kolom INDEPENDENT Klik OK. Variabel MARKETING tidak kita masukkan karena ia akan menjadi referensi seperti halnya variabel PELAKSANA sebelumnya.

Terlihat pada tabel ANOVA bahwa bidang kerja tidak mampu memprediksi kepuasan (F=.816; p>0.05). Sumbangan efektif prediksi bidang kerja hanya sekitar 0.88 persen. Sedikit sekali ya, 99,2 persen adalah prediksi oleh variabel yang lain. Kita masuk ke tabel COEFFICIENT. Sama seperti pada analisis berdasarkan jabatan di muka, prediksi kepuasan dapat kita ketahui melalui persamaan regresi. Berikut ini persamaannya.
Y = B0 + B1 (SUPLAI) + B2 (PRODUKSI)
Y = 6.750 – 1.417 (SUPLAI) – 0.583 (PRODUKSI)
ingat MARKETING tidak kita masukkan karena menjadi kategori yang dijadikan referensi, seperti halnya PELAKSANA
Jika kita ditanya berapa KEPUASAN bidang SUPLAI ?
Y = 6.750 – 1.417 (1) – 0.583 (0) =4.75
Berapa KEPUASAN bidang MARKETING ?
Y = 6.750 – 1.417 (o) – 0.583 (0) =6.75
Nilai signifikansi di atas menunjukkan perbedaan antara kategori yang ditampilkan dengan MARKETING sebagai referensi. Terlihat bahwa tidak ada perbedaan KEPUASAN antara bidang MARKETING dan SUPLAI (t=-1.278; p>0.05) dan juga tidak ada perbedaan antara bidang MARKETING dengan PRODUKSI (t=-0.526; p>0.05)
Trus, bagaimana perbedaan KEPUASAN antara PRODUKSI dan SUPLAI? Anda dapat menganalisis kembali regresi seperti yang saya contohkan dengan menggunakan kategori PRODUKSI atau SUPLAI sebagai referensinya.
LATIHAN 4
Pada bagian ini kita akan menganalisis semua variabel yang kita miliki.
Bukalah SPSS – Tekan menu ANALYZE – REGRESSION – LINIER. Pada menu yang ditampilkan masukkan variabel PUAS (Y) pada DEPENDENT, trus tahan (X1), MANAJER (X2), dan 2 kategori bidang kerja (X3), yaitu SUPLAI dan PRODUKSI pada INDEPENDENT(S) lalu klik OK. Cara membacanya sama seperti yang saya contohkan.

Terlihat pada tabel ANOVA bahwa secara simultan (bersama-sama) semua prediktor mampu memprediksi KEPUASAN secara signifikan (F=13.361 p<0.05). Sumbangan efektif prediksi bidang kerja hanya sekitar 78.1 persen. Kita masuk ke tabel COEFFICIENT, prediksi KEPUASAN dapat kita ketahui melalui persamaan regresi. Berikut ini persamaannya :
Y = B0 + B1 (TAHAN) + B2 (MANAJER) + B2 (SUPLAI) + B3 (PRODUKSI)
Y = 5.022 – 0.011 (TAHAN) B2 + 3.281 (MANAJER) – 1.405 (SUPLAI) + 0.561 (PRODUKSI)
Jika di tanya berapakah KEPUASAN pekerja pada jabatan PELAKSANA dalam bidang SUPLAI jika KETAHANAN mereka skornya 2 ?
Y = 5.022 – 0.011 (2) B2 + 3.281 (0) – 1.405 (1) + 0.561 (0) = 3.95
Nilai signifikansi di atas menunjukkan bahwa ketahanan tidak mampu memprediksi secara signifikan (B=0.011; p>0.05). Ada perbedaan kepuasan antara MANAJER dan PELAKSANA (B=3.281; p<0.05) dan seterusnya, sama membacanya dengan cara sebelumnya.
Terlihat bahwa ada perbedaan antara hasil analisis secara terpisah dengan analisis secara simultan. Meski secara umum dalam hal signifikansi tidak ada perbedaan, akan tetapi dari sisi prediksi ada perbedaan. Memang demikian adanya, yang dikarenakan ada varian-varian di data turut dilibatkan. Analisis secara simultan memiliki kelebihan dibanding secara terpisah, karena manusia adalah integral, kita tidak hanya melihat satu sisi darinya namun harus melihat sisi yang lainnya pula. Dalam hal ini kita tidak melihat KEPUASAN individu tidak hanya dari KETAHANANNYA saja akan tetapi dari JABATAN dan BIDANG KERJANYA.
Analisis regresi dengan menggunakan variabel dummy memiliki kompleksitas, hasil analisis ini memiliki kemiripan dengan analisis kovarian, namun memiliki sistematika komputasi yang sedikit berbeda.
Perbedaan Error dengan Residual

Perbedaan Error dengan Residual

Seringkali ditemui di lapangan, bahwa para pengguna statistika kurang paham mengenai beda antara istilah residual dengan error. Kasus ini sering ditemui dalam konsep regresi. Walaupun kedua istilah ini di dalam bahasa Indonesia memiliki terjemahan yang sama, yaitu galat, namun demikian, keduanya sebenarnya memiliki perbedaan.
Secara matematis:
Residual adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan sebenarnya apabila data yang digunakan adalah data sampel.
Error adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan yang sebenarnya apabila data yang digunakan adalah data populasi.
Persamaan keduanya : merupakan selisih antara nilai duga (predicted value) dengan pengamatan sebenarnya.
Perbedaan keduanya: residual dari data sampel, error dari data populasi.
:)
*Predicted value adalah nilai duga yang dihasilkan dari model regresi yang diperoleh. Misal model regresi yang diperoleh: y = 2+3x. Apabila kita memasukkan nilai x = 1, maka predicted value dalam kasus ini  adalah y = 2+3*1 = 5

Dummy Trap

Mungkin istilah ini agak asing di telinga para pengguna metode statistika yang belum pernah mempelajari Analisis Regresi dengan variabel dummy (RVD). Yup, dummy trap berarti “jebakan” yang mungkin akan menjerat para pengguna RVD. Jebakannya berupa munculnya kasus multikolinieritas dalam model RVD.
Dummy trap terjadi apabila banyaknya variabel dummy yang digunakan sama banyak dengan banyaknya kategori dalam setiap variabel yang akan di jadikan variabel dummy.
Contoh: terdapat variabel jenis kelamin yang akan dijadikan variabel dummy. Kita tahu bahwa variabel jenis kelamin memiliki 2 kategori, yaitu Pria dan Wanita. Apabila analis menggunakan 2 buah variabel dummy, misal DP (dummy untuk Pria) dan DW (dummy untuk wanita), maka kasus multikolinieritas akan muncul. Hal ini disebabkan karena untuk setiap baris data yang berbentuk baris-kolom (matriks), baris ke-i pada kolom DP yang bernilai 1 berkenaan dengan nilai 0 pada baris ke-i kolom DW. Maksudnya, untuk setiap baris ke-i kolom DP yang bernilai 1, kolom DW selalu bernilai 0. Demikian juga untuk setiap baris ke-k kolom DP yang bernilai 0, kolom DW baris ke-k selalu bernilai 1. Hal inilah yang menyebabkan terjadinya korelasi.
Kalo diantara pembaca ada yang pernah belajar aljabar matriks, apabila nilai suatu kolom berhubungan dengan kolom yang lain, maka nilai determinan matriks tersebut bernilai nol. Nah, kita tahu di dalam aljabar perhitungan regresi linier, untuk mendapatkan koefisien regresi, perhitungan dilakukan menggunakan sistem matriks. Kalo determinan matriks tidak ditemukan, maka invers dari suatu matriks tidak dapat ditemukan juga, sehingga nilai koefisien regresi linier menjadi tak hingga.
Untuk menghindari terjerat dummy trap, maka seharusnya banyaknya variabel dummy yang boleh dibentuk sesuai rumus:
banyak_var_dummy = banyaknya_kategori_variabel – 1
Dengan demikian, banyak variabel yang bisa dibentuk dari kasus di atas adalah: 2-1 = 1 buah variabel dummy agar tidak terjerat dummy trap.