Principal Component Analysis
Definisi
Principal Component Analysis (PCA) merupakan teknik mereduksi suatu set variabel yang berdimensi tinggi menjadi lebih rendah namun masih mengandung sebagian besar informasi dari data awal. Misalkan dari 100 variabel yang ada, kita hanya memakai 10 variabel saja untuk dianalisis (dimensi yang awalnya 100 menjadi 10 saja).
Terdapat dua fungsi utama dari PCA yaitu reduksi dan transformasi. Fungsi reduksi digunakan untuk mengurangi jumlah variabel (yang awalnya sangat banyak) menjadi lebih sedikit sehingga memudahkan analisis pada tahap selanjutnya. Sedangkan fungsi transformasi digunakan untuk mengubah variabel yang awalnya saling berkorelasi menjadi tidak saling berkorelasi.
Istilah Penting
Berikut merupakan istilah — istilah penting di PCA
- Principal Component (PC)
- Eigen Value
- Eigen Vector
- Matrik Korelasi
- Matrik Kovarian
- Variance Ratio Explained
Konsep Dasar
Sesuai dengan namanya, PCA membentuk variabel baru bernama PC. Variabel PC ini akan menggantikan variabel X pada analisis selanjutnya. Persamaan analisis komponen utama yaitu
Persamaan di atas menunjukkan bahwa variabel baru yaitu PC adalah kombinasi linier dari variabel awal. PC1 adalah variabel yang menjelaskan keragaman paling besar diikuti oleh PC2, PC3,… dst. PCA menjamin bahwa PC1, PC2, PC3,… dst saling bebas. Pada regresi ridge, variabel PC1, PC2, PC3,… dst inilah yang akan menggantikan variabel awal.
Terdapat dua jenis matrix yang digunakan dalam PCA yaitu matrix korelasi dan matrik covariance. Jika satuan dari semua variabel sama, maka sebaiknya menggunakan matriks covariance. Jika antar variabel mempunyai satuan yang berbeda-beda, maka gunakanlah matriks korelasi (menghilangkan efek satuan). Pemilihan matrix masukan tersebut akan menentukan nilai dari konstanta a12,13,…dst yang nantinya akan menghasilkan nilai eigen.
Nilai eigen menunjukkan jumlah varian yang mampu dijelaskan oleh suatu komponen utama. Nilai eigen ini nantinya juga akan berperan dalam pemilihan banyaknya dimensi.
Pada PCA fungsi reduksi, tidak semua Komponen utama akan diikutkan dalam analisis. Bisa saja dari 100 komponen utama yang terbentuk, hanya 50 saja yang akan diambil. Lalu bagaimana cara menentukan banyaknya komponen yang harus diambil ? menurut Dillon & Goldstein (1984), komponen utama yang memiliki nilai eigen > 1 lah yang layak dipilih. Atau komponen yang memiliki keragaman komulatif lebih dari 75% (Marison,1976).
Seringkali, PCA disamakan dengan Analisis Faktor. Padahal, keduanya berbeda dalam konsep dasarnya. Perbedaan keduanya terletak pada model matematis dan ada tidaknya faktor bersama.
PCA seringkali digunakan sebagai analisis pendahuluan. Misalnya pada regresi ridge, variabel yang digunakan merupakan hasil transformasi PCA. Contoh lainnya adalah pada saat melakukan ANOVA atau Clustering, kita reduksi variabel asal terlebih dahulu agar memudahkan analisis dan Interpetasi.
Tahapan PCA
Berikut merupakn tahapan-tahapan dalam melakukan PCA
- Standarisasi data
Standarisasi diperlukan karena efek satuan (misal satuan panjang seperti cm, km, dm) akan mempengaruhi matriks covariance. - Menghitung matrik covariance/korelasi
Matriks varian kovariance berfungsi sebagai nilai masukan untuk mendapatkan nilai eigen dan vector eigen. - Menghitung nilai eigen
Eigenvalue menyatakan seberapa besar keragaman yang mampu dijelaskan oleh suatu Variabel PC. - Menghitung PC
Karena nilai eigen dan vektor eigen sudah diketahui, maka nilai setiap PC bisa dihitung. - Reduksi Dimensi
Tidak semua variabel PC akan dipilih, hanya PC yang mempunyai nilai eigen > 1 yang akan dipilih.