Minggu, 18 Maret 2012

Bland Altman Test


Bland & Altman plot merupakan metode statistika yang digunakan untuk membandingkan dua tehnik pengukuran. Dalam method graphic ini selisih (atau rasio) antara dua tehnik pengukuran tersebut diplotkan dengan rata-ratanya. Bland Altman Test digunakan untuk mengetahui hubungan antara selisih dan rata-rata, selain itu untuk mengetahui outliers (pencilan, yaitu nilai pengamatan yang berbeda dengan pengamatan yang lain). Bland Altman Test mempunyai beberapa ketentuan, antara lain adalah:
CR ini mempunyai makna bahwa semakin kecil nilainya (CR) maka semakin dekat (sama) antara dua percobaan yang diuji dan semakin besar maka semakin berbeda antara dua percobaan tersebut. Hanya saja besar kecilnya nilai CR tidak dapat ditentukan.
1. Skala variable yang diukur adalah skala kontinyu (skala interval dan rasio)
2. Ada pengulangan dalam variable tersebut
3. Variable yang diulang atau diukur harus mempunyai jumlah yang sama.



Graph tersebut menggambarkan scatter diagram dari selisih dan rata-rata dari dua pengukuran yang dibandingkan. Garis horizontal merupakan rata-rata dari selisih dan rata-rata selisih ditambah dan dikurangi dengan 1.96 kali dari standard deviasi selisih.

Cara membaca plot tersebut adalah apabila terdapat pengamatan atau titik dalam plot yang berada diluar 1.96 kali standard deviasi selisih berarti pengamatan tersebut berbeda dengan pengamatan lainnya (dianggap outliers). Begitu pula sebaliknya apabila berada di dalam 1.96 kali standard deviasi selisih berarti pengamatan tersebut mempunyai kesamaan dengan pengamatan yang lain atau dengan kata lain bukan sebagai outliers.

Repeatability
Bland & Altman Test dapat digunakan pula untuk mengukur repeatability dalam suatu metode dengan cara membandingkan pengukuran yang diulang dalam suatu data. Grafikdapat juga digunakan untuk mengetahui variabilitas atau ketepatan dalam suatu metode. Dalam repeatability test ini selisih dari rata-rata harus bernilai nol, karena hal ini menunjukkan bahwa dengan pengukuran yang berbeda, hasil yang diperoleh tidak mengalami perbedaan atau hasilnya tetap sama.

Dalam repeatability digunakan suatu koefisien yang disebut dengan Coefficient of Repeatability (CR), koefisien ini diperoleh dengan cara 1.96 kali standard deviasi selisih dua pengukuran, atau:




»»  READMORE...

Steam – Leaf Diagram


Diagram ini merupakan bagian dari statistika deskripif, digunakan untuk mengetahui keragaman data dengan cara membuat statistika tataan (ordered statistics) berupa penyusunan data dari kecil ke besar. Disebut juga diagram dahan daun, karena salah satu bentuk statisitik tataan yang dikelompokan berdasarkan dahan dan daun. Daun menunjukkan digit terakhir dari data, sedangkan digit di awal ditunjukkan dengan daun.Diagram dahan daun sama seperti diagram frekuensi, karena lebar dari baris dahan untuk kelas sama dengan frekuensi dalam kelas tersebut. Diagram ini disusun baris per baris secara vertical dan cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil.

Cara membuat diagram dahan daun:
1. List digit 0 – 9 dalam sebuah kolom yang disebut sebagai dahan (satuan, puluhan, persepuluhan, dll bergantung pada magnitude data)
2. Tempatkan digit kedua pada dahan yang sesuai
3. Untuk memudahkan penentuan ukuran pemusatan, tempatkan daun secara berurutan (dari kecil ke besar)
4. Dahan dapat diuraikan ke dalam beberapa sub dahan
Contoh:
1.5 -> dahan = 1, daun = 5
27 -> dahan = 2, daun =7
1907 -> dahan 190, daun = 7

Keuntungan dalam diagram dahan daun daripada diagram frekuensi antara lain :
1. Diagram dahan daun tidak hanya menampilkan frekuensi dari tiap interval, namun menampilkan juga semua data beserta frekuensinya.
2. Dapat melihat pola sebaran data, kita tetap memiliki data aslinya yang akan memudahkan proses mengurutkan data yang banyak diperlukan dalam analisa data.
3. Secara tidak langsung dapat digunakan untuk mengurutkan data, dibandingkan dengan pengurutan secara langsung dari sekumpulan data.
4. Dapat melihat kesimetrikan data dengan cara sederhana dibandingkan dengan pemeriksaan kenormalan data yang membutuhkan perhitungan peluang.
5. Dapat langsung membandingkan sebaran dari dua kumpulan data

Ciri – cirinya antara lain: 
1. Data asli masih tampak sehingga memudahkan pemeriksaan
2. Pusat data mudah diketahui
3. Penyimpangan terhadap kesetangkupan data mudah dideteksi
4. Data pencilan dapat dideteksi.

Sebaran data dapat dilihat dari penguraian dahan ini. Semakin banyak dahan maka semakin rendah daun yang didapatkan. Frekuensi komulatif menunjukkan peringkat data dan dapat digunakan untuk menentukan ukuran pemusatan data.
Contoh yang digunakan sama dengan contoh pada artikel Box Plot, berikut ini terdapat data tinggi badan siswa dalam cm:
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4
Maka stem – leaf diagramnya adalah sebagai berikut:
Frek. Kumulatif dahan daun
2 14 22
4 14 45
10 14 667777
23 14 8888888999999
(10) 15 0000001111
17 15 22222233333
6 15 4445
2 15 6
1 15
1 16 0
Dari diagram tersebut tampak bahwa mean dan median terletak pada nilai 150 cm dan pencilan adalah 160 cm.
»»  READMORE...

Normality Test – Anderson Darling


Normality test (uji sebaran normal) adalah uji yang digunakan untuk mengatahui apakah data menyebar mengikuti sebaran normal atau tidak. 

Output Anderson Darling TestOutput Anderson Darling Test


Mengapa data harus mengikuti sebaran normal ? 
Perlu diketahui bahwa analisis yang memerlukan adanya pendugaan terhadap parameter populasi yang diamati disebut analisis parametric. Dalam pendugaan parameter umumnya menggunakan statistic uji F, t, z dan khi-kuadrat. Statistic uji tersebut (F, t, z dan khi-kuadrat) diturunkan dari sebaran normal, sehingga sebelum melakukan analisis uji parametric diperlukan asumsi kenormalan data, karena analisis ini menghendaki data yang menyebar normal. Tidak terpenuhi asumsi ini akan berpengaruh terhadap resiko salah dalam penarikan kesimpulan, sehingga akan menghasilkan kesimpulan yang kurang dapat dipercaya atau menyimpang dari keadaan yang sebenarnya,(Solimun, 1998).

Beberapa uji kenormalan antara lain:
1. Anderson Darling Test
2. Kolmogorov Smirnov Test
3. Ryan Joiner Test
4. Saphiro Wilk Test

Sebelum menjelaskan uji-uji tersebut, Anda dapat menguji kenormalan data dengan plot kenormalan data (normal probability plot), di mana plot dari data tersebut dibentuk antara nilai data dengan nilai harapan data tersebut (expected value). Nilai harapan merupakan nilai yang Anda harapkan mendekati nilai populasi sebenarnya. Jika distribusi tersebut menyebar normal, maka plot data sample berada di sekitar garis lurus, yang merupakan nilai harapan.

Probability plot dari data yang menyebar normal


Probability plot dari data yang tidak menyebar normal


Anderson Darling Test

Anderson Darling Test adalah nama dari Theodore Wilbur Anderson, Jr. (1918–?) dan Donald A. Darling (1915–?),mereka menemukan statistic untuk menguji kenormalan data, dengan jumlah data yang kecil yaitu n kurang dari sama dengan 25 (n=<25). style="font-weight: bold;">D’Angostris & Stephens (1981), menyatakan bahwa uji ini berdasarkan pada pengujian fungsi sebaran komulatif empiris yang mendasari fungsi sebaran dari data contoh. Dalam pengujian ini, fungsi sebaran empiris menaksir fungsi sesungguhnya dari sebaran tersebut, karena fungsi sebaran empiris mendekati (konvergen ke fungsi sebaran sesungguhnya). Uji ini digunakan untuk memutuskan apakah contoh acak (data) berasal dari fungsi normal atau tidak. MenurutStephens (1974), uji Anderson Darling digunakan sebagai uji kenormalan atau kebaikan suai (goodness of fit) untuk peubah kuantitatif. Anderson Darling Test bisa digunakan untuk menguji kenormalan berbagai macam sebaran data, yaitu sebaran normal, lognormal, exponensial, weibull, sebaran logistic.

Anderson Darling Test ini digunakan untuk mengetahui distribusi dari data sampel. Uji ini merupakan modifikasi dari Kolmogorov Smirnov Test (K-S Test), yaitu K-S Test yang telah diboboti. K-S Test merupakan uji yang bebas distribusi, artinya tidak bergantung pada distribusi data tertentu yang diuji. Sedangkan Anderson Darling Test, menggunakan distribusi data tertentu dalam menghitung nilai kritis. Kelebihan Anderson Darling Test adalah uji ini lebih sensitif daripada K-S Test, namun mempunyai kelemahan yaitu nilai kritis tersebut harus dihitung dari setiap distribusi data sampel. Anderson Darling Test yang merupakan variasi dari Kolmogorov Smirnov Test, menggunakan p-value untuk mengukur apakah sebaran tertentu tersebut menyebar normal atau tidak. P-Value adalah peluang bahwa sampel yang diuji terletak pada distribusi normal dari suatu populasi. Jika p-value lebih kecil dari 0.05 maka tolak hipotesa awal (H0).


Dalam software Minitab versi 15, Anderson Darling Test digunakan untuk membandingkan fungsi komulatif distribusi dari data sampel (the empirical cumulative distribution function) dengan nilai harapan (expected value) dari data tersebut. Jika perbedaan nilai observasi data tersebut cukup besar maka uji ini menolak hipotesis nol (H0), yang berarti data tidak menyebar normal.

-. Hipotesis dari Anderson Darling Test:
H0: Data mengikuti sebaran tertentu
H1: Data tidak mengikuti sebaran tertentu

-. Statistik uji:

di mana:

F merupakan fungsi komulatif distribusi (cumulative distribution function) dari distribusi tertentu.

-. Significance level: alpha

-. Daerah kritis: Nilai kritis dari Anderson Darling Test bergantung pada distribusi yang akan diuji. Secara statistics, keputusan menolak H0 apabila A lebih besar dari nilai kritis yang telah ditentukan.

Anderson Darling Test dapat dilakukan dengan mudah melalui beberapa software statistics, salah satunya Minitab versi 15. Dalam software tersebut, perhitungan uji Anderson Darling dapat melalui menu Stat > Basic statistics > Normality test ,



Kemudian pilih Anderson-Darling dalam menu Test of Normality.


Contoh: Data tinggi badan siswa dalam cm:

148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

-. Hipotesis dari Anderson Darling Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran normal
-. α : 5 %
-. Teori pengambilan keputusan:
Terima H0 --> P-Value > α.
Tolak H0 --> P-Value < α.



Intepretasi Output Anderson Darling Test
-. Graphic: dari probability plot terlihat plot data sampel berada di sekitar garis lurus (expected value), ini menunjukkan bahwa data tinggi badan menyebar normal.

-. Statistic value:
a. Mean = 150.4, rata-rata data 150.4 cm, artinya nilai memusat pada nilai 150.4 cm

b. St. Dev = 3.306, standard deviasi sebesar 3.306. Nilai standard deviasi tidak terlalu besar, ini menunjukkan keragaman data tidak terlalu besar yang artinya data bersifat homogen.

c. N = 50, jumlah sampel yang dihitung adalah 50 data

d. AD = 0.239, nilai Anderson Darling sebesar 0.239. Nilai ini relative kecil, yang berarti terima H0 atau data menyebar normal, namun dari nilai AD ini belum dapat diputuskan secara pasti apakah data menyebar normal atau tidak, karena tidak ada parameter yang pasti untuk menentukan menyebar normal.

e. P-Value = 0.769, nilai P-Value sebesar 0.769. P-Value > 5%, artinya terima H0 yang menyatakan bahwa data menyebar normal.
»»  READMORE...

Normality Test – Kolmogorov Smirnov


Kolmogorov Smirnov Test (K-S Test) merupakan uji dalam statistics nonparametric yang digunakan untuk uji dua sampel dari distribusi data yang sama. K-S Test dalam statistic non parametric befungsi sama seperti Mann-Whitney Test. K-S Test mempunyai keuntungan bahwa uji ini tidak memperhatikan asumsi dari distribusi data (secara tehnik ini bisa dikatakan bahwa uji ini bebas sebaran dan nonparametric). Namun demikian, dalam hal sensitivitas, uji t lebih baik daripada K-S Test.
Intepretasi K-S Test

K-S Test (Chakravart, Laha, and Roy, 1967) digunakan untuk menentukan distribusi suatu data sampel. Selain itu, dapat juga digunakan untuk menguji kenormalan suatu data digunakan dengan cara menstrandarkan sampel kemudian membandingkannya dengan distribusi normal. K-S Test dibentuk berdasarkan fungsi distribusi empiric (empirical distribution function – ECDF). Misal terdapat data Y1, Y2, … YN, maka ECDF didefinisikan dengan EN = n(i) / N, di mana n(i) merupakan jumlah dari Yi yang diurutkan dari kecil ke besar.

Keuntungan K-S Test adalah statistic-nya tidak bergantung pada fungsi distribusi kumulatif dari sebaran yang akan diuji. Selain itu keuntungan lainnya terletak pada exact test, yaitu chi square goodness of fit, bergantung pada suatu ukuran contoh saja. Namun K-S Test juga memiliki kelemahan, yaitu:
1. Hanya dapat diaplikasikan untuk distribusi kontinyu
2. Cenderung sensitive pada pusat distribusi
Keterbatasan untuk masalah no 2 dapat diatasi dengan menggunakan Anderson Darling test.

K-S Test Analysis
-. Hipotesis dari K-S Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran nomal
-. Statistik uji:

di mana:
F merupakan fungsi komulatif distribusi yang akan diuji dan harus berupa distribusi kontinyu.

-. Significance level: alpha

-. Daerah kritis: Tolak H0 apabila nilai kritis D lebih besar dari nilai kritis pada table, atau peliang nilai kritis D lebih kecil dari significance level (alpha).


Contoh: Data tinggi badan siswa dalam cm
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

Sama seperti Anderson Darling Test, K-S Test juga dapat dilakukan dengan mudah melalui Minitab versi 15. Dalam software tersebut, perhitungan K-S Test dapat melalui menu Stat > Basic statistics > Normality test.


Kemudian pilih Kolmogorov Smirnov dalam menu Test of Normality.


-. Hipotesis dari Kolmogorov Smirnov Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran normal
-. α : 5 %
-. Teori pengambilan keputusan:
Terima H0 -> P-Value > α.
Tolak H0 -> P-Value < α. Output Kolmogorov Smirnov Test 


Intepretasi Output Kolmogorov Smirnov Test 
-. Graphic: dari probability plot terlihat plot data sampel berada di sekitar garis lurus (expected value), ini menunjukkan bahwa data tinggi badan menyebar normal.

-. Statistic value 
a. Mean = 150.4, rata-rata data 150.4 cm, artinya nilai memusat pada nilai 150.4 cm

b. St. Dev = 3.306, standard deviasi sebesar 3.306. Nilai standard deviasi tidak terlalu besar, ini menunjukkan keragaman data tidak terlalu besar yang artinya data bersifat homogen.

c. N = 50, jumlah sampel yang dihitung adalah 50 data d. KS = 0.057, nilai Kolmogorov Smirnov sebesar 0.057. Nilai ini relative kecil, yang berarti terima H0 atau data menyebar normal, namun dari nilai KS ini belum dapat diputuskan secara pasti apakah data menyebar normal atau tidak, karena tidak ada parameter yang pasti untuk menentukan menyebar normal.

d. P-Value = >0.150, nilai P-Value sebesar lebih dari 0.150. P-Value > 5%, artinya terima H0 yang menyatakan bahwa data menyebar normal.


Selain Minitab versi 15, K-S Test dapat juga melalui SPSS versi 16, ada dua cara untuk mendapatkan statistic dari K-S Test, yaitu melalui descriptive statistics dan nonparametric test.
1. Melalui descriptive statistics, prosedurnya adalah: Analyze > Descriptive statistics > Explore


Kemudian Explore > Plot > (klik) Normality plots with test > Continue > OK

Output K-S Test


Intepretasi K-S Test
Dari kolom kolmogorof Smirnov, nampak bahwa statistic-nya sebesar 0.067 dengan df sebesar 50, df ini adalah degree of freedom (derajat bebas) untuk kasus ini df = n, dan sig 0.200. Untuk menentukan data tersebut menyebar mengikuti sebaran normal atau tidak adalah dengan melihat sig. Sig sama seperti p-value, sehingga apabila sig > 0.05 maka terima H0, yang artinya data menyebar mengikuti sebaran normal.

2. Melalui Nonparametric test, prosedurnya adalah Analyze > Nonparametric Test > 1 Sample K-S




Output K-S Test



a. N = 50, artinya jumlah sampel sebanyak 50.

b. Mean = 150.37, artinya rata-rata sebesar 150.37

c. Standard deviation = 3.31, artinya standard deviasi sebesar 3.31, dari statistic ini terlihat bahwa standard deviasi relative kecil.

d. Positive = 0.117, artinya pengurangan antara distribusi kumulatif teoretik dengan distribusi kumulatif teoretik yang menghasilkan angka positive terbesar.

e. Negative = -0.164, artinya pengurangan antara distribusi kumulatif teoretik dengan distribusi kumulatif teoretik yang menghasilkan angka negative terbesar.

f. Absolute = 0.067, artinya dari perbandingan negative dan positif, yang terbesarlah yang dimasukkan dalam absolute.

g. Kolmogorov Smirnov Z = 0.567, artinya jika Z di bawah 1.97 maka dapat dikatakan tidak ada perbedaan antara distribusi teoretik dan distribusi empiric, dan berarti data menyebar normal.

h. Asymp. Sig. (2-tailed) = 0.905, artinya nilai ini sama seperti p-value, jika lebih besar dari 0.05 atau 5% maka terima H0 dan berarti data menyebar sesuai dengan distribusi normal.

i. Test distribution is Normal, artinya dalam table tersebut dijelaskan bahwa yang diuji adalah sebaran normal.
»»  READMORE...

Box Plot


Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Box Plot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran. John Tukey memperkenalkan metode yang efisien untuk menampilkan lima summary dalam data. Metode ini dikenal dengan Box Plot (atau Box and Whisker plot)mengukur median, quartile atas dan bawah, data maksimum dan minimum.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
1. Rata-rata (mean)
2. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
3. Q1, merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
4. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
5. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

Dalam Box Plot dikenal juga yang disebut dengan hamparan (H-spread) atau jarak antar quartile (range interquartile-IQR), yaitu jarak antara Q1 dan Q3.

“Step” didefinisikan sebagai 1.5*H-spread. Pagar dalam (inner fences) adalah 1 * “Step”, Q1 - 1.5*H-spread dan Q3 + 1.5*H-spread, sedangkan pagar luar (outer fences) adalah 2* “Step” atau 3*H-spread, Q1 - 3*H-spread dan Q3 + 3*H-spread. Data yang terletak diluar pagar dalam (inner fences) disebut outlier, dan data yang terletak di luar pagar luar (outer fences) disebut data ekstrem.

Intepretasi dari Box Plot adalah sebagai berikut:
1. Box mengandung 50% dari data. Tepi atas dari box disebut Q3 (75% dari data) dan tepi bawah dari box disebut Q1(25 % dari data).
2. Garis yang terdapat pada box disebut dengan median data (Q2)
3. Apabila jarak antara tepi bawah dan tepi atas ke median data tidak sama, berarti distribusi data tersebut tidak simetris (skew).
4. Titik terakhir dari garis vertical merupakan nilai maksimum dan minimum, kecuali jika terdapat outlier dalam data tersebut. Panjang garis vertical tersebut adalah 1.5 kali inter quartile range (IQR = Q3 – Q1)
5. Titik yang berada di luar garis tersebut disebut dengan outlier.
6. Luas kotak menunjukkan besar kecilnya keragaman data.
7. Data yang terletak di antara dua pagar dalam merupakan data yang baik karena masih merupakan anggota kelompok data.
8. Garis whisker, jarak antara Q1 dan statistic peringkat paling dekat dengan pagar dalam dan jarak antara Q3 dengan statistic peringkat yang bernilai paling dekat dengan pagar dalam.


Misal berikut ini terdapat data tinggi badan siswa dalam cm:
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

Dari data tersebut diperoleh beberapa statistic:
Mean : 150.37 cm
Median : 150.38 cm
SE Mean: 0.46
St. Dev: 3.31
Nilai minimum: 142.4 cm
Nilai maximum: 160 cm
Q1: 148.49 cm
Q3: 152.69 cm

Box Plot untuk data tersebut:



Data tersebut menunjukkan adanya outlier yaitu data dengan nilai 160,00 karena nilai tersebut diluar 1,5*IQR. Kemudian dari boxplot tersebut dapat dilihat bahwa garis whiskers tidak sama panjang, dan median (Q2) tidak sama dengan mean (rata-rata) maka data tersebut tidak setangkup.

Kelebihan boxplot:
1. Secara visual menggambarkan lokasi dari data
2. Menunjukkan sebaran data tersebut simetri atau tidak
3. Tidak seperti metode yang lain, box plot memperlihatkan outlier
4. Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data pada satu tampilan secara bersamaan.

Kelemahan boxplot:
1. Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam suatu data.
2. Selain itu bentuk distribusi terpengaruh pula adanya outlier.
3. Cenderung menyembunyikan detail dari distribusi data
Untuk mengurangi kelemahan ini, perlu disertakan pula histogram data sebagai pelengkap.
»»  READMORE...

Metode Pendeteksian Outliers


Setelah pada artikel sebelumnya membahas mengenai outlier, pada artikel ini akan dibahas mengenai metode pendeteksian outlier. Metode ini sudah dibahas pada salah satu bagian pada artikel sebelumnya, dan pada artikel ini akan dibahas dengan lebih detail. Sebagian besar artikel ini bersumber pada artikel yang ditulis oleh Soemartini, mahasiswa Jurusan Statistika, FMIPA, Universitas Padjajaran, tahun 2007 dengan judul Pencilan (Outlier) selain juga tambahan dari saya.
2. Description Statistics

Beberapa metode yang untuk mengetahui outlier:
1Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.

Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier.
Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.


Metode ini sebenarnya lebih tepat digunakan untuk mengeksplorasi data, berfungsi meringkas informasi untuk membantu pengambilan keputusan dan meringkas data mentah sehingga didapatkan pola sebaran data dan menyajikan informasi di dalam data, selain itu untuk mendapatkan gambaran tentang bentuk sebaran data. Dari description statistics diperoleh mean, median, modus, standard deviasi, dan statistic lainnya yang dapat ditentukan sendiri. Dengan statistic tersebut kita dapat mengetahui gambaran mengenai penyebaran data, untuk outlier tidak dapat langsung diketahui tapi harus melalui perhitungan tambahan yaitu untuk batas atas ditentukan sebesar mean + 2*standard deviasi dan batas bawah ditentukan sebesar mean - 2*standard deviasi. Outlier adalah data yang berada di luar batas atas dan batas bawah tersebut. Outlier dapat juga dilihat jika standard deviation > mean maka terdapat data outlier.

3. Boxplot
Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Boxplot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
a. Rata-rata (mean)
b. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
c. Q1, Q1 merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
d. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
e. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

4. Steam – Leaf Diagram
Diagram ini merupakan bagian dari statistika deskripif, digunakan untuk mengetahui keragaman data dengan cara membuat statistika tataan (ordered statistics) berupa penyusunan data dari kecil ke besar. Disebut juga diagram dahan daun, karena salah satu bentuk statsitik tataan yang dikelompokan berdasarkan dahan dan daun. Daun menunjukkan digit terakhir dari data, sedangkan digit di awal ditunjukkan dengan daun. Diagram dahan daun sama seperti diagram frekuensi, karena lebar dari baris dahan untuk kelas sama dengan frekuensi dalam kelas tersebut. Diagram ini disusun baris per baris secara vertical dan cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil.

Keuntungan dalam diagram dahan daun daripada diagram frekuensi antara lain :
a. Diagram dahan daun tidak hanya menampilkan frekuensi dari tiap interval, namun menampilkan juga semua data beserta frekuensinya.
b. Dapat melihat pola sebaran data, kita tetap memiliki data aslinya yang akan memudahkan proses mengurutkan data yang banyak diperlukan dalam analisa data.
c. Secara tidak langsung dapat digunakan untuk mengurutkan data, dibandingkan dengan pengurutan secara langsung dari sekumpulan data.
d. Dapat melihat kesimetrikan data dengan cara sederhana dibandingkan dengan pemeriksaan kenormalan data yang membutuhkan perhitungan peluang.
e. Dapat langsung membandingkan sebaran dari dua kumpulan data

5. Bland Altman Test
Bland & Altman plot merupakan method statistika yang digunakan untuk membandingkan dua tehnik pengukuran. Dalam method graphic ini selisih (atau rasio) antara dua tehnik pengukuran tersebut diplotkan dengan rata-ratanya. Bland Altman Test digunakan untuk mengetahui hubungan antara selisih dan rata-rata, selain itu untuk mengetahui outliers (pencilan, yaitu nilai pengamatan yang berbeda dengan pengamatan yang lain).

6. Leverage Values, DfFits, Cook’s Distance, dan DfBeta(s)
Dalam artikel Soemartini didefinisikan arti dari masing-masing metode :
a. Leverage Values: menampilkan nilai leverage (pengaruh) terpusat.
b. DfFITS atau Standardized DfFIT: menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan.
c. Cook’s Distance: menampilkan nilai jarak Cook
d. DfBETA(s): menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :
a. Leverage > (2p-1)/n -> terdapat outlier/ pencilan
b. DfFITS > 2*sqrt (p/n) -> terdapat outlier/ pencilan
c. Cook’s Distance > F(0.5; p, n-p) -> terdapat outlier/ pencilan
d. DfBETA(s) > 2/sqrt(n) -> terdapat outlier/ pencilan
di mana n = jumlah observasi (sampel); p = jumlah parameter
»»  READMORE...

Kamis, 08 Maret 2012

Penerapan Data Mining



Sebagai cabang ilmu baru di bidang komputer (lihat artikel sebelumnya berjudul ‘Data Mining’) cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
• Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
• Melihat pola beli pemakai dari waktu ke waktuData mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.• Cross-Market AnalysisKita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:o Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?o Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.o Cari pola penjualan• Profil CustomerData mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.• Identifikasi Kebutuhan CustomerAnda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.• Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html
• Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html• Informasi SummaryAnda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html• Informasi SummaryAnda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html• Informasi SummaryAnda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html• Informasi SummaryAnda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.Data Mining dapat membantu Anda untuk melakukan analisis dan prediksi cash flow serta melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu Anda juga dapat menggunakannya untuk analisis trend.• Perencanaan Sumber Daya (Resource Planning)Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan dari masing-masing resource, Anda dapat memanfaatkannya untuk melakukan resource planning.• Persaingan (Competition)o Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive intelligence. Data Mining dapat membantu Anda untuk memonitor pesaing-pesaing Anda dan melihat market direction mereka.o Anda juga dapat melakukan pengelompokan customer Anda dan memberikan variasi harga/layanan/bonus untuk masing-masing grup.o Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di pasaran.



Analisa Perusahaan dan Manajemen Resiko
• Perencanaan Keuangan dan Evaluasi Aset
Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tidak lain adalah untuk menambah layanan otomatis khusus untuk transaksi-transaksi yang masih dilayani secara manual. Dengan demikian jumlah operator penerima transaksi manual tetap bisa ditekan minimal.
Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry). Mereka menyatakan bahwa hal tersebut akan susah dilakukan jika menggunakan analisis standar. Anda bisa lihat di www.senate.gov/~appropriations/treasury/testimony/sloan.htm. Mungkin sudah saatnya juga Badan Pemeriksa Keuangan Republik Indonesia menggunakan teknologi ini untuk mendeteksi aliran dana BLBI.
Asuransi
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi. Hasilnya? Mereka berhasil menghemat satu juta dollar per tahunnya. Anda bisa lihat di www.informationtimes.com.au/data-sum.htm. Tentu saja ini tidak hanya bisa diterapkan untuk asuransi kesehatan, tetapi juga untuk berbagai jenis asuransi lainnya.
Olah Raga
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
Astronomi
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa. Anda bisa lihat di www-aig.jpl.nasa.gov/public/mls/news/SKICAT-PR12-95.html.
Internet Web Surf-Aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web.
Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.
»»  READMORE...

Konsep Data Mining


Apa sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ?
Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.
Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. Dimana langkah-langkah untuk melakukan data mining adalah sebagai berikut :
step-datamining

- Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan)
- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
- Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :
- Database, data warehouse, atau tempat penyimpanan informasi lainnya.
- Server database atau data warehouse.
- Knowledge base
- Data mining engine.
- Pattern evolution module.
- Graphical user interface.
Ada beberapa jenis data dalam data mining yaitu :
- Relation Database : Sebuah sistem database, atau disebut juga database management system (DBMS), mengandung sekumpulan data yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut.
- Data Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah site.
Kemudian pola seperti apa yang dapat ditambang ?
Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Secara umum tugas data mining dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas menambang secara deskriptif adalah untuk mengklasifikasikan sifat umum suatu data di dalam database. Tugas data mining secara prediktif adalah untuk mengambil kesimpulan terhadap data terakhir untuk membuat prediksi.
Konsep/Class Description
Data dapat diasosiasikan dengan pembagian class atau konsep. Untuk contohnya, ditoko All Electronics, pembagian class untuk barang yang akan dijual termasuk komputer dan printer, dan konsep untuk konsumen adalah big Spenders dan budget Spender. Hal tersebut sangat berguna untuk menggambarkan pembagian class secara individual dan konsep secara ringkas, laporan ringkas, dan juga pengaturan harga. Deskripsi suatu class atau konsep seperti itu disebut class/concept descripition.
Association Analysis
Association analysis adalah penemuan association rules yang menunjukkan nilai kondisi suatu attribute yang terjadi bersama-sama secara terus-menerus dalam memmberikan set data. Association analysis secara luas dipakai untuk market basket atau analisa data transaksi.
Klasifikasi dan Predikasi
Klasifikasi dan prediksi mungkin perlu diproses oleh analisis relevan, yang berusaha untuk mengidentifikasi atribut-atribut yang tidak ditambahkan pada proses klasifikasi dan prediksi. Atribut-atribut ini kemudian dapat di keluarkan.
Cluster Analysis
Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data dengan kelas yang terlabeli, clustering menganalisis objek data tanpa mencari keterangan pada label kelas yang diketahui. Pada umumnya, label kelas tidak ditampilkan di dalam latihan data simply, karena mereka tidak tahu bagaimana memulainya. Clustering dapat digunakan untuk menghasilkan label-label.
Outlier Analysis
§ Outlier dapat dideteksi menggunakan test yang bersifat statistik yang mengambil sebuah distribusi atau probabilitas model untuk data, atau menggunakan langkah-langkah jarak jauh di mana objek yang penting jauh dari cluster lainnya dianggap outlier.
§ Sebuah database mungkin mengandung objek data yang tidak mengikuti tingkah laku yang umum atau model dari data. data ini disebut outlier.
Evolution Analysis
Data analisa evolusi menggambarkan ketetapan model atau kecenderungan objek yang memiliki kebiasaan berubah setiap waktu. Meskipun ini mungkin termasuk karakteristik, diskriminasi, asosiasi, klasifikasi, atau clustering data berdasarkan waktu, kelebihan yang jelas seperti analisa termasuk analisa data time-series, urutan atau pencocockkan pola secara berkala, dan kesamaan berdasarkan analisa data.
Untuk melakukan data mining yang baik ada beberapa persoalan utama yaitu menyangkut metodologi mining dan interaksi user, performance dan perbedaan tipe database. Hal inilah yang sering kali dihadapi disaat kita ingin melakukan data mining
»»  READMORE...