Lazim dipercayai, ketika nilai p<0.05 maka hipotesis nol ditolak, sedangkan nilai p>0.05 maka hipotesis nol diterima, sehingga nilai p<0.05 menjadi semacam ‘angka keramat’ yang menentukan kesuksesan atau kegagalan penelitian. Kalau hasilnya signifikan, maka penelitian dianggap ‘berhasil’ menemukan efek yang signifikan, sedangkan sebaliknya, bila nilai p>0.05 berarti kiamat bagi peneliti.
Tidak banyak jurnal yang mau menerbitkan hasil penelitian dengan kesimpulan, “tidak ada efek yang signifikan.” Tak ada dosen pembimbing tugas akhir yang sumringah mendapati mahasiswa bimbingannya mendapat nilai p>0.05.
Implikasinya, peneliti terdorong untuk melakukan cara-cara tak terpuji, misalnya sengaja menggunakan jumlah sampel yang besar agar mendapatkan nilai p<0.05. Inilah penyakit yang bertahun-tahun mencekik kredibilitas sains.
Pada Maret 2016, American Statistical Association (ASA) mengeluarkan pernyataan pers yang menggegerkan komunitas sains soal nilai p. Ron Wasserstein, Direktur Eksekutif ASA, menyatakan nilai p tidak boleh lagi diperlakukan layaknya ‘angka keramat,’ lebih-lebih sampai menumpulkan logika dan rasionalitas para peneliti.
Nilai p sesungguhnya tidak ada kaitannya dengan diterima atau ditolaknya hipotesis, ia hanya berarti “… Probabilitas peneliti lain akan mendapatkan data yang ekstrem, seandainya hipotesis nol adalah hipotesis yang benar”.
Menggunakan nilai p untuk menolak dan menerima hipotesis sangat bermasalah dalam tataran praktis dan teoritis. Peneliti seharusnya lebih fokus pada besarnya efek.
Baca juga: Riset Internasional di Indonesia, Siapa yang Untung?
Misalnya, ketika seorang dokter yang ingin meneliti efektivitas obat tertentu dalam menyembuhkan penyakit, maka kesimpulan yang diinginkan adalah bukan apakah obat ini signifikan atau tidak, melainkan efektif atau tidak.
Kalau efektif, seberapa besar efektivitasnya. Nilai p tidak menyediakan informasi apa pun soal efektivitas, sehingga peneliti perlu parameter lain yang disebut ukuran efek (effect size).
Nilai p sangat sensitif dengan jumlah sampel. Meski ukuran efek sangat kecil, nilai p bisa menjadi sangat signifikan bila jumlah sampel besar. Sebaliknya, meski ukuran efek sangat besar, nilai p menjadi tidak signifikan jika jumlah sampel sangat kecil.
Akhirnya, efek sekecil apa pun dapat menjadi signifikan bila jumlah sampel sangat besar, sedangkan efek sebesar apa pun menjadi tidak signifikan jika jumlah sampel sangat kecil.
Dengan begitu, peneliti dapat dengan sengaja menambah jumlah sampel secara terus-menerus hanya agar mendapat nilai p<0.05 (p-hacking). Padahal strategi ini memperbesar kemungkinan peneliti mendapatkan false positive, yaitu ketika peneliti menyimpulkan ada efek, padahal efek tersebut tak pernah ada.
Peneliti juga tak pernah peduli dengan statistical power teknik analisis statistiknya. Padahal dalam statistik, statistical power yang menentukan apakah temuannya akurat atau tidak, bukan nilai p.
Bila suatu teknik (model) statistik powerful, maka peneliti punya peluang yang besar untuk mendeteksi adanya efek, kalau efek itu betul-betul ada. Analisis power juga dapat membantu peneliti untuk merencanakan jumlah sampelnya agar jumlah sampel tak terlalu kecil, atau terlalu besar.
Menariknya, John Ioannidis menunjukkan bahwa sebagian besar penelitian yang terpublikasi punya statistical power yang cenderung rendah. Penelitian-penelitian di bidang psikologi misalnya, diperkirakan rata-rata hanya punya power sebesar 50%, yang artinya peneliti hanya punya 50% peluang untuk mendeteksi adanya efek, kalau efek tersebut betul-betul ada.
Kelirunya penggunaan nilai p membuat sebagian besar hasil penelitian yang dipublikasikan di berbagai jurnal, termasuk jurnal dengan faktor dampak yang tinggi, sekadar menjadi bukti parahnya bias kognitif yang menjangkit para peneliti. Sekaligus menjadi penguat bahwa ada krisis kredibilitas yang amat serius yang harus segera diatasi oleh komunitas akademik.