Fisher tidak menyukai kritik Neyman dan Pearson dengan baik. Sebagai tanggapan, ia menyebut metode mereka “anak-anak” dan “absurdly akademis.” Secara khusus, Fisher tidak setuju dengan gagasan memilih di antara dua hipotesis, daripada menghitung “signifikansi” dari bukti yang tersedia, seperti yang ia usulkan. Sedangkan keputusan bersifat final, uji signifikansi-nya hanya memberikan pendapat sementara, yang kemudian bisa direvisi. Namun, ajakan Fisher untuk pikiran ilmiah terbuka agak terganggu oleh desakannya bahwa peneliti harus menggunakan batas 5 persen untuk nilai p-nilai “signifikan,” dan klaimnya bahwa ia akan “menyia-nyiakan seluruhnya semua hasil yang gagal mencapai tingkat ini.”
Kesengitan akan memberi jalan pada puluhan tahun ambiguitas, karena buku teks secara bertahap mencampurkan uji hipotesis nol Fisher dengan pendekatan berbasis keputusan Neyman dan Pearson. Debat yang rumit tentang bagaimana menginterpretasikan bukti, dengan diskusi tentang penalaran statistik dan desain eksperimen, malah menjadi seperangkat aturan tetap yang harus diikuti oleh para siswa.
Penelitian ilmiah mainstream akan bergantung pada ambang batas nilai p yang sederhana dan keputusan benar-salah tentang hipotesis. Dalam dunia belajar ini, efek eksperimental entah ada atau tidak ada. Obat-obatan entah bekerja atau tidak. Barulah pada tahun 1980-an jurnal medis utama akhirnya mulai melepaskan diri dari kebiasaan-kebiasaan ini.
Ironisnya, banyak pergeseran dapat ditelusuri kembali ke gagasan yang Neyman ciptakan pada awal 1930-an. Dengan perekonomian berjuang di Depresi Besar, ia melihat ada permintaan yang meningkat untuk wawasan statistik tentang kehidupan populasi. Sayangnya, sumber daya yang terbatas tersedia bagi pemerintah untuk mempelajari masalah-masalah ini. Para politisi menginginkan hasil dalam bulan-bulan—atau bahkan minggu-minggu—dan tidak cukup waktu atau uang untuk studi yang komprehensif. Sebagai hasilnya, ahli statistik harus mengandalkan pengambilan sampel dari subset kecil populasi. Ini adalah kesempatan untuk mengembangkan beberapa gagasan statistik baru. Misalkan kita ingin memperkirakan nilai tertentu, seperti proporsi populasi yang memiliki anak. Jika kita mengambil sampel 100 orang dewasa secara acak dan tidak ada yang merupakan orang tua, apa yang menunjukkan ini tentang negara secara keseluruhan? Kita tidak dapat mengatakan dengan pasti bahwa tidak ada yang memiliki anak, karena jika kita mengambil sampel kelompok 100 orang dewasa yang berbeda, kita mungkin menemukan beberapa orang tua. Oleh karena itu, kita membutuhkan cara mengukur seberapa yakin kita harus tentang perkiraan kita. Inilah tempat inovasi Neyman masuk. Ia menunjukkan bahwa kita dapat menghitung “interval kepercayaan” untuk sampel yang memberi tahu kita seberapa sering kita harus mengharapkan nilai populasi sebenarnya berada dalam rentang tertentu.
Interval kepercayaan bisa menjadi konsep yang licin, karena membutuhkan kita untuk menafsirkan data nyata yang konkret dengan membayangkan banyak sampel hipotetis lain yang dikumpulkan. Seperti kesalahan tipe I dan tipe II itu, interval kepercayaan Neyman menangani pertanyaan penting, hanya dengan cara yang sering membingungkan para siswa dan peneliti. Meskipun hambatan konseptual ini, ada nilai dalam memiliki pengukuran yang dapat menangkap ketidakpastian dalam sebuah studi. Seringkali menggoda—terutama dalam media dan politik—untuk fokus pada nilai rata-rata tunggal. Sebuah nilai tunggal mungkin terasa lebih yakin dan tepat, tetapi pada akhirnya itu adalah kesimpulan yang ilusif. Dalam beberapa analisis epidemiologi publik kami, saya dan rekan-rekan saya oleh karena itu memilih untuk melaporkan hanya interval kepercayaan, untuk menghindari perhatian yang salah jatuh pada nilai-nilai tertentu.
Sejak tahun 1980-an, jurnal medis telah menempatkan lebih banyak fokus pada interval kepercayaan daripada klaim tunggal benar-salah. Namun, kebiasaan sulit untuk diubah. Hubungan antara interval kepercayaan dan nilai p-p tidak membantu. Misalkan hipotesis nol kita adalah bahwa suatu perlakuan tidak memiliki efek. Jika interval kepercayaan kami yang diperkirakan 95 persen untuk efek tersebut tidak mengandung nol, maka nilai p akan kurang dari 5 persen, dan berdasarkan pendekatan Fisher, kita akan menolak hipotesis nol. Sebagai hasilnya, makalah medis sering kurang tertarik pada interval ketidakpastian itu sendiri, dan lebih tertarik pada nilai-nilai yang memuat—atau tidak—nilai-nilai tersebut. Kedokteran mungkin berusaha melampaui Fisher, tetapi pengaruh ambang batas 5 persen sewenang-wenangnya tetap ada.
Kutipan diadaptasi dari Proof: The Uncertain Science of Certainty, oleh Adam Kucharski. Diterbitkan oleh Profile Books pada 20 Maret 2025, di Inggris.