bytedaily - Dilansir dari techcrunch.com, sebuah studi baru yang diterbitkan minggu ini di jurnal Science menunjukkan bahwa model bahasa besar (large language models/LLM) dari OpenAI, o1 dan 4o, menunjukkan performa diagnosis yang lebih akurat dibandingkan dokter di ruang gawat darurat (UGD) dalam kasus-kasus tertentu. Studi ini dilakukan oleh tim peneliti dari Harvard Medical School dan Beth Israel Deaconess Medical Center.
Dalam salah satu eksperimen, peneliti membandingkan hasil diagnosis dari dua dokter jaga di Beth Israel Deaconess Medical Center dengan diagnosis yang dihasilkan oleh model AI OpenAI o1 dan 4o untuk 76 pasien. Diagnosis tersebut kemudian dinilai oleh dua dokter jaga lain yang tidak mengetahui sumber diagnosisnya, apakah dari manusia atau AI.
Hasil studi menyatakan bahwa model o1 "secara nominal tampil lebih baik atau setara dengan dua dokter jaga" dan model 4o. Perbedaan ini "terutama terlihat pada titik kontak diagnosis pertama (triase awal UGD), di mana informasi pasien paling sedikit dan urgensi untuk membuat keputusan yang tepat paling tinggi."
Para peneliti menekankan bahwa mereka tidak melakukan pra-pemrosesan data sama sekali. Model AI diberikan informasi yang sama persis dengan yang tersedia dalam rekam medis elektronik pada saat diagnosis dibuat. Dengan informasi tersebut, model o1 berhasil memberikan diagnosis yang "tepat atau sangat mendekati" pada 67% kasus triase. Angka ini lebih tinggi dibandingkan salah satu dokter yang mencapai 55% dan dokter lainnya 50%.
Arjun Manrai, yang mengepalai laboratorium AI di Harvard Medical School dan salah satu penulis utama studi tersebut, menyatakan dalam siaran pers Harvard Medical School bahwa AI "melampaui baik model sebelumnya maupun baseline dokter kami."
Namun, studi ini tidak mengklaim bahwa AI siap membuat keputusan hidup-mati di UGD. Para peneliti justru menekankan "kebutuhan mendesak untuk uji coba prospektif untuk mengevaluasi teknologi ini dalam pengaturan perawatan pasien di dunia nyata."
Tim peneliti juga mencatat bahwa mereka hanya menguji performa model AI berdasarkan informasi tekstual. Studi lain menunjukkan bahwa model fondasi saat ini lebih terbatas dalam penalaran atas input non-tekstual.
Adam Rodman, seorang dokter di Beth Israel Deaconess Medical Center dan penulis utama studi, kepada The Guardian mengatakan bahwa saat ini "tidak ada kerangka kerja formal untuk akuntabilitas" seputar diagnosis AI. Ia juga menambahkan bahwa pasien masih "menginginkan manusia untuk membimbing mereka melalui keputusan hidup atau mati dan keputusan pengobatan yang menantang."
Sumber asli: Artikel ini disadur dari publikasi techcrunch.com.