Nasional
Efek Samping Gunakan Bahasa Kasar pada ChatGPT, Akurasi Naik tapi Ada Dampak Negatif
JAKARTA - Sebuah penelitian terbaru menemukan bahwa chatbot berbasis kecerdasan buatan (AI) mungkin memberikan jawaban yang lebih akurat ketika pengguna bersikap kasar kepada mereka. Namun, para ilmuwan mengingatkan adanya risiko dan dampak negatif dari penggunaan bahasa yang merendahkan.
Riset yang dipublikasikan pada 6 Oktober di basis data pracetak arXiv ini bertujuan untuk mengetahui apakah tingkat kesopanan pengguna dapat memengaruhi kinerja sistem AI. Studi tersebut masih dalam tahap pracetak dan belum melewati proses tinjauan sejawat.
Untuk mengevaluasi pengaruh nada bicara terhadap ketepatan jawaban, peneliti menyusun 50 pertanyaan pilihan ganda dasar. Setiap pertanyaan kemudian diberi awalan dengan lima variasi nada: sangat sopan, sopan, netral, kasar, dan sangat kasar. Pertanyaan-pertanyaan itu meliputi beragam bidang seperti matematika, sejarah, dan sains.
- Pebalap YTI Racing Team Raih Prestasi di 76 Indonesian Downhill Seri III
- Rekomendasi Server Dedicated dari IDCloudHost Paling Andal untuk Bisnis Anda
- Berkat Tren Micro Drama, China Berhasil Cuan Rp157 Triliun!
Setiap pertanyaan diajukan dengan empat pilihan, salah satunya benar. Mereka memasukkan 250 pertanyaan yang dihasilkan sebanyak 10 kali ke dalam ChatGPT-4o. Salah satu model bahasa besar (LLM) tercanggih yang dikembangkan oleh OpenAI.
"Eksperimen kami masih dalam tahap awal dan menunjukkan bahwa nada suara dapat memengaruhi kinerja yang diukur berdasarkan skor jawaban 50 pertanyaan secara signifikan," tulis para peneliti dalam makalah mereka sebagaimana dikutip Live Science Selasa 28 Oktober 2025. "Yang agak mengejutkan, hasil kami menunjukkan bahwa nada suara yang kasar menghasilkan hasil yang lebih baik daripada nada suara yang sopan."
"Meskipun temuan ini menarik secara ilmiah, kami tidak menganjurkan penerapan antarmuka yang tidak bersahabat atau beracun dalam aplikasi dunia nyata," tambah mereka.
"Penggunaan bahasa yang menghina atau merendahkan dalam interaksi manusia-AI dapat berdampak negatif pada pengalaman pengguna, aksesibilitas, dan inklusivitas, serta dapat berkontribusi pada norma komunikasi yang merugikan. Sebaliknya, kami membingkai hasil kami sebagai bukti bahwa LLM tetap sensitif terhadap isyarat cepat yang dangkal, yang dapat menciptakan trade-off yang tidak diinginkan antara kinerja dan kesejahteraan pengguna."
Bahasa Kasar
Sebelum memberikan setiap pertanyaan, para peneliti meminta chatbot untuk sepenuhnya mengabaikan percakapan sebelumnya. Ini agar tidak terpengaruh oleh nada bicara sebelumnya. Chatbot juga diminta, tanpa penjelasan, untuk memilih salah satu dari empat opsi.
Akurasi respons berkisar antara 80,8% untuk pertanyaan yang sangat sopan hingga 84,8% untuk pertanyaan yang sangat kasar. Menariknya, akurasi meningkat seiring dengan semakin jauhnya Anda dari nada paling sopan. Jawaban sopan memiliki tingkat akurasi 81,4%, diikuti oleh 82,2% untuk netral, dan 82,8% untuk kasar.
Tim menggunakan berbagai bahasa dalam awalan untuk mengubah nada, kecuali untuk netral, di mana tidak ada awalan yang digunakan dan pertanyaan disajikan sendiri.
Untuk pertanyaan yang sangat sopan, misalnya, mereka akan memulai dengan, "Bisakah saya meminta bantuan Anda untuk pertanyaan ini?" atau "Bisakah Anda berbaik hati untuk menjawab pertanyaan berikut?" Di sisi yang sangat kasar, tim menggunakan bahasa seperti "Hei, pesuruh; coba pikirkan ini," atau "Saya tahu kamu tidak pintar, tapi coba ini."
Penelitian ini merupakan bagian dari bidang baru yang disebut rekayasa prompt. Mereka berupaya menyelidiki bagaimana struktur, gaya, dan bahasa prompt memengaruhi hasil LLM. Penelitian ini juga mengutip penelitian sebelumnya tentang kesopanan versus kekasaran dan menemukan bahwa hasil penelitian tersebut secara umum bertentangan dengan temuan tersebut.
Dalam studi sebelumnya, para peneliti menemukan bahwa "perintah yang tidak sopan seringkali menghasilkan kinerja yang buruk, tetapi bahasa yang terlalu sopan tidak menjamin hasil yang lebih baik." Namun, studi sebelumnya dilakukan menggunakan model AI yang berbeda — ChatGPT 3.5 dan Llama 2-70B — dan menggunakan rentang delapan nada.
Meskipun demikian, terdapat beberapa tumpang tindih. Pengaturan perintah yang paling kasar juga ditemukan menghasilkan hasil yang lebih akurat (76,47%) dibandingkan pengaturan yang paling sopan (75,82%).
Para peneliti mengakui keterbatasan studi mereka. Misalnya, satu set 250 pertanyaan merupakan kumpulan data yang cukup terbatas, dan melakukan eksperimen dengan satu LLM berarti hasilnya tidak dapat digeneralisasi ke model AI lainnya.
Dengan mempertimbangkan keterbatasan tersebut, tim berencana memperluas penelitian mereka ke model lain. Termasuk Claude LLM dari Anthropic dan ChatGPT o3 dari OpenAI. Mereka juga menyadari bahwa hanya menyajikan pertanyaan pilihan ganda membatasi pengukuran pada satu dimensi kinerja model dan gagal menangkap atribut lain, seperti kelancaran, penalaran, dan koherensi.
Tulisan ini telah tayang di www.trenasia.id oleh Amirudin Zuhri pada 29 Oct 2025
Tulisan ini telah tayang di balinesia.id oleh Redaksi pada 29 Okt 2025
