Abstrak dan 1. Pendahuluan
Latar Belakang
Metode
Eksperimen
4.1 Kinerja Penalaran Multi-hop
4.2 Penalaran dengan Pengalih Perhatian
4.3 Generalisasi ke Pengetahuan Dunia Nyata
4.4 Analisis Waktu Eksekusi
4.5 Menghafal Pengetahuan
Karya Terkait
Kesimpulan, Ucapan Terima Kasih, dan Referensi
\ A. Dataset
B. Penalaran Dalam-Konteks dengan Pengalih Perhatian
C. Detail Implementasi
D. Tingkat Pembelajaran Adaptif
E. Eksperimen dengan Model Bahasa Besar
Dalam kasus di mana beberapa pertanyaan harus dijawab tentang kumpulan pengetahuan yang sama, beberapa pengetahuan yang relevan untuk satu pertanyaan kemungkinan tidak relevan untuk pertanyaan lain. Misalnya, dalam Tabel 7, fakta "Charlie berwarna Putih." tidak diperlukan untuk menjawab pertanyaan "Apakah Harry berwarna merah?". Oleh karena itu, penting untuk mengevaluasi ketahanan RECKONING ketika terdapat informasi yang tidak relevan (yaitu, pengalih perhatian) dalam kumpulan pengetahuan. Dalam eksperimen ini, kami menganalisis kemampuan RECKONING untuk fokus pada pengetahuan yang benar dan mengabaikan pengalih perhatian saat menjawab pertanyaan. Kami menggunakan ProofWriter sebagai dataset evaluasi karena sudah memiliki pengaturan dengan pengalih perhatian yang disertakan dalam pengetahuan. Untuk analisis sistematis, kami secara bertahap menambahkan pengalih perhatian ke konteks (dimulai dari 2 dan diakhiri dengan semua pengalih perhatian yang mungkin, yang rata-rata berjumlah 7 per pertanyaan). Kami melatih RECKONING dan baseline menggunakan tujuan multi-tugas, di mana model harus (1) mengingat semua fakta dan aturan yang relevan dengan pertanyaan dan (2) memprediksi kesimpulan berdasarkan pengetahuan yang benar. Dalam hal ini, kami menyesuaikan pelatihan sedemikian rupa sehingga untuk setiap pertanyaan x, kerugian CLM loop-luar (Persamaan (5)) hanya dihitung sehubungan dengan fakta-fakta yang relevan dari K, sehingga belajar untuk hanya mengingat fakta-fakta yang relevan selama pelatihan.
\ Dalam Gambar 5, kita melihat bahwa kinerja RECKONING secara konsisten lebih tangguh terhadap pengalih perhatian dibandingkan dengan baseline FT-ICR. Ketika kami menyertakan semua pengalih perhatian dalam konteks, RECKONING mencapai akurasi label rata-rata yang jauh lebih tinggi (82,5%) di seluruh hop dibandingkan dengan baseline (70,9%), sebagaimana dihitung oleh rata-rata dari 3 kedalaman hop yang dipertimbangkan. Selain itu, dibandingkan dengan kinerja tanpa pengalih perhatian, kinerja RECKONING hanya turun 17,1% sementara kinerja baseline turun 28,6%, sehingga menunjukkan kemampuan yang lebih baik untuk memisahkan pengetahuan yang benar dari pengalih perhatian.
\ Akhirnya, kami juga mengeksplorasi generalisasi RECKONING ke model dengan ukuran parameter yang lebih besar. Kami meningkatkan model bahasa yang kami gunakan, GPT-2-small (124M), menjadi GPT-2-XL (1,5B) dengan mengadopsi metode fine-tuning parameter yang efisien LoRA [33]. Untuk kesederhanaan, kami hanya mengevaluasi model pada pengaturan yang paling sulit, yaitu ProofWriter-5-hop dengan semua pengalih perhatian. Dengan GPT-2-XL-LoRA, penalaran dalam konteks mencapai akurasi 65% pada set pengujian, sementara model RECKONING kami mencapai akurasi 70,2%, peningkatan kinerja sebesar 5%. Hasil ini menunjukkan bahwa keunggulan RECKONING dalam kehadiran pengalih perhatian tetap bertahan bahkan ketika model meningkat dalam ukuran.
\
:::info Penulis:
(1) Zeming Chen, EPFL ([email protected]);
(2) Gail Weiss, EPFL ([email protected]);
(3) Eric Mitchell, Stanford University ([email protected])';
(4) Asli Celikyilmaz, Meta AI Research ([email protected]);
(5) Antoine Bosselut, EPFL ([email protected]).
:::
:::info Makalah ini tersedia di arxiv di bawah lisensi CC BY 4.0 DEED.
:::
\


