Peneliti di perusahaan AI Antropik Katakanlah mereka telah membuat terobosan mendasar dalam pemahaman kita tentang seberapa besar model bahasa yang besar, jenis AI yang bertanggung jawab atas ledakan saat ini, bekerja. Terobosan memiliki implikasi penting untuk bagaimana kita dapat membuat model AI lebih aman, lebih aman, dan lebih dapat diandalkan di masa depan.
Salah satu masalah dengan AI kuat saat ini yang didasarkan pada model bahasa besar (LLM) adalah bahwa modelnya adalah kotak hitam. Kita dapat mengetahui permintaan apa yang kita beri makan dan output apa yang mereka hasilkan, tetapi tepatnya bagaimana mereka sampai pada respons tertentu adalah sebuah misteri, bahkan bagi para peneliti AI yang membangunnya.
Kerusakan ini menciptakan semua jenis masalah. Sulit untuk memprediksi kapan model cenderung “berhalusinasi,” atau dengan percaya diri memuntahkan informasi yang salah. Kita tahu model AI besar ini rentan terhadap berbagai jailbreak di mana mereka dapat ditipu untuk melompat pagar (batas -batas yang coba dikembangkan oleh pengembang AI untuk meletakkan output model sehingga tidak menggunakan bahasa rasis atau menulis malware untuk seseorang atau memberi tahu mereka cara membangun bom). Tetapi kami tidak mengerti mengapa beberapa jailbreak bekerja lebih baik daripada yang lain, atau mengapa penyesuaian yang digunakan untuk membuat pagar tidak menghasilkan hambatan yang cukup kuat untuk mencegah model melakukan hal-hal yang tidak diinginkan pengembang mereka.
Ketidakmampuan kami untuk memahami cara kerja LLMS telah membuat beberapa bisnis ragu -ragu untuk menggunakannya. Jika pekerjaan batin model lebih mudah dimengerti, itu mungkin memberi perusahaan lebih percaya diri untuk menggunakan model secara lebih luas.
Ada implikasi untuk kemampuan kita untuk mempertahankan kendali “agen” AI yang semakin kuat juga. Kita tahu agen -agen ini mampu “peretasan hadiah” – mencari cara untuk mencapai tujuan yang bukan apa yang dimaksudkan oleh pengguna model. Dalam beberapa kasus model dapat menipu, berbohong kepada pengguna tentang apa yang telah mereka lakukan atau coba lakukan. Dan sementara model AI “penalaran” baru-baru ini menghasilkan apa yang dikenal sebagai “rantai pemikiran”-jenis rencana untuk bagaimana menjawab prompt yang melibatkan apa yang tampak seperti manusia seperti “refleksi diri” —kami tidak tahu apakah rantai pemikiran output model secara akurat mewakili langkah-langkah yang diambilnya (dan sering ada bukti yang mungkin tidak.)
Penelitian baru Anthropic menawarkan jalur untuk menyelesaikan setidaknya beberapa masalah ini. Para ilmuwannya dibuat Alat baru untuk menguraikan bagaimana “Think.” LLM. Intinya, apa yang dibangun oleh para peneliti antropik sedikit seperti fMRI memindai ahli saraf untuk memindai otak subjek penelitian manusia dan mengungkap daerah otak mana yang tampaknya memainkan peran terbesar dalam berbagai aspek kognisi. Setelah menemukan alat seperti fMRI ini, Anthropic kemudian menerapkannya pada model Haiku Claude 3.5 Anthropic. Melakukannya, mereka dapat menyelesaikan beberapa pertanyaan kunci tentang bagaimana Claude, dan mungkin sebagian besar LLM lainnya, bekerja.
Para peneliti menemukan bahwa meskipun LLMS seperti Claude awalnya dilatih untuk hanya memprediksi kata berikutnya dalam sebuah kalimat, dalam proses Claude belajar melakukan perencanaan jarak yang lebih lama, setidaknya ketika datang ke jenis tugas tertentu. Misalnya, ketika diminta untuk menulis puisi, Claude menemukan kata -kata yang masuk akal dengan topik atau tema puisi yang ingin berima dan kemudian bekerja ke belakang untuk membangun kalimat yang akan berakhir dengan kata -kata berima itu.
Mereka juga menemukan bahwa Claude, yang dilatih untuk multibahasa, tidak memiliki komponen yang sepenuhnya terpisah untuk penalaran dalam setiap bahasa. Sebaliknya, konsep yang umum di seluruh bahasa tertanam dalam set neuron yang sama dalam model dan model tampaknya “beralasan” dalam ruang konseptual ini dan baru kemudian mengubah output ke bahasa yang sesuai.
Para peneliti juga menemukan bahwa Claude mampu berbohong tentang rantai pemikirannya untuk menyenangkan pengguna. Para peneliti menunjukkan ini dengan menanyakan model matematika yang sulit, tetapi kemudian memberikan model yang salah tentang cara menyelesaikannya.
Dalam kasus lain, ketika ditanya pertanyaan yang lebih mudah bahwa model dapat menjawab lebih atau kurang secara instan, tanpa harus bernalar, model tersebut membentuk proses penalaran fiktif. “Meskipun ia mengklaim telah menjalankan perhitungan, teknik interpretabilitas kami tidak mengungkapkan bukti sama sekali terjadi,” Josh Batson, seorang peneliti antropik yang mengerjakan proyek tersebut.
Kemampuan untuk melacak penalaran internal LLMS membuka kemungkinan baru untuk mengaudit sistem AI untuk masalah keamanan dan keselamatan. Ini juga dapat membantu para peneliti mengembangkan metode pelatihan baru untuk meningkatkan pagar yang dimiliki sistem AI dan untuk mengurangi halusinasi dan output yang salah lainnya.
Beberapa ahli AI menolak “masalah kotak hitam” LLM dengan mengatakan bahwa pikiran manusia juga sering tidak dapat dipahami oleh manusia lain, namun kita bergantung pada manusia sepanjang hari. Kita tidak dapat benar-benar memberi tahu apa yang dipikirkan orang lain-dan pada kenyataannya, para psikolog menunjukkan bahwa kadang-kadang kita bahkan tidak mengerti bagaimana pemikiran kita sendiri bekerja, membuat penjelasan logis setelah fakta untuk membenarkan tindakan yang kita buat baik secara intuitif atau sebagian besar karena respons emosional yang bahkan mungkin tidak kita sadari. Kita sering salah berasumsi bahwa orang lain berpikir kurang lebih seperti yang kita lakukan – yang dapat menyebabkan semua jenis kesalahpahaman. Tetapi tampaknya juga benar bahwa, secara luas, manusia cenderung berpikir dengan cara yang agak mirip, dan bahwa ketika kita membuat kesalahan, kesalahan ini jatuh ke dalam pola yang agak akrab. ;
Batson mengatakan bahwa berkat jenis teknik yang ia dan ilmuwan lain kembangkan untuk menyelidiki otak LLM alien ini – bidang yang dikenal sebagai “interpretabilitas mekanistik” —mrapid progress sedang dibuat. “Saya pikir dalam satu atau dua tahun lagi, kita akan tahu lebih banyak tentang bagaimana model ini berpikir daripada yang kita lakukan tentang bagaimana orang berpikir,” katanya. “Karena kita bisa melakukan semua percobaan yang kita inginkan.”
Teknik sebelumnya untuk mencoba menyelidiki cara kerja LLM Berfokus pada mencoba menguraikan neuron individu atau kelompok kecil neuron dalam jaringan saraf, atau menanyakan lapisan jaringan saraf yang duduk di bawah lapisan output akhir untuk mencurahkan output, mengungkapkan sesuatu tentang bagaimana model memproses informasi. Metode lain termasuk “ablasi” – pada dasarnya menghilangkan potongan jaringan saraf – dan kemudian membandingkan bagaimana model kinerja dengan bagaimana kinerjanya.
Apa yang telah dilakukan antropik dalam penelitian barunya sebenarnya adalah untuk melatih model yang sama sekali berbeda, yang disebut cross-layer transcoder (CLT), yang berfungsi menggunakan set fitur yang dapat ditafsirkan daripada bobot neuron individu. Contoh fitur tersebut mungkin semua konjugasi dari kata kerja tertentu, atau istilah apa pun yang menyarankan “lebih dari.” Ini memungkinkan para peneliti lebih memahami cara kerja model dengan memungkinkan mereka mengidentifikasi seluruh “sirkuit” neuron yang cenderung dihubungkan bersama.
“Metode kami menguraikan model, jadi kami mendapatkan bagian yang baru, yang tidak seperti neuron asli, tetapi ada bagian, yang berarti kami benar -benar dapat melihat bagaimana bagian yang berbeda memainkan peran yang berbeda,” kata Batson. “Ini juga memiliki keuntungan dari memungkinkan para peneliti untuk melacak seluruh proses penalaran melalui lapisan jaringan.”
Namun, Anthropic mengatakan metode itu memang memiliki beberapa kelemahan. Ini hanya perkiraan dari apa yang sebenarnya terjadi di dalam model kompleks seperti Claude. Mungkin ada neuron yang ada di luar sirkuit metode CLT mengidentifikasi yang memainkan beberapa peran halus tetapi penting dalam formulasi beberapa output model. Teknik CLT juga tidak menangkap bagian penting dari cara kerja LLMS – yang merupakan sesuatu yang disebut perhatian, di mana model belajar untuk menempatkan tingkat kepentingan yang berbeda pada bagian yang berbeda dari prompt input sambil merumuskan outputnya. Perhatian ini bergeser secara dinamis saat model merumuskan outputnya. CLT tidak dapat menangkap perubahan ini dalam perhatian, yang mungkin memainkan peran penting dalam “pemikiran” LLM.
Antropik juga mengatakan bahwa membedakan sirkuit jaringan, bahkan untuk petunjuk yang hanya panjang “puluhan kata”, membutuhkan seorang ahli manusia beberapa jam. Dikatakan tidak jelas bagaimana teknik itu dapat ditingkatkan untuk mengatasi petunjuk yang lebih lama.
Koreksi, 27 Maret: Versi sebelumnya dari cerita ini salah mengeja nama belakang peneliti Josh Batson.
Kisah ini awalnya ditampilkan Fortune.com
ADVERTISEMENT:
Hai, para pencinta slot! Pernah denger istilah “slot demo”? Kalau tidak, bersiaplah jatuh hati sama program ini. slot demo merupakan mesin slots yang selalu kasih win. Yup, mesin-mesin ini bisa disebut adalah jagoannya tuk bawa pulang cuan. but, gimana sih
tekniknya jumpain slot demo yang benar? Santai Bro, kita bahas santai aja di tempat ini
Permainan tergacor waktu sekarang satu-satunya berada Indonesia yaitu pasti menyediakan return tertinggi
SEGERA hanya di :
Informasi mengenai KING SLOT, Segera Daftar Bersama king selot terbaik dan terpercaya no satu di Indonesia. Boleh mendaftar melalui sini king slot serta memberikan hasil kembali yang paling tinggi saat sekarang ini hanyalah KING SLOT atau Raja slot paling gacor, gilak dan gaco saat sekarang di Indonesia melalui program return tinggi di kingselot serta pg king slot
slot demo gacor
slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun demo slot gacor
akun demo slot gacor permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun slot demo gacor
akun slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun demo slot pragmatic
akun demo slot pragmatic permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun slot demo pragmatic
akun slot demo pragmatic permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun slot demo
akun slot demo permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
akun demo slot
akun demo slot permainan paling top dan garansi imbal balik hasil besar bersama kdwapp.com
slot demo gacor
slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun demo slot gacor
akun demo slot gacor permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun slot demo gacor
akun slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun demo slot pragmatic
akun demo slot pragmatic permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun slot demo pragmatic
akun slot demo pragmatic permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun slot demo
akun slot demo permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
akun demo slot
akun demo slot permainan paling top dan garansi imbal balik hasil besar bersama jebswagstore.com
slot demo gacor
slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun demo slot gacor
akun demo slot gacor permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun slot demo gacor
akun slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun demo slot pragmatic
akun demo slot pragmatic permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun slot demo pragmatic
akun slot demo pragmatic permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun slot demo
akun slot demo permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
akun demo slot
akun demo slot permainan paling top dan garansi imbal balik hasil besar bersama demoslotgacor.pro
slot demo gacor
slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun demo slot gacor
akun demo slot gacor permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun slot demo gacor
akun slot demo gacor permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun demo slot pragmatic
akun demo slot pragmatic permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun slot demo pragmatic
akun slot demo pragmatic permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun slot demo
akun slot demo permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
akun demo slot
akun demo slot permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
situs slot terbaru
situs slot terbaru permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
slot terbaru
slot terbaru permainan paling top dan garansi imbal balik hasil besar bersama situsslotterbaru.net
soda96 permainan paling top dan garansi imbal balik hasil besar bersama soda96.com
sparta88 permainan paling top dan garansi imbal balik hasil besar bersama sparta88.biz
sugesbola88 permainan paling top dan garansi imbal balik hasil besar bersama sugesbola88.org
tektok7777 permainan paling top dan garansi imbal balik hasil besar bersama tektok7777.com
tektok88 permainan paling top dan garansi imbal balik hasil besar bersama tektok88.biz
toinktoto88 permainan paling top dan garansi imbal balik hasil besar bersama toinktoto88.com
tokek888slot permainan paling top dan garansi imbal balik hasil besar bersama tokek888slot.com
topslot888 permainan paling top dan garansi imbal balik hasil besar bersama topslot888.biz
tuanslot888 permainan paling top dan garansi imbal balik hasil besar bersama tuanslot888.club
uang88 permainan paling top dan garansi imbal balik hasil besar bersama uang88.biz
uang8888 permainan paling top dan garansi imbal balik hasil besar bersama uang8888.com
userslot88 permainan paling top dan garansi imbal balik hasil besar bersama userslot88.info
uus88 permainan paling top dan garansi imbal balik hasil besar bersama uus88.biz
waslot88 permainan paling top dan garansi imbal balik hasil besar bersama waslot88.asia
wayantogel88 permainan paling top dan garansi imbal balik hasil besar bersama wayantogel88.com
zona666 permainan paling top dan garansi imbal balik hasil besar bersama zona666.biz
zona88 permainan paling top dan garansi imbal balik hasil besar bersama zona88.biz
slot96 permainan paling top dan garansi imbal balik hasil besar bersama slot96.biz
arjuna69 permainan paling top dan garansi imbal balik hasil besar bersama arjuna69.com
hqtoto88 permainan paling top dan garansi imbal balik hasil besar bersama hqtoto88.com
bangshun88 permainan paling top dan garansi imbal balik hasil besar bersama bangshun88.com
btc999 permainan paling top dan garansi imbal balik hasil besar bersama btc999.org
supraslot888 permainan paling top dan garansi imbal balik hasil besar bersama supraslot888.net
sortoto88 permainan paling top dan garansi imbal balik hasil besar bersama sortoto88.net
logamtoto88 permainan paling top dan garansi imbal balik hasil besar bersama logamtoto88.net
goslot777 permainan paling top dan garansi imbal balik hasil besar bersama goslot777.info
gebyar88 permainan paling top dan garansi imbal balik hasil besar bersama gebyar88.biz
botak88 permainan paling top dan garansi imbal balik hasil besar bersama botak88.biz
ibis88 permainan paling top dan garansi imbal balik hasil besar bersama ibis88.asia
autobot777slot permainan paling top dan garansi imbal balik hasil besar bersama autobot777slot.com
jwmarriott88 permainan paling top dan garansi imbal balik hasil besar bersama jwmarriott88.com
reddoorz88 permainan paling top dan garansi imbal balik hasil besar bersama reddoorz88.com
hotelharris88 permainan paling top dan garansi imbal balik hasil besar bersama hotelharris88.com
novotel88 permainan paling top dan garansi imbal balik hasil besar bersama novotel88.com
orientalplay88 permainan paling top dan garansi imbal balik hasil besar bersama orientalplay88.com
oyo88 permainan paling top dan garansi imbal balik hasil besar bersama oyo88.live
agoda88 permainan paling top dan garansi imbal balik hasil besar bersama agoda88.asia
tiket88 permainan paling top dan garansi imbal balik hasil besar bersama tiket88.asia
santika88 permainan paling top dan garansi imbal balik hasil besar bersama santika88.org
grandaston88 permainan paling top dan garansi imbal balik hasil besar bersama grandaston88.com
booking88 permainan paling top dan garansi imbal balik hasil besar bersama booking88.org
grandmercure88 permainan paling top dan garansi imbal balik hasil besar bersama grandmercure88.com
tripadvisor88 permainan paling top dan garansi imbal balik hasil besar bersama tripadvisor88.com
hotelmulia88 permainan paling top dan garansi imbal balik hasil besar bersama hotelmulia88.com
aryaduta88 permainan paling top dan garansi imbal balik hasil besar bersama aryaduta88.com
shangrila88 permainan paling top dan garansi imbal balik hasil besar bersama shangrila88.com
holidayinn88 permainan paling top dan garansi imbal balik hasil besar bersama holidayinn88.com
antam88 permainan paling top dan garansi imbal balik hasil besar bersama antam88.info