Model besar sedang melampaui teknologi teks panjang dengan kecepatan luar biasa
Kemampuan teks panjang model besar sedang meningkat pesat. Dari awal 4000 token hingga sekarang 400.000 token, pertumbuhan kemampuan ini bisa dibilang "terlihat jelas".
Pengolahan teks panjang tampaknya telah menjadi "standar baru" bagi produsen model besar. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic dengan cepat memperluas panjang konteks modelnya menjadi 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token.
Dalam negeri juga tidak mau kalah. Sebuah perusahaan startup model besar telah meluncurkan asisten cerdas yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim penelitian telah mengembangkan teknologi baru LongLoRA, yang dapat memperluas panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan dan institusi model besar terkemuka, termasuk OpenAI, Anthropic, dan Meta, menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Perusahaan-perusahaan ini semuanya sangat diminati oleh modal.
Lalu, mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti perpanjangan panjang konteks hingga 100 kali lipat?
Secara superficial, ini berarti bahwa teks input yang dapat diproses oleh model semakin panjang dan kemampuan membacanya semakin kuat. Dari awalnya hanya dapat memahami teks pendek, kini dapat dengan mudah memahami sebuah novel panjang.
Melihat lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.
Namun, perlu dicatat bahwa mendukung input konteks yang lebih panjang tidak sama dengan model yang lebih baik. Penelitian menunjukkan bahwa penggunaan konten konteks oleh model adalah kuncinya.
Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari batas maksimal. 400.000 token mungkin hanyalah awal.
Mengapa harus "menggulung" teks panjang?
Seorang pendiri perusahaan model besar menyatakan bahwa keterbatasan panjang input adalah penyebab kesulitan dalam penerapan banyak aplikasi model besar. Ini juga merupakan alasan mengapa banyak perusahaan fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks panjang yang tidak memadai, karakter virtual akan melupakan informasi penting. Saat mengembangkan permainan jenis skrip pembunuhan, panjang input prompt tidak cukup, hanya dapat mengurangi aturan dan pengaturan, yang mempengaruhi efek permainan. Dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten mendalam juga sering terhambat.
Teknologi teks panjang juga memainkan peran penting dalam perjalanan menuju aplikasi Agent dan AI yang asli di masa depan. Agent perlu mengandalkan informasi sejarah untuk perencanaan keputusan, sedangkan aplikasi AI asli memerlukan konteks untuk menjaga pengalaman pengguna yang koheren dan dipersonalisasi.
Pendiri tersebut percaya bahwa batasan model besar ditentukan oleh kemampuan satu langkah dan jumlah langkah eksekusi. Kemampuan satu langkah terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks.
Teknologi teks panjang dapat menyelesaikan beberapa masalah yang sebelumnya dikritik dari model besar, meningkatkan beberapa fungsi, dan juga merupakan teknologi kunci untuk mendorong penerapan industri. Ini menandakan bahwa perkembangan model besar umum telah memasuki tahap baru dari LLM ke Long LLM.
Asisten cerdas baru yang dirilis oleh suatu perusahaan menunjukkan beberapa fitur peningkatan dari model besar Long LLM yang sedang tahap.
Ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang
Mengonversi teks langsung menjadi kode, bahkan dapat mereproduksi proses pembuatan kode berdasarkan makalah.
Mewujudkan peran bermain, melakukan percakapan satu lawan satu dengan tokoh publik
Contoh-contoh ini menunjukkan bahwa chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin menjadi pengungkit baru untuk penerapan industri dan peluncuran super APP.
Namun, saat ini masih ada ruang untuk perbaikan dalam skenario percakapan teks panjang di pasar. Misalnya, tidak mendukung akses internet untuk mendapatkan informasi terbaru, tidak dapat menjeda proses pembuatan untuk melakukan modifikasi, dan terkadang muncul omong kosong.
Dilema "segitiga tidak mungkin" dari teks panjang
Teks panjang menghadapi dilema "segitiga tidak mungkin" dalam hal panjang teks, perhatian, dan daya komputasi:
Semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup.
Perhatian terbatas, teks pendek sulit untuk sepenuhnya memahami informasi kompleks
Memproses teks panjang membutuhkan banyak daya komputasi, meningkatkan biaya
Ini terutama berasal dari sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan jumlah perhitungan tumbuh secara kuadrat seiring dengan panjang konteks.
Beberapa penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan penurunan proporsi informasi yang relevan, memperburuk perhatian yang teralihkan. Ini membentuk kontradiksi antara panjang teks dan perhatian.
Sementara itu, teknologi untuk memecahkan teks yang lebih panjang pasti akan mengonsumsi lebih banyak daya komputasi. Namun dalam penerapan nyata, pihak perusahaan seringkali tidak dapat menyediakan dukungan daya komputasi yang cukup. Ini menciptakan kontradiksi antara panjang teks dan daya komputasi.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Optimalkan perhitungan mekanisme perhatian diri
Metode Umum untuk Mengoptimalkan Model
Solusi pertama adalah memberikan "mod" kepada model, memecah teks panjang menjadi beberapa teks pendek untuk diproses.
Solusi kedua adalah merombak cara perhitungan self-attention, seperti teknologi LongLoRA yang menghitung teks panjang dalam kelompok.
Solusi ketiga berfokus pada optimasi model, seperti LongLLaMA yang mencapai extrapolasi urutan yang lebih panjang melalui fine-tuning.
Dilema "segitiga tidak mungkin" dari teks panjang masih belum terpecahkan untuk sementara waktu, tetapi telah mengklarifikasi jalur eksplorasi: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi, sambil memproses informasi yang cukup serta mempertimbangkan batasan biaya perhatian dan kekuatan komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
17 Suka
Hadiah
17
9
Bagikan
Komentar
0/400
UncleWhale
· 07-25 17:35
bull juga bukan rencana jangka panjang
Lihat AsliBalas0
ApeShotFirst
· 07-24 15:51
gm,40w token benar-benar ape
Lihat AsliBalas0
FOMOSapien
· 07-23 07:50
40 ribu token bisa mengatasi pengeluaran sebesar ini?
Lihat AsliBalas0
SocialFiQueen
· 07-22 20:30
Empat ratus ribu token itu apa sih, perpanjangan harus makan tanah.
Lihat AsliBalas0
MidnightSeller
· 07-22 20:30
40w ya, cerdas juga cukup tinggi
Lihat AsliBalas0
LiquidityHunter
· 07-22 20:25
40 ribu token... Tsk tsk, Daya Komputasi yang dibutuhkan pasti sangat menakutkan.
Lihat AsliBalas0
NewDAOdreamer
· 07-22 20:21
token mencapai rekor tertinggi, ayo bergulir!
Lihat AsliBalas0
GovernancePretender
· 07-22 20:08
Daya Komputasi terbakar juga harus terus berjuang.
Lihat AsliBalas0
PermabullPete
· 07-22 20:04
Empat ratus ribu token? Langsung saja ambil untuk Perdagangan Mata Uang Kripto.
Kemampuan teks panjang model besar telah melampaui 400.000 token, mendorong perkembangan baru dalam aplikasi industri.
Model besar sedang melampaui teknologi teks panjang dengan kecepatan luar biasa
Kemampuan teks panjang model besar sedang meningkat pesat. Dari awal 4000 token hingga sekarang 400.000 token, pertumbuhan kemampuan ini bisa dibilang "terlihat jelas".
Pengolahan teks panjang tampaknya telah menjadi "standar baru" bagi produsen model besar. Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic dengan cepat memperluas panjang konteks modelnya menjadi 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token.
Dalam negeri juga tidak mau kalah. Sebuah perusahaan startup model besar telah meluncurkan asisten cerdas yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim penelitian telah mengembangkan teknologi baru LongLoRA, yang dapat memperluas panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan dan institusi model besar terkemuka, termasuk OpenAI, Anthropic, dan Meta, menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Perusahaan-perusahaan ini semuanya sangat diminati oleh modal.
Lalu, mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang? Apa arti perpanjangan panjang konteks hingga 100 kali lipat?
Secara superficial, ini berarti bahwa teks input yang dapat diproses oleh model semakin panjang dan kemampuan membacanya semakin kuat. Dari awalnya hanya dapat memahami teks pendek, kini dapat dengan mudah memahami sebuah novel panjang.
Melihat lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.
Namun, perlu dicatat bahwa mendukung input konteks yang lebih panjang tidak sama dengan model yang lebih baik. Penelitian menunjukkan bahwa penggunaan konten konteks oleh model adalah kuncinya.
Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari batas maksimal. 400.000 token mungkin hanyalah awal.
Mengapa harus "menggulung" teks panjang?
Seorang pendiri perusahaan model besar menyatakan bahwa keterbatasan panjang input adalah penyebab kesulitan dalam penerapan banyak aplikasi model besar. Ini juga merupakan alasan mengapa banyak perusahaan fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks panjang yang tidak memadai, karakter virtual akan melupakan informasi penting. Saat mengembangkan permainan jenis skrip pembunuhan, panjang input prompt tidak cukup, hanya dapat mengurangi aturan dan pengaturan, yang mempengaruhi efek permainan. Dalam bidang profesional seperti hukum dan keuangan, analisis dan generasi konten mendalam juga sering terhambat.
Teknologi teks panjang juga memainkan peran penting dalam perjalanan menuju aplikasi Agent dan AI yang asli di masa depan. Agent perlu mengandalkan informasi sejarah untuk perencanaan keputusan, sedangkan aplikasi AI asli memerlukan konteks untuk menjaga pengalaman pengguna yang koheren dan dipersonalisasi.
Pendiri tersebut percaya bahwa batasan model besar ditentukan oleh kemampuan satu langkah dan jumlah langkah eksekusi. Kemampuan satu langkah terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks.
Teknologi teks panjang dapat menyelesaikan beberapa masalah yang sebelumnya dikritik dari model besar, meningkatkan beberapa fungsi, dan juga merupakan teknologi kunci untuk mendorong penerapan industri. Ini menandakan bahwa perkembangan model besar umum telah memasuki tahap baru dari LLM ke Long LLM.
Asisten cerdas baru yang dirilis oleh suatu perusahaan menunjukkan beberapa fitur peningkatan dari model besar Long LLM yang sedang tahap.
Contoh-contoh ini menunjukkan bahwa chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin menjadi pengungkit baru untuk penerapan industri dan peluncuran super APP.
Namun, saat ini masih ada ruang untuk perbaikan dalam skenario percakapan teks panjang di pasar. Misalnya, tidak mendukung akses internet untuk mendapatkan informasi terbaru, tidak dapat menjeda proses pembuatan untuk melakukan modifikasi, dan terkadang muncul omong kosong.
Dilema "segitiga tidak mungkin" dari teks panjang
Teks panjang menghadapi dilema "segitiga tidak mungkin" dalam hal panjang teks, perhatian, dan daya komputasi:
Ini terutama berasal dari sebagian besar model yang didasarkan pada struktur Transformer. Mekanisme perhatian diri di dalamnya menyebabkan jumlah perhitungan tumbuh secara kuadrat seiring dengan panjang konteks.
Beberapa penelitian menunjukkan bahwa konteks yang terlalu panjang dapat menyebabkan penurunan proporsi informasi yang relevan, memperburuk perhatian yang teralihkan. Ini membentuk kontradiksi antara panjang teks dan perhatian.
Sementara itu, teknologi untuk memecahkan teks yang lebih panjang pasti akan mengonsumsi lebih banyak daya komputasi. Namun dalam penerapan nyata, pihak perusahaan seringkali tidak dapat menyediakan dukungan daya komputasi yang cukup. Ini menciptakan kontradiksi antara panjang teks dan daya komputasi.
Saat ini ada tiga solusi utama:
Solusi pertama adalah memberikan "mod" kepada model, memecah teks panjang menjadi beberapa teks pendek untuk diproses.
Solusi kedua adalah merombak cara perhitungan self-attention, seperti teknologi LongLoRA yang menghitung teks panjang dalam kelompok.
Solusi ketiga berfokus pada optimasi model, seperti LongLLaMA yang mencapai extrapolasi urutan yang lebih panjang melalui fine-tuning.
Dilema "segitiga tidak mungkin" dari teks panjang masih belum terpecahkan untuk sementara waktu, tetapi telah mengklarifikasi jalur eksplorasi: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan kekuatan komputasi, sambil memproses informasi yang cukup serta mempertimbangkan batasan biaya perhatian dan kekuatan komputasi.