Büyük model uzun metin kapasitesi 400.000 token'i aştı, sektörel uygulamalarda yeni bir gelişim sağladı.

robot
Abstract generation in progress

Büyük modeller, uzun metin teknolojisini şaşırtıcı bir hızla aşıyor.

Büyük modellerin uzun metin yetenekleri hızla artıyor. İlk başta 4000 token'dan şimdi 400.000 token'a kadar bu yetenekteki artış "gözle görülür" bir şekilde.

Uzun metin işleme, büyük model üreticileri için yeni bir "standart" haline geldi gibi görünüyor. Yurt dışında, OpenAI, GPT-4'ün bağlam uzunluğunu 32.000 token'a çıkarmak için birçok güncelleme gerçekleştirdi. Anthropic ise modelinin bağlam uzunluğunu 100.000 token'a çıkardı. LongLLaMA bu rakamı 256.000 token'a kadar yükseltti.

Ülke içi de geri kalmak istemiyor. Bir büyük model girişim şirketi tarafından sunulan akıllı asistan, 200.000 Çince karakter girişi destekleyebilir, bu da yaklaşık 400.000 token'a denk geliyor. Ayrıca bir araştırma ekibi tarafından geliştirilen yeni teknoloji LongLoRA, 7B modelinin metin uzunluğunu 100.000 token'a kadar uzatabiliyor.

Şu anda, OpenAI, Anthropic, Meta gibi birçok önde gelen büyük model şirketi ve kurumu, bağlam uzunluğunu genişletmeyi önemli bir yükseltme yönü olarak görüyor. Bu şirketler, hiç istisnası olmadan, sermaye tarafından büyük ilgi görüyor.

O halde, büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?

Yüzeyde, bu modelin işleyebileceği giriş metinlerinin giderek daha uzun hale geldiği ve okuma yeteneğinin arttığı anlamına geliyor. İlk başta sadece kısa metinleri anlayabilen model, şimdi bir romanı kolayca anlayabiliyor.

Daha derin bir bakışla, uzun metin teknolojisi büyük modellerin finans, hukuk, bilim gibi profesyonel alanlarda uygulanmasını teşvik ediyor. Uzun belge özetleme, okuma anlama, soru yanıtlama gibi yetenekler, bu alanların akıllı yükselişinin anahtarıdır.

Ancak, daha uzun bağlam girişi desteğinin modelin daha iyi performansı ile aynı anlama gelmediğine dikkat edilmelidir. Araştırmalar, modelin bağlam içeriğini kullanımının anahtar olduğunu göstermektedir.

Şu anda, yurt içinde ve yurt dışında metin uzunluğuna yönelik araştırmalar henüz sınırlarına ulaşmadı. 400.000 token belki de sadece bir başlangıçtır.

Uzun Metinleri Neden "Kıvırmalıyız?"

Bir büyük model şirketinin kurucusu, girdi uzunluğunun sınırlı olmasının birçok büyük model uygulamasının hayata geçmesindeki zorlukların nedeni olduğunu belirtti. Bu, birçok şirketin uzun metin teknolojisine odaklanmasının da bir nedenidir.

Örneğin, sanal karakter sahnelerinde, uzun metin yeteneklerinin yetersizliği nedeniyle sanal karakterler önemli bilgileri unutabilir. Senaryo tabanlı oyunlar geliştirirken, giriş prompt uzunluğu yetersiz olduğunda kurallar ve ayarları azaltmak zorunda kalınır, bu da oyun deneyimini etkiler. Hukuk, finans gibi uzmanlık alanlarında derin içerik analizi ve üretimi de sık sık engellenir.

Uzun metin teknolojisi, gelecekteki Agent ve AI yerel uygulamalarına giden yolda önemli bir rol oynamaktadır. Agent'lar, planlama kararları için tarihsel bilgilere dayanmak zorundadır, AI yerel uygulamaları ise tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.

Kurucu, büyük modellerin sınırının tek adım yetenekleri ve yürütme adım sayısı tarafından belirlendiğini düşünüyor. Tek adım yetenekleri parametre miktarıyla ilgiliyken, yürütme adım sayısı bağlam uzunluğunu ifade ediyor.

Uzun metin teknolojisi, büyük modellerin erken dönemlerde eleştirilen bazı sorunlarını çözebilir, belirli işlevleri güçlendirebilir ve aynı zamanda endüstriyel uygulamaların hayata geçirilmesinde anahtar bir teknoloji olmaktadır. Bu, genel büyük model gelişiminin LLM'den Uzun LLM'ye yeni bir aşamaya girdiğini göstermektedir.

Bir şirketin yeni duyurduğu akıllı asistan, Long LLM aşamasındaki büyük modelin bazı güncellenmiş özelliklerini sergiledi:

  • Uzun metinlerden anahtar bilgi çıkarımı, özetleme ve analiz yapma
  • Metni doğrudan koda dönüştürmek, hatta makaleye göre kod üretim sürecini yeniden oluşturmak mümkündür.
  • Rol yapmayı gerçekleştirin, halk figürleriyle birebir diyalog kurun

Bu örnekler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini gösteriyor; bu belki de endüstri uygulamalarını ve süper uygulamaların hayata geçmesini sağlayacak yeni bir araçtır.

Ancak, şu anda piyasada uzun metinli diyalog sahnelerinin hala iyileştirilmesi gereken alanlar var. Örneğin, en son bilgileri çevrimiçi olarak alma desteği yok, üretim sürecini duraklatma veya değiştirme imkanı yok, bazen de saçmalama durumları yaşanabiliyor.

Uzun Metinlerin "İmkansız Üçgen" İkilemi

Uzun metin teknolojisi, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgen" zorluğuyla karşı karşıyadır:

  • Metin ne kadar uzunsa, dikkat toplamak o kadar zorlaşır.
  • Dikkat sınırlıdır, kısa metinler karmaşık bilgileri tam olarak anlamakta zorluk çıkarır.
  • Uzun metinleri işlemek için büyük miktarda hesaplama gücü gereklidir, maliyetleri artırır.

Bu, çoğu modelin Transformer yapısına dayalı olmasından kaynaklanmaktadır. İçindeki kendi kendine dikkat mekanizması, hesaplama miktarının bağlam uzunluğu ile kare oranında artmasına neden olur.

Bazı araştırmalar, çok uzun bir bağlamın ilgili bilgilerin oranını azaltarak dikkat dağınıklığını artırabileceğini göstermektedir. Bu, metin uzunluğu ile dikkat arasında bir çelişki oluşturmaktadır.

Aynı zamanda, daha uzun metin teknolojisinin aşılması, daha fazla hesaplama gücü tüketmek zorunda kalır. Ancak, gerçek dağıtımda, işletme tarafı genellikle yeterli hesaplama gücü desteği sağlayamaz. Bu da metnin uzunluğu ile hesaplama gücü arasında bir çelişki oluşturur.

Şu anda üç ana çözüm bulunmaktadır:

  1. Uzun metinleri işlemek için dış araçlardan yararlanın.
  2. Kendine Dikkat Mekanizması Hesaplamasını Optimize Et
  3. Model optimizasyonunun genel yöntemleri

İlk çözüm, modele "hile" yaparak uzun metni birden fazla kısa metne bölmektir.

İkinci çözüm, kendi kendine dikkat hesaplama yöntemini yeniden yapılandırmaktır; LongLoRA teknolojisi uzun metinleri gruplar halinde hesaplar.

Üçüncü seçenek, LongLLaMA gibi model optimizasyonuna odaklanarak daha uzun dizilerin dışa aktarımını ince ayar yaparak gerçekleştirir.

Uzun metinlerin "imkansız üçgen" sıkıntısı geçici olarak çözülmemiştir, ancak keşif yollarını da netleştirmiştir: metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi denge noktasını bulmak, yeterli bilgiyi işleyerek dikkat hesaplaması ve hesaplama gücü maliyet kısıtlamalarını da dikkate almak.

TOKEN0.83%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 9
  • Share
Comment
0/400
UncleWhalevip
· 07-25 17:35
boğa da uzun vadeli bir çözüm değil
View OriginalReply0
ApeShotFirstvip
· 07-24 15:51
gm, 40w token gerçekten ape
View OriginalReply0
FOMOSapienvip
· 07-23 07:50
400 bin token bu kadar büyük bir harcamayı karşılar mı?
View OriginalReply0
SocialFiQueenvip
· 07-22 20:30
Dört yüz bin token neyi temsil ediyor? Yenileme için toprak yememiz gerekiyor.
View OriginalReply0
MidnightSellervip
· 07-22 20:30
40w, akıllı oldukça yüksek.
View OriginalReply0
LiquidityHuntervip
· 07-22 20:25
400 bin token... Tüh, Bilgi İşlem Gücü masrafları ne kadar korkunç hale geldi
View OriginalReply0
NewDAOdreamervip
· 07-22 20:21
token yeni zirveye ulaştı, döngüye girin
View OriginalReply0
GovernancePretendervip
· 07-22 20:08
Bilgi İşlem Gücü yanıyor ama devam etmemiz gerekiyor.
View OriginalReply0
PermabullPetevip
· 07-22 20:04
Dört yüz bin token? Direkt Kripto Para Trade yapabilirsin.
View OriginalReply0
View More
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)