Khả năng xử lý văn bản dài của mô hình lớn vượt 400.000 token, thúc đẩy sự phát triển mới của ứng dụng trong ngành.

robot
Đang tạo bản tóm tắt

Mô hình lớn đang vượt qua công nghệ văn bản dài với tốc độ đáng kinh ngạc

Khả năng xử lý văn bản dài của mô hình lớn đang tăng nhanh chóng. Từ ban đầu là 4000 token đến bây giờ là 400000 token, sự tăng trưởng này có thể nói là "thấy được bằng mắt".

Xử lý văn bản dài dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn. Về phía nước ngoài, OpenAI đã nâng độ dài ngữ cảnh của GPT-4 lên 32.000 token qua nhiều lần nâng cấp. Anthropic đã một lần mở rộng độ dài ngữ cảnh của mô hình lên 100.000 token. LongLLaMA thậm chí đã đẩy con số này lên 256.000 token.

Trong nước cũng không chịu thua. Một công ty khởi nghiệp về mô hình lớn đã tung ra trợ lý thông minh hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Ngoài ra, một nhóm nghiên cứu đã phát triển công nghệ mới LongLoRA, có thể mở rộng độ dài văn bản của mô hình 7B lên tới 100.000 token.

Hiện tại, nhiều công ty và tổ chức lớn về mô hình hàng đầu như OpenAI, Anthropic, Meta đều xem việc mở rộng độ dài ngữ cảnh là một hướng nâng cấp trọng điểm. Tất cả các công ty này đều nhận được sự ưa chuộng từ vốn đầu tư.

Vậy, tại sao các công ty mô hình lớn lại coi trọng công nghệ văn bản dài như vậy? Việc mở rộng độ dài ngữ cảnh gấp 100 lần có nghĩa là gì?

Bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào ngày càng dài hơn, khả năng đọc ngày càng mạnh mẽ hơn. Từ việc chỉ có thể hiểu các đoạn văn ngắn ban đầu, đến bây giờ có thể dễ dàng hiểu một cuốn tiểu thuyết dài.

Xét ở một mức độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc áp dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, luật pháp, và nghiên cứu khoa học. Khả năng tóm tắt tài liệu dài, hiểu đọc, và trả lời câu hỏi là những yếu tố then chốt cho việc nâng cao trí tuệ trong các lĩnh vực này.

Tuy nhiên, cần lưu ý rằng việc hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc hiệu suất của mô hình tốt hơn. Nghiên cứu cho thấy, việc sử dụng nội dung ngữ cảnh mới là yếu tố quan trọng.

Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến giới hạn. 400.000 token có lẽ chỉ là một khởi đầu.

Tại sao phải "cuộn" văn bản dài?

Một nhà sáng lập công ty mô hình lớn cho biết, chính vì độ dài đầu vào bị hạn chế, đã dẫn đến nhiều khó khăn trong việc triển khai ứng dụng mô hình lớn. Đây cũng là lý do mà nhiều công ty tập trung vào công nghệ văn bản dài.

Ví dụ, trong các cảnh vai ảo, do khả năng xử lý văn bản dài hạn chế, các nhân vật ảo sẽ quên thông tin quan trọng. Khi phát triển trò chơi kiểu kịch bản giết người, độ dài của prompt không đủ, chỉ có thể cắt giảm quy tắc và thiết lập, ảnh hưởng đến hiệu quả của trò chơi. Trong các lĩnh vực chuyên môn như pháp luật, tài chính, phân tích và tạo nội dung sâu cũng thường bị cản trở.

Công nghệ văn bản dài cũng đóng vai trò quan trọng trên con đường hướng tới các ứng dụng Agent và AI bản địa trong tương lai. Agent cần dựa vào thông tin lịch sử để lập kế hoạch và quyết định, trong khi các ứng dụng AI bản địa cần ngữ cảnh để duy trì trải nghiệm người dùng liên tục và cá nhân hóa.

Người sáng lập này cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện. Khả năng từng bước liên quan đến số lượng tham số, trong khi số bước thực hiện là độ dài ngữ cảnh.

Công nghệ văn bản dài có thể giải quyết một số vấn đề mà các mô hình lớn gặp phải trong giai đoạn đầu, tăng cường một số chức năng, đồng thời cũng là công nghệ then chốt để thúc đẩy sự ứng dụng trong ngành. Điều này đánh dấu sự phát triển của mô hình lớn chung bước vào giai đoạn mới từ LLM đến Long LLM.

Trợ lý thông minh mới được một công ty phát hành đã trình bày một số tính năng nâng cấp của mô hình lớn Long LLM.

  • Trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản siêu dài
  • Chuyển đổi văn bản trực tiếp thành mã, thậm chí có thể tái tạo quá trình sinh mã dựa trên tài liệu.
  • Thực hiện vai trò, trò chuyện một đối một với nhân vật công chúng

Những ví dụ này cho thấy, chatbot đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc hơn, điều này có thể là chìa khóa để thúc đẩy ứng dụng trong ngành và sự hiện diện của các ứng dụng siêu.

Tuy nhiên, hiện tại vẫn còn không gian để tối ưu hóa các tình huống đối thoại văn bản dài trên thị trường. Chẳng hạn, không hỗ trợ kết nối mạng để lấy thông tin mới nhất, không thể tạm dừng để chỉnh sửa quá trình tạo ra, thỉnh thoảng xuất hiện những điều vô lý.

Nghịch lý "tam giác không thể" của văn bản dài

Công nghệ văn bản dài đang đối mặt với "tam giác bất khả thi" về độ dài văn bản, sự chú ý và sức mạnh tính toán:

  • Văn bản càng dài, càng khó để tập trung chú ý đầy đủ.
  • Sự chú ý bị hạn chế, văn bản ngắn khó đọc hiểu thông tin phức tạp.
  • Xử lý văn bản dài cần nhiều sức mạnh tính toán, làm tăng chi phí

Điều này chủ yếu xuất phát từ việc hầu hết các mô hình dựa trên cấu trúc Transformer. Cơ chế tự chú ý trong đó làm cho khối lượng tính toán tăng theo cấp số nhân với độ dài ngữ cảnh.

Một số nghiên cứu chỉ ra rằng, bối cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, làm gia tăng sự phân tâm chú ý. Điều này tạo thành mâu thuẫn giữa độ dài văn bản và sự chú ý.

Trong khi đó, việc phá vỡ công nghệ văn bản dài hơn buộc phải tiêu tốn nhiều sức mạnh tính toán hơn. Nhưng trong thực tế triển khai, các doanh nghiệp thường không thể cung cấp đủ sức mạnh tính toán hỗ trợ. Điều này lại tạo ra mâu thuẫn giữa độ dài văn bản và sức mạnh tính toán.

Hiện nay có ba giải pháp chính:

  1. Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài
  2. Tối ưu hóa tính toán cơ chế tự chú ý
  3. Phương pháp chung để tối ưu hóa mô hình

Giải pháp đầu tiên là cho mô hình "hack", chia nhỏ văn bản dài thành nhiều văn bản ngắn để xử lý.

Giải pháp thứ hai là tái cấu trúc cách tính toán tự chú ý, như công nghệ LongLoRA sẽ nhóm các văn bản dài để tính toán.

Giải pháp thứ ba tập trung vào tối ưu hóa mô hình, như LongLLaMA thực hiện ngoại suy chuỗi dài hơn thông qua việc tinh chỉnh.

Nỗi khổ "tam giác bất khả thi" của văn bản dài hiện tại vẫn chưa có lời giải, nhưng cũng đã xác định được con đường khám phá: tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, vừa xử lý đủ thông tin, vừa chú ý đến tính toán sự chú ý và hạn chế chi phí sức mạnh tính toán.

TOKEN-1.12%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 9
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
UncleWhalevip
· 07-25 17:35
Bull cũng không phải là kế lâu dài.
Xem bản gốcTrả lời0
ApeShotFirstvip
· 07-24 15:51
gm,40w token thật sự ape
Xem bản gốcTrả lời0
FOMOSapienvip
· 07-23 07:50
40 triệu token có thể chịu được khoản chi tiêu lớn như vậy sao?
Xem bản gốcTrả lời0
SocialFiQueenvip
· 07-22 20:30
Bốn trăm ngàn token thì có ý nghĩa gì? Gia hạn thì phải ăn đất.
Xem bản gốcTrả lời0
MidnightSellervip
· 07-22 20:30
40w à, trí tuệ cũng khá cao
Xem bản gốcTrả lời0
LiquidityHuntervip
· 07-22 20:25
40 triệu token... Tsk tsk, Khả năng tính toán chi phí sẽ đáng sợ như thế nào
Xem bản gốcTrả lời0
NewDAOdreamervip
· 07-22 20:21
token đạt đỉnh mới, hãy cuộn lại
Xem bản gốcTrả lời0
GovernancePretendervip
· 07-22 20:08
Khả năng tính toán cháy nổ cũng phải tiếp tục cuốn lấy!
Xem bản gốcTrả lời0
PermabullPetevip
· 07-22 20:04
Bốn trăm ngàn token? Cứ lấy đi giao dịch tiền điện tử thôi.
Xem bản gốcTrả lời0
Xem thêm
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)