# 大規模モデルは驚異的な速度で長文技術を突破しています大規模モデルの長文能力が急速に向上しています。最初の4000トークンから現在の40万トークンに至るまで、この能力の成長は「肉眼で見える」ほどです。長文処理は大規模モデルのメーカーにとって新しい「標準装備」となったようです。海外では、OpenAIは何度もアップグレードを重ねてGPT-4のコンテキスト長を3.2万トークンに引き上げました。Anthropicはそのモデルのコンテキスト長を10万トークンに拡張しました。LongLLaMAはさらにこの数字を25.6万トークンに押し上げました。国内も負けじと新たな技術を開発しています。ある大規模モデルのスタートアップ企業が発表したスマートアシスタントは、20万漢字の入力をサポートし、約40万tokenに相当します。また、別の研究チームが開発した新技術LongLoRAは、7Bモデルのテキスト長を10万tokenまで拡張することができます。現在、OpenAI、Anthropic、Metaなどを含む多くのトップモデル企業や機関が、コンテキストの長さの拡張を重点的なアップグレードの方向性として位置付けています。これらの企業は例外なく、資本の支持を受けています。では、大規模モデル企業はなぜ長文技術をこれほど重視しているのでしょうか? コンテキストの長さが100倍に拡大することは何を意味するのでしょうか?表面上では、これはモデルが処理できる入力テキストがますます長くなり、読解能力が向上していることを意味します。最初は短い文章しか理解できなかったのが、今では長編小説を簡単に理解できるようになりました。より深い視点から見ると、長文技術は金融、法律、研究などの専門分野における大規模モデルの応用を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野の知能化のアップグレードにおいて重要です。ただし、長いコンテキスト入力をサポートすることは、モデルの性能が向上することを意味するわけではありません。研究によると、モデルがコンテキストの内容をどのように使用するかが重要です。現在、国内外でのテキストの長さの探求はまだ限界に達していません。40万トークンはおそらく始まりに過ぎません。# なぜ"巻"長文をするのか?ある大規模モデル会社の創設者は、入力の長さが制限されているため、多くの大規模モデルの応用が困難になっていると述べました。これは、多くの企業が長文技術に焦点を当てている理由でもあります。例えば、バーチャルキャラクターのシーンでは、長いテキストの能力が不足しているため、バーチャルキャラクターは重要な情報を忘れてしまいます。スクリプト殺しのゲームを開発する際、プロンプトの長さが不足しているため、ルールや設定を削減せざるを得ず、ゲームの効果に影響を与えます。法律や金融などの専門分野では、深い内容の分析や生成もしばしば妨げられます。長文テクノロジーは、未来のエージェントとAIネイティブアプリケーションへの道において重要な役割を果たしています。エージェントは計画的な意思決定を行うために過去の情報に依存する必要があり、AIネイティブアプリケーションは一貫性があり、個別化されたユーザー体験を維持するためにコンテキストが必要です。この創設者は、大モデルの上限が単ステップ能力と実行ステップ数によって共同で決定されると考えています。単ステップ能力はパラメータ量に関連しており、実行ステップ数はコンテキストの長さです。長文技術は、大規模モデルが初期に批判されていたいくつかの問題を解決し、特定の機能を強化することができ、同時に産業応用の実現に向けた重要な技術でもあります。これは、汎用大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。ある企業が新たに発表したスマートアシスタントは、Long LLMステージの大規模モデルのいくつかのアップグレード機能を示しました:- 超長テキストからの重要情報の抽出、要約、分析- 文字を直接コードに変換し、論文に基づいてコード生成プロセスを再現することも可能です。- 役割を演じ、著名人と1対1の対話を実現するこれらの例は、対話型ロボットが専門化、個性化、深度化の方向に向かって進化していることを示しており、これは産業応用とスーパーAPPの実現を促進する新たな手段かもしれません。しかし、現在市場に出ている長文対話シーンにはまだ最適化の余地があります。例えば、最新情報をネットワークから取得できない、生成プロセスを一時停止して修正できない、時々無意味なことを言うことがあるなどの状況です。# 長文の「不可能な三角形」ジレンマ長文技術は、テキストの長さ、注意力、計算能力の「不可能な三角形」というジレンマに直面しています:- テキストが長くなるほど、十分な注意を集めるのが難しくなる- 注意力が制限され、短いテキストでは複雑な情報を完全に解読することが難しい- 長文を処理するには大量の計算力が必要で、コストが上昇します。これは主に多くのモデルがTransformer構造に基づいているためです。その中の自己注意メカニズムにより、計算量はコンテキストの長さに対して平方的に増加します。いくつかの研究によると、長すぎる文脈は関連情報の比率を低下させ、注意散漫を悪化させることが示されています。これは、テキストの長さと注意力との矛盾を構成します。同時に、より長いテキストの技術を突破するには、より多くの計算力を消費せざるを得ません。しかし、実際の展開では、企業側が十分な計算力のサポートを提供することができないことが多いです。これにより、テキストの長さと計算力との矛盾が生じます。現在、主に3つの解決策があります:1. 外部ツールを使用して長いテキストを処理する2.セルフアテンションメカニズムの計算を最適化します3. モデル最適化の一般的な方法第一の提案は、モデルに"チート"を与え、長いテキストを複数の短いテキストに分割して処理することです。第二のアプローチは、自己注意計算方法を再構築することであり、LongLoRA技術は長いテキストをグループ化して計算します。第三のアプローチはモデルの最適化に焦点を当てており、LongLLaMAは微調整によってより長いシーケンスの外挿を実現します。長文の"不可能三角"のジレンマは一時的に解決策が見つかっていませんが、探索の道筋は明らかになりました: テキストの長さ、注意力、計算能力の三者間で最適なバランスを見つけること、十分な情報を処理しつつ、注意力の計算と計算能力のコスト制限にも配慮することです。
大規模モデルの長文能力が40万トークンを突破し、業界アプリケーションの新たな発展を促進します。
大規模モデルは驚異的な速度で長文技術を突破しています
大規模モデルの長文能力が急速に向上しています。最初の4000トークンから現在の40万トークンに至るまで、この能力の成長は「肉眼で見える」ほどです。
長文処理は大規模モデルのメーカーにとって新しい「標準装備」となったようです。海外では、OpenAIは何度もアップグレードを重ねてGPT-4のコンテキスト長を3.2万トークンに引き上げました。Anthropicはそのモデルのコンテキスト長を10万トークンに拡張しました。LongLLaMAはさらにこの数字を25.6万トークンに押し上げました。
国内も負けじと新たな技術を開発しています。ある大規模モデルのスタートアップ企業が発表したスマートアシスタントは、20万漢字の入力をサポートし、約40万tokenに相当します。また、別の研究チームが開発した新技術LongLoRAは、7Bモデルのテキスト長を10万tokenまで拡張することができます。
現在、OpenAI、Anthropic、Metaなどを含む多くのトップモデル企業や機関が、コンテキストの長さの拡張を重点的なアップグレードの方向性として位置付けています。これらの企業は例外なく、資本の支持を受けています。
では、大規模モデル企業はなぜ長文技術をこれほど重視しているのでしょうか? コンテキストの長さが100倍に拡大することは何を意味するのでしょうか?
表面上では、これはモデルが処理できる入力テキストがますます長くなり、読解能力が向上していることを意味します。最初は短い文章しか理解できなかったのが、今では長編小説を簡単に理解できるようになりました。
より深い視点から見ると、長文技術は金融、法律、研究などの専門分野における大規模モデルの応用を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野の知能化のアップグレードにおいて重要です。
ただし、長いコンテキスト入力をサポートすることは、モデルの性能が向上することを意味するわけではありません。研究によると、モデルがコンテキストの内容をどのように使用するかが重要です。
現在、国内外でのテキストの長さの探求はまだ限界に達していません。40万トークンはおそらく始まりに過ぎません。
なぜ"巻"長文をするのか?
ある大規模モデル会社の創設者は、入力の長さが制限されているため、多くの大規模モデルの応用が困難になっていると述べました。これは、多くの企業が長文技術に焦点を当てている理由でもあります。
例えば、バーチャルキャラクターのシーンでは、長いテキストの能力が不足しているため、バーチャルキャラクターは重要な情報を忘れてしまいます。スクリプト殺しのゲームを開発する際、プロンプトの長さが不足しているため、ルールや設定を削減せざるを得ず、ゲームの効果に影響を与えます。法律や金融などの専門分野では、深い内容の分析や生成もしばしば妨げられます。
長文テクノロジーは、未来のエージェントとAIネイティブアプリケーションへの道において重要な役割を果たしています。エージェントは計画的な意思決定を行うために過去の情報に依存する必要があり、AIネイティブアプリケーションは一貫性があり、個別化されたユーザー体験を維持するためにコンテキストが必要です。
この創設者は、大モデルの上限が単ステップ能力と実行ステップ数によって共同で決定されると考えています。単ステップ能力はパラメータ量に関連しており、実行ステップ数はコンテキストの長さです。
長文技術は、大規模モデルが初期に批判されていたいくつかの問題を解決し、特定の機能を強化することができ、同時に産業応用の実現に向けた重要な技術でもあります。これは、汎用大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。
ある企業が新たに発表したスマートアシスタントは、Long LLMステージの大規模モデルのいくつかのアップグレード機能を示しました:
これらの例は、対話型ロボットが専門化、個性化、深度化の方向に向かって進化していることを示しており、これは産業応用とスーパーAPPの実現を促進する新たな手段かもしれません。
しかし、現在市場に出ている長文対話シーンにはまだ最適化の余地があります。例えば、最新情報をネットワークから取得できない、生成プロセスを一時停止して修正できない、時々無意味なことを言うことがあるなどの状況です。
長文の「不可能な三角形」ジレンマ
長文技術は、テキストの長さ、注意力、計算能力の「不可能な三角形」というジレンマに直面しています:
これは主に多くのモデルがTransformer構造に基づいているためです。その中の自己注意メカニズムにより、計算量はコンテキストの長さに対して平方的に増加します。
いくつかの研究によると、長すぎる文脈は関連情報の比率を低下させ、注意散漫を悪化させることが示されています。これは、テキストの長さと注意力との矛盾を構成します。
同時に、より長いテキストの技術を突破するには、より多くの計算力を消費せざるを得ません。しかし、実際の展開では、企業側が十分な計算力のサポートを提供することができないことが多いです。これにより、テキストの長さと計算力との矛盾が生じます。
現在、主に3つの解決策があります:
第一の提案は、モデルに"チート"を与え、長いテキストを複数の短いテキストに分割して処理することです。
第二のアプローチは、自己注意計算方法を再構築することであり、LongLoRA技術は長いテキストをグループ化して計算します。
第三のアプローチはモデルの最適化に焦点を当てており、LongLLaMAは微調整によってより長いシーケンスの外挿を実現します。
長文の"不可能三角"のジレンマは一時的に解決策が見つかっていませんが、探索の道筋は明らかになりました: テキストの長さ、注意力、計算能力の三者間で最適なバランスを見つけること、十分な情報を処理しつつ、注意力の計算と計算能力のコスト制限にも配慮することです。