Les grands modèles franchissent des frontières de la technologie des longs textes à une vitesse incroyable.
La capacité des grands modèles à traiter de longs textes s'améliore rapidement. De 4000 tokens au départ à maintenant 400 000 tokens, cette augmentation de capacité est "visiblement évidente".
Le traitement de longs textes semble être devenu la nouvelle "norme" des fabricants de grands modèles. À l'étranger, OpenAI a augmenté la longueur de contexte de GPT-4 à 32 000 tokens grâce à plusieurs mises à jour. Anthropic a quant à lui élargi la longueur de contexte de son modèle à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens.
Le pays ne veut pas être en reste. Un assistant intelligent lancé par une startup de modèles volumineux prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. Une autre équipe de recherche a développé une nouvelle technologie, LongLoRA, qui peut étendre la longueur du texte d'un modèle de 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises et institutions de modèles de grande taille, telles qu'OpenAI, Anthropic et Meta, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau prioritaire. Ces entreprises sont toutes sans exception très appréciées des investisseurs.
Alors, pourquoi les entreprises de grands modèles attachent-elles une si grande importance à la technologie des longs textes ? Que signifie l'augmentation de la longueur du contexte par 100 fois ?
En apparence, cela signifie que le modèle peut traiter des textes d'entrée de plus en plus longs, avec une capacité de lecture de plus en plus forte. Passant d'une capacité de compréhension initiale de courts textes à la capacité actuelle de comprendre facilement un roman.
À un niveau plus profond, la technologie des longs textes stimule l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont essentielles à la montée en intelligence de ces domaines.
Cependant, il est important de noter que le soutien à des entrées de contexte plus longues n'est pas équivalent à de meilleures performances du modèle. Des recherches montrent que l'utilisation du contenu contextuel par le modèle est la clé.
Actuellement, l'exploration de la longueur du texte, tant au niveau national qu'international, n'est pas encore arrivée à ses limites. 400 000 tokens n'est peut-être qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une grande entreprise de modèles a déclaré que c'est en raison de la longueur d'entrée limitée que de nombreuses applications de grands modèles rencontrent des difficultés de mise en œuvre. C'est aussi la raison pour laquelle de nombreuses entreprises se concentrent sur la technologie des longs textes.
Par exemple, dans les scènes de personnages virtuels, en raison d'une capacité limitée en texte long, les personnages virtuels oublient des informations importantes. Lors du développement de jeux de type "jeu de meurtre", la longueur du prompt est insuffisante, ce qui ne permet que de réduire les règles et les paramètres, affectant ainsi l'expérience de jeu. Dans des domaines spécialisés tels que le droit et la finance, l'analyse et la génération de contenu approfondi rencontrent également souvent des obstacles.
La technologie des longs textes joue également un rôle important sur la route vers les applications Agent et AI natives du futur. Les Agents doivent s'appuyer sur des informations historiques pour planifier des décisions, tandis que les applications AI natives ont besoin de contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Le fondateur estime que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution. La capacité d'une seule étape est liée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte.
La technologie des longs textes peut résoudre certains problèmes qui ont été critiqués au début des grands modèles, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer l'application industrielle. Cela marque le passage du développement des grands modèles généraux d'un LLM à un Long LLM.
Le nouvel assistant intelligent lancé par une certaine entreprise a présenté certaines fonctionnalités améliorées du modèle à grande échelle Long LLM :
Extraction, résumé et analyse des informations clés à partir de textes très longs
Transformer le texte directement en code, et même reproduire le processus de génération de code selon la thèse.
Réaliser des jeux de rôle, dialoguer en tête-à-tête avec des personnalités publiques
Ces exemples montrent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur accrues, ce qui pourrait être un nouveau levier pour activer les applications industrielles et le déploiement de super-apps.
Cependant, il y a encore de la place pour l'optimisation des scénarios de dialogue en long format sur le marché actuel. Par exemple, il ne prend pas en charge la connexion pour obtenir les dernières informations, il n'est pas possible de mettre en pause le processus de génération pour le modifier, et il peut parfois y avoir des incohérences.
Le dilemme de "l'impossible triangle" des longs textes
La technologie des longs textes fait face au dilemme du "triangle impossible" en matière de longueur de texte, d'attention et de puissance de calcul :
Plus le texte est long, plus il est difficile de maintenir une attention suffisante.
Attention limitée, les courts textes sont difficiles à interpréter complètement des informations complexes
Le traitement de longs textes nécessite une grande puissance de calcul, augmentant les coûts.
Cela provient principalement du fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'attention auto fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Certaines études montrent qu'un contexte trop long peut entraîner une diminution de la proportion d'informations pertinentes, aggravant la distraction de l'attention. Cela constitue un paradoxe entre la longueur du texte et l'attention.
En même temps, la technologie de rupture pour des textes plus longs doit consommer plus de puissance de calcul. Cependant, dans le déploiement pratique, les entreprises ne peuvent souvent pas fournir un soutien suffisant en puissance de calcul. Cela crée un conflit entre la longueur du texte et la puissance de calcul.
Actuellement, il existe principalement trois solutions :
Utiliser des outils externes pour traiter des textes longs.
Optimiser le calcul du mécanisme d'attention auto
Méthodes générales d'optimisation des modèles
La première solution est de donner au modèle une "extension" en divisant le long texte en plusieurs courts textes à traiter.
La deuxième solution consiste à reconstruire la méthode de calcul de l'auto-attention, comme la technologie LongLoRA qui regroupe le calcul de textes longs.
La troisième solution se concentre sur l'optimisation des modèles, comme LongLLaMA qui réalise l'extrapolation de séquences plus longues par le biais de l'ajustement fin.
Le dilemme du "triangle impossible" pour les longs textes n'est pour l'instant pas résolu, mais il a également défini un chemin d'exploration : trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, en traitant suffisamment d'informations tout en tenant compte des limites de calcul d'attention et de coût de puissance.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
17 J'aime
Récompense
17
9
Partager
Commentaire
0/400
UncleWhale
· 07-25 17:35
Un bull n'est pas une solution à long terme.
Voir l'originalRépondre0
ApeShotFirst
· 07-24 15:51
gm,40w token vraiment ape
Voir l'originalRépondre0
FOMOSapien
· 07-23 07:50
40 000 tokens peuvent-ils couvrir une dépense aussi importante ?
Voir l'originalRépondre0
SocialFiQueen
· 07-22 20:30
Quarante mille tokens, c'est quoi ? Renouveler coûte cher.
Voir l'originalRépondre0
MidnightSeller
· 07-22 20:30
40w ah, l'intelligence est assez élevée
Voir l'originalRépondre0
LiquidityHunter
· 07-22 20:25
400 000 tokens... tsk tsk, la puissance de calcul doit être terrifiante.
Voir l'originalRépondre0
NewDAOdreamer
· 07-22 20:21
le token atteint un nouveau sommet, enroulez-vous
Voir l'originalRépondre0
GovernancePretender
· 07-22 20:08
La puissance de calcul doit continuer à rouler, même si elle explose.
Voir l'originalRépondre0
PermabullPete
· 07-22 20:04
Quarante mille jetons ? Allez-y, utilisez-les pour le Trading des cryptomonnaies.
La capacité des grands modèles à traiter des textes longs dépasse 400 000 tokens, favorisant le nouveau développement des applications industrielles.
Les grands modèles franchissent des frontières de la technologie des longs textes à une vitesse incroyable.
La capacité des grands modèles à traiter de longs textes s'améliore rapidement. De 4000 tokens au départ à maintenant 400 000 tokens, cette augmentation de capacité est "visiblement évidente".
Le traitement de longs textes semble être devenu la nouvelle "norme" des fabricants de grands modèles. À l'étranger, OpenAI a augmenté la longueur de contexte de GPT-4 à 32 000 tokens grâce à plusieurs mises à jour. Anthropic a quant à lui élargi la longueur de contexte de son modèle à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens.
Le pays ne veut pas être en reste. Un assistant intelligent lancé par une startup de modèles volumineux prend en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. Une autre équipe de recherche a développé une nouvelle technologie, LongLoRA, qui peut étendre la longueur du texte d'un modèle de 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises et institutions de modèles de grande taille, telles qu'OpenAI, Anthropic et Meta, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau prioritaire. Ces entreprises sont toutes sans exception très appréciées des investisseurs.
Alors, pourquoi les entreprises de grands modèles attachent-elles une si grande importance à la technologie des longs textes ? Que signifie l'augmentation de la longueur du contexte par 100 fois ?
En apparence, cela signifie que le modèle peut traiter des textes d'entrée de plus en plus longs, avec une capacité de lecture de plus en plus forte. Passant d'une capacité de compréhension initiale de courts textes à la capacité actuelle de comprendre facilement un roman.
À un niveau plus profond, la technologie des longs textes stimule l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont essentielles à la montée en intelligence de ces domaines.
Cependant, il est important de noter que le soutien à des entrées de contexte plus longues n'est pas équivalent à de meilleures performances du modèle. Des recherches montrent que l'utilisation du contenu contextuel par le modèle est la clé.
Actuellement, l'exploration de la longueur du texte, tant au niveau national qu'international, n'est pas encore arrivée à ses limites. 400 000 tokens n'est peut-être qu'un début.
Pourquoi "rouler" des textes longs ?
Le fondateur d'une grande entreprise de modèles a déclaré que c'est en raison de la longueur d'entrée limitée que de nombreuses applications de grands modèles rencontrent des difficultés de mise en œuvre. C'est aussi la raison pour laquelle de nombreuses entreprises se concentrent sur la technologie des longs textes.
Par exemple, dans les scènes de personnages virtuels, en raison d'une capacité limitée en texte long, les personnages virtuels oublient des informations importantes. Lors du développement de jeux de type "jeu de meurtre", la longueur du prompt est insuffisante, ce qui ne permet que de réduire les règles et les paramètres, affectant ainsi l'expérience de jeu. Dans des domaines spécialisés tels que le droit et la finance, l'analyse et la génération de contenu approfondi rencontrent également souvent des obstacles.
La technologie des longs textes joue également un rôle important sur la route vers les applications Agent et AI natives du futur. Les Agents doivent s'appuyer sur des informations historiques pour planifier des décisions, tandis que les applications AI natives ont besoin de contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Le fondateur estime que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution. La capacité d'une seule étape est liée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte.
La technologie des longs textes peut résoudre certains problèmes qui ont été critiqués au début des grands modèles, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer l'application industrielle. Cela marque le passage du développement des grands modèles généraux d'un LLM à un Long LLM.
Le nouvel assistant intelligent lancé par une certaine entreprise a présenté certaines fonctionnalités améliorées du modèle à grande échelle Long LLM :
Ces exemples montrent que les chatbots évoluent vers une spécialisation, une personnalisation et une profondeur accrues, ce qui pourrait être un nouveau levier pour activer les applications industrielles et le déploiement de super-apps.
Cependant, il y a encore de la place pour l'optimisation des scénarios de dialogue en long format sur le marché actuel. Par exemple, il ne prend pas en charge la connexion pour obtenir les dernières informations, il n'est pas possible de mettre en pause le processus de génération pour le modifier, et il peut parfois y avoir des incohérences.
Le dilemme de "l'impossible triangle" des longs textes
La technologie des longs textes fait face au dilemme du "triangle impossible" en matière de longueur de texte, d'attention et de puissance de calcul :
Cela provient principalement du fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'attention auto fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Certaines études montrent qu'un contexte trop long peut entraîner une diminution de la proportion d'informations pertinentes, aggravant la distraction de l'attention. Cela constitue un paradoxe entre la longueur du texte et l'attention.
En même temps, la technologie de rupture pour des textes plus longs doit consommer plus de puissance de calcul. Cependant, dans le déploiement pratique, les entreprises ne peuvent souvent pas fournir un soutien suffisant en puissance de calcul. Cela crée un conflit entre la longueur du texte et la puissance de calcul.
Actuellement, il existe principalement trois solutions :
La première solution est de donner au modèle une "extension" en divisant le long texte en plusieurs courts textes à traiter.
La deuxième solution consiste à reconstruire la méthode de calcul de l'auto-attention, comme la technologie LongLoRA qui regroupe le calcul de textes longs.
La troisième solution se concentre sur l'optimisation des modèles, comme LongLLaMA qui réalise l'extrapolation de séquences plus longues par le biais de l'ajustement fin.
Le dilemme du "triangle impossible" pour les longs textes n'est pour l'instant pas résolu, mais il a également défini un chemin d'exploration : trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, en traitant suffisamment d'informations tout en tenant compte des limites de calcul d'attention et de coût de puissance.