O grande modelo está a superar a tecnologia de texto longo a uma velocidade impressionante
A capacidade de textos longos dos grandes modelos está a aumentar rapidamente. Desde os iniciais 4000 tokens até aos atuais 400000 tokens, o crescimento desta capacidade é "visível a olho nu".
O processamento de textos longos parece ter se tornado um novo "padrão" para os fornecedores de grandes modelos. No exterior, a OpenAI, por meio de várias atualizações, elevou o comprimento do contexto do GPT-4 para 32.000 tokens. A Anthropic, por sua vez, expandiu o comprimento do contexto de seu modelo para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.
O país também não quer ficar para trás. Um assistente inteligente lançado por uma startup de grandes modelos pode suportar a entrada de 200.000 caracteres chineses, o que equivale a cerca de 400.000 tokens. Além disso, uma nova tecnologia desenvolvida por uma equipe de pesquisa, LongLoRA, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens.
Atualmente, muitas das principais empresas e instituições de grandes modelos, incluindo OpenAI, Anthropic e Meta, estão a focar na expansão do comprimento de contexto como uma direção de atualização prioritária. Essas empresas são, sem exceção, muito apreciadas pelos investidores.
Então, por que as empresas de grandes modelos valorizam tanto a tecnologia de textos longos? O que significa expandir a extensão do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode processar textos de entrada cada vez mais longos, com uma capacidade de leitura cada vez mais forte. Desde o início, quando só conseguia entender textos curtos, até agora, quando pode compreender facilmente um romance longo.
A um nível mais profundo, a tecnologia de texto longo está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. A capacidade de resumo de documentos longos, compreensão de leitura e perguntas e respostas é a chave para a atualização inteligente nesses campos.
No entanto, é importante notar que suportar entradas de contexto mais longas não é o mesmo que um melhor desempenho do modelo. Estudos mostram que o uso do conteúdo do contexto pelo modelo é o que realmente importa.
Atualmente, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda está longe de atingir o limite. 400 mil tokens pode ser apenas o começo.
Por que "enrolar" textos longos?
O fundador de uma grande empresa de modelos declarou que a limitação do comprimento de entrada é a razão pela qual muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta também é a razão pela qual muitas empresas estão focadas em tecnologias de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à falta de capacidade para lidar com textos longos, os personagens virtuais esquecem informações importantes. Ao desenvolver jogos do tipo "murder mystery", o comprimento do prompt não é suficiente, o que leva a uma redução nas regras e definições, afetando a experiência do jogo. Em áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo também são frequentemente prejudicadas.
A tecnologia de long text desempenha um papel importante no caminho para aplicações nativas de Agent e AI no futuro. Os Agents precisam depender de informações históricas para tomar decisões de planejamento, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência de usuário coerente e personalizada.
O fundador acredita que o limite do grande modelo é determinado pela capacidade de um único passo e pelo número de passos de execução. A capacidade de um único passo está relacionada à quantidade de parâmetros, enquanto o número de passos de execução refere-se ao comprimento do contexto.
A tecnologia de texto longo pode resolver alguns problemas que os grandes modelos enfrentaram no início, melhorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos gerais de LLM para Long LLM.
O novo assistente inteligente lançado por uma empresa mostrou algumas funcionalidades aprimoradas do modelo grande da fase Long LLM:
Extrair, resumir e analisar informações chave de textos muito longos
Converter texto diretamente em código, podendo até reproduzir o processo de geração de código com base em artigos.
Realizar jogos de interpretação de papéis, conversando em particular com figuras públicas
Estes exemplos mostram que os chatbots estão a evoluir numa direção de especialização, personalização e profundidade, o que pode ser uma nova alavanca para a aplicação industrial e a implementação de super aplicativos.
No entanto, ainda há espaço para otimização em cenários de diálogo de longas mensagens no mercado atual. Por exemplo, não suportar a obtenção de informações atualizadas pela internet, não ser capaz de pausar o processo de geração, e ocasionalmente apresentar informações incoerentes.
A "tríade impossível" do longo texto
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" de comprimento de texto, atenção e poder computacional:
Quanto mais longo o texto, mais difícil é concentrar a atenção suficiente.
Atenção limitada, textos curtos dificultam a leitura completa de informações complexas
Processar textos longos requer muita capacidade de cálculo, aumentando os custos.
Isto deve-se principalmente ao fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de auto-atenção faz com que a carga de cálculo cresça quadraticamente com o comprimento do contexto.
Algumas pesquisas mostram que um contexto excessivamente longo pode levar a uma diminuição na proporção de informações relevantes, aumentando a distração da atenção. Isso constitui um paradoxo entre o comprimento do texto e a atenção.
Ao mesmo tempo, a tecnologia para quebrar textos mais longos tem que consumir mais poder de computação. Mas na implementação real, as empresas muitas vezes não conseguem fornecer suporte suficiente de poder de computação. Isso cria uma contradição entre o comprimento do texto e o poder de computação.
Atualmente, existem três soluções principais:
Usar ferramentas externas para ajudar a processar textos longos
Otimização do cálculo do mecanismo de autoatenção
Métodos gerais de otimização de modelos
A primeira solução é dar ao modelo um "hack", dividindo o texto longo em vários textos curtos para processamento.
A segunda solução é reestruturar a forma de cálculo da autoatenção, como a tecnologia LongLoRA que agrupa o cálculo de textos longos.
A terceira opção foca na otimização de modelos, como o LongLLaMA, que realiza a extrapolação de sequências mais longas através de ajuste fino.
O dilema do "triângulo impossível" em textos longos ainda não tem solução, mas já esclareceu o caminho a ser explorado: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, lidando com informações suficientes, enquanto considera as limitações de cálculo de atenção e de custo computacional.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
17 gostos
Recompensa
17
9
Partilhar
Comentar
0/400
UncleWhale
· 07-25 17:35
bull não é uma solução a longo prazo
Ver originalResponder0
ApeShotFirst
· 07-24 15:51
gm,40w token realmente ape
Ver originalResponder0
FOMOSapien
· 07-23 07:50
400 mil tokens conseguem cobrir tão grande despesa?
Ver originalResponder0
SocialFiQueen
· 07-22 20:30
Quatrocentos mil tokens não valem nada, renovar custa muito.
Ver originalResponder0
MidnightSeller
· 07-22 20:30
40w, a inteligência é bastante alta.
Ver originalResponder0
LiquidityHunter
· 07-22 20:25
400 mil tokens... tsk tsk, o Poder de computação deve ser assustador
Ver originalResponder0
NewDAOdreamer
· 07-22 20:21
token atinge nova alta, vamos lá
Ver originalResponder0
GovernancePretender
· 07-22 20:08
Poder de computação queimando explosivamente, mas ainda precisamos continuar a nos esforçar.
Ver originalResponder0
PermabullPete
· 07-22 20:04
Quatrocentos mil tokens? Basta levá-los para a negociação de criptomoedas.
A capacidade de texto longo de grandes modelos ultrapassa 400 mil tokens, impulsionando um novo desenvolvimento na aplicação da indústria.
O grande modelo está a superar a tecnologia de texto longo a uma velocidade impressionante
A capacidade de textos longos dos grandes modelos está a aumentar rapidamente. Desde os iniciais 4000 tokens até aos atuais 400000 tokens, o crescimento desta capacidade é "visível a olho nu".
O processamento de textos longos parece ter se tornado um novo "padrão" para os fornecedores de grandes modelos. No exterior, a OpenAI, por meio de várias atualizações, elevou o comprimento do contexto do GPT-4 para 32.000 tokens. A Anthropic, por sua vez, expandiu o comprimento do contexto de seu modelo para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.
O país também não quer ficar para trás. Um assistente inteligente lançado por uma startup de grandes modelos pode suportar a entrada de 200.000 caracteres chineses, o que equivale a cerca de 400.000 tokens. Além disso, uma nova tecnologia desenvolvida por uma equipe de pesquisa, LongLoRA, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens.
Atualmente, muitas das principais empresas e instituições de grandes modelos, incluindo OpenAI, Anthropic e Meta, estão a focar na expansão do comprimento de contexto como uma direção de atualização prioritária. Essas empresas são, sem exceção, muito apreciadas pelos investidores.
Então, por que as empresas de grandes modelos valorizam tanto a tecnologia de textos longos? O que significa expandir a extensão do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode processar textos de entrada cada vez mais longos, com uma capacidade de leitura cada vez mais forte. Desde o início, quando só conseguia entender textos curtos, até agora, quando pode compreender facilmente um romance longo.
A um nível mais profundo, a tecnologia de texto longo está a impulsionar a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. A capacidade de resumo de documentos longos, compreensão de leitura e perguntas e respostas é a chave para a atualização inteligente nesses campos.
No entanto, é importante notar que suportar entradas de contexto mais longas não é o mesmo que um melhor desempenho do modelo. Estudos mostram que o uso do conteúdo do contexto pelo modelo é o que realmente importa.
Atualmente, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda está longe de atingir o limite. 400 mil tokens pode ser apenas o começo.
Por que "enrolar" textos longos?
O fundador de uma grande empresa de modelos declarou que a limitação do comprimento de entrada é a razão pela qual muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta também é a razão pela qual muitas empresas estão focadas em tecnologias de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à falta de capacidade para lidar com textos longos, os personagens virtuais esquecem informações importantes. Ao desenvolver jogos do tipo "murder mystery", o comprimento do prompt não é suficiente, o que leva a uma redução nas regras e definições, afetando a experiência do jogo. Em áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo também são frequentemente prejudicadas.
A tecnologia de long text desempenha um papel importante no caminho para aplicações nativas de Agent e AI no futuro. Os Agents precisam depender de informações históricas para tomar decisões de planejamento, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência de usuário coerente e personalizada.
O fundador acredita que o limite do grande modelo é determinado pela capacidade de um único passo e pelo número de passos de execução. A capacidade de um único passo está relacionada à quantidade de parâmetros, enquanto o número de passos de execução refere-se ao comprimento do contexto.
A tecnologia de texto longo pode resolver alguns problemas que os grandes modelos enfrentaram no início, melhorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos gerais de LLM para Long LLM.
O novo assistente inteligente lançado por uma empresa mostrou algumas funcionalidades aprimoradas do modelo grande da fase Long LLM:
Estes exemplos mostram que os chatbots estão a evoluir numa direção de especialização, personalização e profundidade, o que pode ser uma nova alavanca para a aplicação industrial e a implementação de super aplicativos.
No entanto, ainda há espaço para otimização em cenários de diálogo de longas mensagens no mercado atual. Por exemplo, não suportar a obtenção de informações atualizadas pela internet, não ser capaz de pausar o processo de geração, e ocasionalmente apresentar informações incoerentes.
A "tríade impossível" do longo texto
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" de comprimento de texto, atenção e poder computacional:
Isto deve-se principalmente ao fato de que a maioria dos modelos é baseada na estrutura Transformer. O mecanismo de auto-atenção faz com que a carga de cálculo cresça quadraticamente com o comprimento do contexto.
Algumas pesquisas mostram que um contexto excessivamente longo pode levar a uma diminuição na proporção de informações relevantes, aumentando a distração da atenção. Isso constitui um paradoxo entre o comprimento do texto e a atenção.
Ao mesmo tempo, a tecnologia para quebrar textos mais longos tem que consumir mais poder de computação. Mas na implementação real, as empresas muitas vezes não conseguem fornecer suporte suficiente de poder de computação. Isso cria uma contradição entre o comprimento do texto e o poder de computação.
Atualmente, existem três soluções principais:
A primeira solução é dar ao modelo um "hack", dividindo o texto longo em vários textos curtos para processamento.
A segunda solução é reestruturar a forma de cálculo da autoatenção, como a tecnologia LongLoRA que agrupa o cálculo de textos longos.
A terceira opção foca na otimização de modelos, como o LongLLaMA, que realiza a extrapolação de sequências mais longas através de ajuste fino.
O dilema do "triângulo impossível" em textos longos ainda não tem solução, mas já esclareceu o caminho a ser explorado: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, lidando com informações suficientes, enquanto considera as limitações de cálculo de atenção e de custo computacional.