Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações
A gigante chinesa do comércio eletrônico Alibaba lançou o modelo mais recente de sua família Qwen, em constante expansão. Isso é conhecido como Qwen with Questions (QwQ) e serve como o mais recente concorrente de código aberto do modelo de raciocínio OpenAI.
Tal como outros grandes modelos de raciocínio (LRMs), o QwQ utiliza ciclos de computação adicionais durante a inferência para verificar as suas respostas e corrigir os seus erros, tornando-o mais adequado para tarefas que requerem raciocínio lógico e planeamento, tais como matemática e codificação.
O que é Qwen with Questions (OwQ?) e pode ser usado para fins comerciais?
Alibaba lançou uma versão do QwQ com 32 bilhões de parâmetros com um contexto de 32.000 tokens. O modelo está atualmente em versão prévia, o que significa que versões mais poderosas provavelmente virão a seguir.
De acordo com os testes do Alibaba, o QwQ supera o o1-preview nos benchmarks AIME e MATH, que avaliam habilidades matemáticas de resolução de problemas. Também supera o1-mini no GPQA, uma referência para raciocínio científico. QwQ é pior que o1 nos testes de codificação do LiveCodeBench, mas ainda supera outros modelos limítrofes, como GPT-4o e Claude 3.5 Sonnet.
O QwQ não vem acompanhado de um documento que descreva os dados ou processos utilizados para treinar o modelo, dificultando a reprodução dos resultados do modelo. No entanto, como o modelo é aberto, ao contrário do OpenAI o1, o seu “processo de pensamento” não está oculto e pode ser usado para compreender como o modelo raciocina na resolução de problemas.
Alibaba também lançou o modelo sob a licença Apache 2.0, o que significa que pode ser usado para fins comerciais.
“Descobrimos algo profundo”
De acordo com um postagem no blog que foi publicado com o lançamento do modelo: “Através de pesquisas profundas e inúmeros testes, descobrimos algo profundo: quando temos tempo para pensar, questionar e refletir, a compreensão do modelo sobre matemática e programação floresce como uma flor se abrindo para o sol.” … Este processo de reflexão cuidadosa e autoquestionamento leva a avanços notáveis na resolução de problemas complexos.”
Isso é muito semelhante ao que sabemos sobre como funcionam os modelos de raciocínio. Ao gerar mais tokens e verificar suas respostas anteriores, os modelos têm maior probabilidade de corrigir possíveis erros. Marco-o1, outro modelo de raciocínio lançado recentemente pelo Alibaba, também pode conter dicas de como o QwQ poderia funcionar. Marco-o1 usa Pesquisa de árvore de Monte Carlo (MCTS) e autorreflexão no momento da inferência para criar diferentes ramos de raciocínio e selecionar as melhores respostas. O modelo foi treinado em uma mistura de exemplos de Cadeias de Pensamento (CoT) e dados sintéticos gerados usando algoritmos MCTS.
Alibaba aponta que o QwQ ainda tem limitações, como misturar linguagens ou ficar preso em loops circulares de raciocínio. O modelo está disponível para download em Abraço facial e uma demonstração online pode ser encontrada em Espaços para abraçar o rosto.
A era do LLM dá lugar ao LRM: grandes modelos de raciocínio
O lançamento do o1 despertou um interesse crescente na construção de LRMs, embora não se saiba muito sobre como o modelo funciona nos bastidores, além do uso de uma escala de tempo inferencial para melhorar as respostas do modelo.
Agora existem vários concorrentes chineses do o1. O laboratório chinês de IA DeepSeek lançou recentemente o R1-Lite-Preview, seu concorrente o1, que atualmente está disponível apenas através da interface de chat online da empresa. O R1-Lite-Preview supostamente supera o o1 em vários benchmarks importantes.
Outro modelo lançado recentemente é o LLaVA-o1, desenvolvido por pesquisadores de diversas universidades da China, que traz o paradigma de raciocínio em tempo de inferência para modelos de linguagem de visão (VLM) de código aberto.
O foco no LRM surge em um momento de incerteza sobre o futuro das leis de escala de modelos. Notícias mostram que laboratórios de IA como OpenAI, Google DeepMind e Anthropic têm retornos decrescentes com o treinamento de modelos maiores. E gerar volumes maiores de dados de treinamento de qualidade é cada vez mais difícil porque os modelos já são treinados em trilhões de tokens coletados na Internet.
Entretanto, a escala de tempo de inferência oferece uma alternativa que poderá proporcionar outro avanço na melhoria das capacidades dos modelos de IA da próxima geração. Há relatos de que OpenAI é usando o1 para gerar dados de raciocínio sintético para treinar a próxima geração de seus LLMs. O lançamento de modelos de mente aberta provavelmente estimulará o progresso e tornará o espaço mais competitivo.
Source link