Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações


OpenAIO modelo o1 da empresa mostrou que o escalonamento do tempo de inferência – usando mais cálculos durante a inferência – pode aumentar significativamente as capacidades de raciocínio de um modelo de linguagem. LLaVA-o1um novo modelo desenvolvido por pesquisadores de várias universidades na China traz esse paradigma para Vision Language Models (VLM) de código aberto.

Os primeiros VLMs de código aberto normalmente usavam uma abordagem de previsão direta, gerando respostas sem pensar no desafio e nas etapas necessárias para resolvê-lo. Sem um processo de raciocínio estruturado, são menos eficazes em tarefas que exigem raciocínio lógico. Técnicas avançadas de estímulo, como o estímulo de cadeia de pensamento (CoT), em que o modelo é incentivado a gerar etapas intermediárias de raciocínio, produzem algumas melhorias marginais. Mas os VLMs geralmente produzem erros ou alucinações.

Os investigadores descobriram que um problema chave é que o processo de raciocínio nos VLMs existentes não é suficientemente sistemático e estruturado. Os modelos não geram cadeias de raciocínio e muitas vezes ficam presos em processos de raciocínio onde não sabem em que fase se encontram e que problema específico têm de resolver.

“Observamos que os VLMs muitas vezes iniciam respostas sem organizar adequadamente o problema e as informações disponíveis”, escrevem os pesquisadores. “Além disso, muitas vezes desviam-se do raciocínio lógico em direcção a conclusões, em vez de apresentarem prematuramente uma conclusão e depois tentarem justificá-la. Como os modelos de linguagem geram respostas token-by-token, uma vez introduzida uma inferência falsa, o modelo geralmente continua no caminho errado de raciocínio.

Raciocínio multinível

OpenAI o1 usa escalonamento de tempo de inferência para resolver o problema de raciocínio sistemático e estruturado, permitindo que o modelo faça uma pausa e verifique seus resultados à medida que resolve o problema de forma incremental. Embora a OpenAI não tenha divulgado muitos detalhes sobre o mecanismo subjacente do o1, seus resultados mostram direções promissoras para melhorar as capacidades de raciocínio dos modelos subjacentes.

Inspirados em o1, os pesquisadores projetaram o LLaVA-o1 para realizar o raciocínio passo a passo. Em vez de gerar uma cadeia de raciocínio direta, o LLaVA-o1 divide o processo de raciocínio em quatro fases distintas:

Resumo: O modelo primeiro fornece um resumo de alto nível da questão e descreve o principal problema a ser abordado.

Rubrica: Se houver imagem, o modelo descreve as partes relevantes, focando nos elementos relacionados à questão.

Raciocínio: Com base no resumo, o modelo executa um raciocínio lógico estruturado para derivar uma resposta provisória.

Conclusão: Por fim, o modelo apresenta um breve resumo da resposta com base na consideração anterior.

Apenas a fase de fechamento fica visível para o usuário; as outras três fases representam o processo de raciocínio interno do modelo, semelhante ao traço de raciocínio oculto o1. Esta abordagem estruturada permite que o LLaVA-o1 controle seu processo de raciocínio de forma independente, levando a um melhor desempenho em tarefas complexas.

“Esta abordagem estruturada permite que o modelo controle de forma independente o seu processo de raciocínio, melhorando a sua adaptabilidade e desempenho em tarefas de raciocínio complexas”, escrevem os investigadores.

Pesquisa de feixe de nível de fase (direita) vs. outras técnicas de escala de tempo de inferência Fonte: arXiv

LLaVA-o1 também introduz uma nova técnica de escalonamento de tempo de inferência chamada “rastreamento de raio em nível de fase”. A pesquisa de feixe em nível de fase gera múltiplas saídas candidatas em cada fase de raciocínio. Em seguida, seleciona o melhor candidato em cada etapa para continuar o processo de geração. Isto contrasta com a abordagem clássica melhor de N, na qual o modelo é solicitado a gerar múltiplas respostas completas antes de selecionar uma.

“Em particular, é o design estruturado da saída do LLaVA-o1 que torna esta abordagem viável e permite uma verificação eficiente e precisa em cada estágio”, escrevem os pesquisadores. “Isso valida a eficácia da produção estruturada na melhoria da escala de tempo inferencial.”

Treinamento LLaVA-o1

Datas de treinamento Llava o1
Os dados de treinamento LLaVA-o1 são anotados com GPT-4o Fonte: arXiv

Para treinar o LLaVA-o1, os pesquisadores compilaram um novo conjunto de dados de aproximadamente 100.000 pares de imagens-perguntas-respostas obtidos de vários conjuntos de dados VQA amplamente utilizados. O conjunto de dados cobre uma variedade de tarefas, desde respostas a perguntas em várias voltas até interpretação de gráficos e raciocínio geométrico.

Os pesquisadores usaram o GPT-4o para gerar processos de raciocínio detalhados em quatro estágios para cada exemplo, incluindo resumo, legenda, reflexão e conclusão.

Os pesquisadores então ajustaram o Llama-3.2-11B-Vision-Instruct neste conjunto de dados para obter o modelo LLaVA-o1 final. Os pesquisadores não divulgaram o modelo, mas planejam lançar um conjunto de dados chamado LLaVA-o1-100k.

LLaVA-o1 em ação

Os pesquisadores avaliaram o LLaVA-o1 em diversas medidas multimodais de raciocínio. Embora o LLaVA-o1 tenha sido treinado apenas em 100.000 exemplos, ele mostrou uma melhoria significativa de desempenho em relação ao modelo Llama de linha de base, com um aumento médio na pontuação de benchmark de 6,9%.

Resultados do LLaVA-o1
LLaVA-o1 vs outros modelos abertos e fechados Fonte: arXiv

Além disso, a busca do feixe em nível de fase resultou em ganhos adicionais de desempenho, demonstrando a eficácia do escalonamento da inferência ao longo do tempo. Devido às limitações de recursos computacionais, os pesquisadores só conseguiram testar a técnica com um tamanho de feixe 2. Eles esperam melhorias ainda maiores com tamanhos de feixe maiores.

Impressionantemente, o LLaVA-o1 superou não apenas outros modelos de código aberto do mesmo tamanho ou maiores, mas também alguns modelos de código fechado, como o GPT-4-o-mini e o Gemini 1.5 Pro.

“LLaVA-o1 estabelece um novo padrão para raciocínio multimodal em VLM, oferecendo desempenho robusto e escalabilidade, especialmente em tempo de inferência”, escrevem os pesquisadores. “Nosso trabalho abre caminho para pesquisas futuras sobre raciocínio estruturado em VLM, incluindo extensão potencial com validadores externos e o uso de aprendizagem por reforço para melhorar ainda mais as capacidades complexas de raciocínio multimodal.”


Source link