Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


O número de modelos de geração de vídeo AI continua a crescer com um novo, Fluxo Pirâmidelançado esta semana e oferecendo videoclipes de alta qualidade com até 10 segundos de duração – rapidamente e todos de código aberto.

Desenvolvido por uma colaboração de pesquisadores da Universidade de Pequim, da Universidade de Correios e Telecomunicações de Pequim e da Kuaishou Technology – esta última a criadora do bem avaliado gerador de vídeo proprietário Kling AI – o Pyramid Flow aproveita uma nova técnica em que um único modelo de IA gera vídeo em etapas, a maioria delas de baixa resolução, guardando apenas uma versão em resolução máxima para o final do seu processo de geração.

Está disponível como código bruto para download em Abraçando o rosto e GitHube pode ser executado em um shell de inferência aqui mas exige que o usuário baixe e execute o código do modelo em sua própria máquina.

Na inferência, o modelo pode gerar um vídeo 384p de 5 segundos em apenas 56 segundos – no mesmo nível ou mais rápido do que muitos equivalentes de difusão de sequência completa – embora o Gen 3-Alpha Turbo da Runway ainda leve bolo em termos de velocidade de geração de vídeo AI , chegando em menos de um minuto e muitas vezes de 10 a 20 segundos em nossos testes.

Ainda não tivemos a oportunidade de testar o Pyramid Flow, mas os vídeos postados pelos criadores do modelo parecem ser incrivelmente realistas, com resolução alta o suficiente e atraentes – análogos aos de ofertas proprietárias. Você pode ver vários exemplos aqui em seu Página do projeto no Github.

Na verdade, o Pyramid Flow está disponível agora, projetado para download e uso – mesmo para fins comerciais/empresariais – e foi projetado para competir diretamente com ofertas proprietárias pagas, como Gen-3 Alpha da Runway, Dream Machine da Luma, Kling e Haulio, que podem custar centenas de até milhares de dólares por ano para usuários com assinaturas de geração ilimitada.

À medida que a corrida entre vários provedores de vídeo de IA para ganhar usuários continua, o Pyramid Flow visa trazer mais eficiência e flexibilidade para desenvolvedores, artistas e criadores que buscam recursos avançados de geração de vídeo.

Uma nova técnica para vídeos de IA de alta qualidade: ‘correspondência de fluxo piramidal’

A geração de vídeo de IA é uma tarefa computacionalmente intensiva que normalmente envolve a modelagem de grandes espaços espaço-temporais. Os métodos tradicionais muitas vezes exigem modelos separados para diferentes estágios do processo, o que limita a flexibilidade e aumenta a complexidade do treinamento.

Pyramid Flow é construído sobre o conceito de correspondência de fluxo piramidal, um método que reduz drasticamente o custo computacional de geração de vídeo, mantendo ao mesmo tempo alta qualidade visual, completando o processo de geração de vídeo como uma série de estágios de “pirâmide”, com apenas o estágio final operando. em resolução total.

Está descrito em um artigo pré-revisado, “Correspondência de fluxo piramidal para modelagem generativa de vídeo eficiente,” submetido a revista científica de acesso aberto arXiv em 8 de outubro de 2024.

Os autores incluem Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu e Zhouchen Lin. A maioria desses pesquisadores é afiliada à Universidade de Pequim, enquanto outros são da Kuaishou Technology. .

Conforme escrevem, a capacidade de compactar e otimizar a geração de vídeo em diferentes estágios leva a uma convergência mais rápida durante o treinamento, permitindo que o Pyramid Flow gere mais amostras por lote de treinamento.

Por exemplo, o fluxo piramidal proposto reduz a contagem de tokens por um fator de quatro em comparação com os modelos de difusão tradicionais, o que resulta em um treinamento mais eficiente.

O modelo pode produzir vídeos de 5 a 10 segundos com resolução de 768p e 24 quadros por segundo, ao mesmo tempo que é treinado em conjuntos de dados de código aberto. Especificamente, o artigo afirma que o Pyramid Flow foi treinado em:

  • LAION-5B, um grande conjunto de dados para pesquisa de IA multimodal.
  • CC-12M, um conjunto de dados de pares de imagem-texto rastreados na web.
  • SA-1B, que apresenta imagens não desfocadas e de alta qualidade.
  • WebVid-10M e OpenVid-1M, que são conjuntos de dados de vídeo amplamente utilizados para geração de texto para vídeo.

No total, os autores fizeram a curadoria de aproximadamente 10 milhões de vídeos únicos.

No entanto, muitos desses conjuntos de dados “públicos” ou de “código aberto” têm sido criticados nos últimos anos por críticos por incluir material protegido por direitos autorais sem permissão ou consentimento informado dos detentores dos direitos autorais, e LAION-5B em particular acusado de hospedar material de abuso sexual infantil.

Separadamente, a Runway está entre as empresas processadas por artistas em uma ação coletiva por treinamento em materiais sem permissão, compensação ou consentimento – supostamente em violação dos direitos autorais dos EUA. O caso continua sendo discutido na Justiça, por enquanto.

Código aberto e licenciado permissivamente para uso comercial

Pyramid Flow é liberado sob o MINHA Licençapermitindo uma ampla gama de usos, incluindo aplicações comerciais, modificações e redistribuição, desde que o aviso de direitos autorais seja preservado.

Isso torna o Pyramid Flow uma opção atraente para desenvolvedores e empresas que buscam integrar o modelo em sistemas proprietários e pode desafiar a Luma AI e a Runway, já que ambas buscam oferecer interfaces de programação de aplicativos pagos para desenvolvedores que buscam integrar sua tecnologia proprietária de geração de vídeo de IA no cliente ou aplicativos voltados para funcionários.

No entanto, esses modelos proprietários já existem como inferências adequadas para desenvolvedores, embora o Pyramid Flow tenha uma inferência de demonstração no Hugging Face, não é adequado para construir aplicativos completos sobre ele e os usuários precisariam hospedar sua própria versão de uma inferência, que também poderia ser caro, apesar do próprio modelo ser “gratuito”.

Além disso, o Pyramid Flow pode ser atraente para estúdios de cinema que buscam aproveitar a IA para ganhar eficiência, cortar custos e explorar novas ferramentas criativas. Um grande estúdio cinematográfico, Lionsgate — proprietário do John Wick e Crepúsculo franquias de filmes, entre muitos outros blocos – recentemente fecharam um acordo por uma quantia não especificada com a Runway para treinar um modelo personalizado de geração de vídeo de IA. Além disso, Titânico e Exterminador do Futuro o diretor James Cameron juntou-se ao conselho do provedor de modelos de imagem e vídeo AI Stability (este último também sujeito à mesma ação coletiva de artistas que Runway).

Usando o Pyramid Flow, a Lionsgate ou qualquer outro estúdio de cinema poderia ajustar a versão de código aberto sem pagar uma empresa terceirizada. No entanto, eles ainda precisariam ter em mãos ou contratar o talento de desenvolvedor e os recursos computacionais necessários para fazê-lo, o que pode tornar a parceria com fornecedores de IA estabelecidos, como a Runway, mais atraente, uma vez que essa empresa e outras semelhantes já possuem a engenharia de IA talento à sua disposição internamente.

A equipe de pesquisa por trás do Pyramidal Flow Matching também assumiu um compromisso com a abertura e a acessibilidade. Todos os pesos de códigos e modelos serão disponibilizados gratuitamente ao público através de seus página oficial do projetogarantindo que pesquisadores e desenvolvedores em todo o mundo possam utilizar e desenvolver este trabalho.

Apesar de seus pontos fortes, o Pyramid Flow tem algumas limitações. Por enquanto, faltam alguns dos recursos avançados de ajuste fino encontrados em modelos como Runway Gen-3 Alpha, que oferece controle preciso sobre elementos cinematográficos como ângulos de câmera, quadros-chave e gestos humanos. Da mesma forma, o Dream Machine da Luma oferece opções avançadas de controle de câmera que o Pyramid Flow ainda está alcançando.

Além disso, o lançamento relativamente recente do Pyramid Flow significa que o seu ecossistema – embora robusto – não é tão maduro como o dos seus concorrentes.

Olhando para o futuro: a corrida de vídeos de IA não mostra sinais de desaceleração

À medida que o mercado de geração de vídeo de IA continua a evoluir, o lançamento do Pyramid Flow sinaliza uma mudança em direção a soluções mais acessíveis e de código aberto que podem competir com ofertas proprietárias, como Runway e Luma.

Por enquanto, oferece uma alternativa sólida para quem procura evitar o custo e as limitações dos modelos fechados, ao mesmo tempo que oferece uma qualidade de vídeo impressionante, a par dos seus homólogos mais comerciais.

Nos próximos meses, os desenvolvedores e criadores provavelmente ficarão de olho no crescimento do Pyramid Flow. Com potencial para melhorias e otimizações adicionais, ele poderia muito bem se tornar uma ferramenta indispensável no arsenal de criadores de conteúdo de vídeo em todos os lugares. Todas as empresas e investigadores lutam atualmente pela supremacia tecnológica e pelos utilizadores.

Enquanto isso, Sora da OpenAI, exibido pela primeira vez em fevereiro de 2024, ainda não foi visto em lugar nenhum – fora de suas colaborações com um punhado de pequenos usuários alfa iniciais.