Tecnologia

Intel Labs apresenta modelo de difusão de IA, gera imagens de 360 graus a partir de instruções de texto

A Intel Labs, em colaboração com a Blockade Labs, apresentou o Latent Diffusion Model for 3D (LDM3D), um novo modelo de difusão que usa IA generativa para criar conteúdo visual 3D realista. O LDM3D é o primeiro modelo do setor a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 graus que são vívidas e imersivas. O LDM3D tem o potencial de revolucionar a criação de conteúdo, aplicativos metaversais e experiências digitais, transformando uma ampla gama de setores, desde entretenimento e jogos até arquitetura e design.

“A tecnologia de IA generativa visa aumentar ainda mais e melhorar a criatividade humana e economizar tempo. No entanto, a maioria dos modelos de IA Generativa atuais limita-se a gerar imagens 2D e apenas alguns conseguem gerar imagens 3D a partir de instruções de texto. Ao contrário dos modelos de difusão estável latente existentes, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de um determinado prompt de texto usando quase o mesmo número de parâmetros. Ele fornece uma profundidade relativa mais precisa para cada pixel em uma imagem em comparação com os métodos padrão de pós-processamento para estimativa de profundidade e economiza um tempo significativo para os desenvolvedores desenvolverem cenas.”–Vasudev Lal, cientista de pesquisa de IA/ML, Intel Labs

Por que isso importa: Escala de limites de ecossistemas fechados. E o compromisso da Intel com a verdadeira democratização da IA permitirá um acesso mais amplo aos benefícios da IA por meio de um ecossistema aberto. Uma área que tem visto avanços significativos nos últimos anos está no campo da visão computacional, particularmente na IA generativa. No entanto, muitos dos modelos avançados de IA generativos atuais estão limitados a gerar apenas imagens 2D. Diferentemente dos modelos de difusão existentes, que geralmente geram apenas imagens RGB 2D a partir de solicitações de texto, o LDM3D permite que os usuários gerem uma imagem e um mapa de profundidade a partir de uma determinada solicitação de texto. Usando quase o mesmo número de parâmetros que a difusão estável latente, o LDM3D fornece uma profundidade relativa mais precisa para cada pixel em uma imagem em comparação com os métodos padrão de pós-processamento para estimativa de profundidade.

Essa pesquisa pode revolucionar como interagimos com o conteúdo digital, permitindo que os usuários experimentem seus avisos de texto de maneiras antes inconcebíveis. As imagens e os mapas de profundidade gerados pelo LDM3D permitem que os usuários transformem a descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado de 360 graus. Essa capacidade de capturar informações de profundidade pode melhorar instantaneamente o realismo geral e a imersão, possibilitando aplicativos inovadores para setores que vão desde entretenimento e jogos até design de interiores e listagens de imóveis, bem como museus virtuais e experiências imersivas de realidade virtual (VR).

Em 20 de junho, a LDM3D ganhou o prêmio de melhor pôster no workshop de 3DMV na CVPR.

Como funciona: O LDM3D foi treinado em um conjunto de dados construído a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de legenda de imagem. A equipe usou o modelo de estimativa de grande profundidade do Dense Prediction Transformer (DPT) (desenvolvido anteriormente no Intel Labs) para anotar o corpus de treinamento. O modelo DPT-large fornece uma profundidade relativa altamente precisa para cada pixel em uma imagem. O conjunto de dados LAION-400M foi desenvolvido para fins de pesquisa para permitir o treinamento de modelos de testes em escala maior para pesquisadores amplos e outras comunidades interessadas.

O modelo LDM3D é treinado em um supercomputador Intel AI com processadores Intel® Xeon® e aceleradores de IA Intel® Habana Gaudi®. O modelo e o pipeline resultantes combinam imagem RGB gerada e mapa de profundidade para gerar visualizações de 360 graus para experiências imersivas.

Para demonstrar o potencial do LDM3D, os pesquisadores da Intel e da Blockade desenvolveram o DepthFusion, um aplicativo que utiliza fotos RGB 2D padrão e mapas de profundidade para criar experiências imersivas e interativas de visualização em 360 graus. O DepthFusion utiliza o TouchDesigner, uma linguagem de programação visual baseada em nós para conteúdo multimídia interativa em tempo real, para transformar avisos de texto em experiências digitais interativas e imersivas. O modelo LDM3D é um modelo único para criar uma imagem RGB e seu mapa de profundidade, o que economiza espaço na memória e melhora a latência.

O que vem a seguir: A introdução do LDM3D e do DepthFusion abre o caminho para novos avanços na IA geradora multivisões e visão computacional. A Intel continuará explorando o uso da IA generativa para aumentar as capacidades humanas e construir um forte ecossistema de pesquisa e desenvolvimento de IA de código aberto que democratize o acesso a essa tecnologia. Continuando com o forte suporte da Intel para ecossistema aberto em IA, o LDM3D está sendo aberto através do HuggingFace. Isso permitirá que pesquisadores e profissionais de IA melhorem ainda mais este sistema e ajustem-no para aplicações personalizadas.