Kling, l’IA de Génération Vidéo de Kuaishou : Un Nouveau Défi pour OpenAI

En juin 2024, la société chinoise Kuaishou a dévoilé son modèle de génération vidéo par IA, Kling, qui promet de rivaliser sérieusement avec Sora d’OpenAI. Malgré l’absence encore marquée de Sora sur le marché, Kling se positionne déjà comme une alternative puissante et accessible au public. Développé par une équipe spécialisée dans la création de modèles d’IA, Kling se distingue par des caractéristiques techniques impressionnantes et une flexibilité adaptée aux besoins divers des utilisateurs.

Des Images en 1080p et 30 FPS

Kling présente des spécifications techniques particulièrement attractives pour les professionnels de l’audiovisuel. Il est capable de produire des vidéos en haute définition (1080p) à une fréquence de 30 images par seconde. De plus, Kling peut générer des vidéos d’une durée allant jusqu’à deux minutes, soit une minute de plus que son concurrent Sora. Cette flexibilité s’étend également aux formats de sortie : grâce à une stratégie d’entraînement à résolution variable, Kling peut générer des vidéos dans une grande variété de rapports hauteur/largeur, répondant ainsi à des besoins de mise en scène et de diffusion très variés.

Une Base de Données Imposante

Si Kuaishou reste discret sur le dataset d’entraînement utilisé pour former Kling, il est probable que le modèle ait été formé sur une grande quantité de vidéos de styles différents (scènes d’action, personnages, objets, environnements). Les transcriptions associées à ces vidéos ont permis au modèle d’apprendre à faire correspondre des descriptions linguistiques à leurs représentations visuelles.

Une Architecture Technique Avancée

La transparence de Kuaishou quant à l’architecture de Kling est notable. Pour générer des vidéos à partir de prompts textuels, Kling s’appuie sur un mécanisme d’attention spatio-temporelle 3D et un modèle transformateur de type diffusion. Ce processus commence par l’encodage du prompt textuel fourni par l’utilisateur. Le modèle transforme ensuite ces représentations sémantiques en capturant les concepts clés, les actions, les objets et les relations à transposer dans la vidéo générée.

Une Concurrence Sérieuse pour Sora et VEO

En février dernier, OpenAI a présenté Sora, un modèle capable de générer des vidéos très réalistes allant jusqu’à une minute. Le mois dernier, lors de la conférence Google I/O 2024, Google a introduit VEO, étendant les capacités de Sora à plus d’une minute. Aujourd’hui, Kling émerge comme un sérieux concurrent, capable de générer des vidéos de deux minutes avec une haute définition et une fréquence d’images optimale.

Kuaishou : Une Stratégie d’IA Générative Ambitieuse

Kuaishou est surtout connu pour sa plateforme de partage de vidéos courtes, similaire à TikTok. Lancée en 2011, Kuaishou est devenue le deuxième réseau social le plus populaire en Chine et a gagné en popularité à l’international, opérant sous le nom de Kwai dans certains marchés. L’application propose une grande variété de contenus, allant des vidéos de divertissement et des défis viraux aux tutoriels et vlogs personnels.

En parallèle, l’entreprise a mis en place une stratégie d’IA ambitieuse. En août 2023, son équipe dédiée a présenté la famille de LLM KwaiYii et, plus récemment, le modèle texte-image Kolors. Kling, actuellement en phase d’essai, permet de convertir du texte en clips vidéo de deux minutes maximum avec une résolution de 1080p et une fréquence de 30 images par seconde. Kuaishou attribue ces performances à une infrastructure d’entraînement efficace, une optimisation extrême de l’inférence et une infrastructure évolutive.

Une Technologie à la Pointe

Kling, tout comme Sora, est un modèle de diffusion utilisant une architecture de transformer et une compréhension approfondie de la sémantique texte-vidéo. Sa stratégie d’entraînement à résolution variable lui permet de prendre en charge divers formats d’image. Selon Kuaishou, Kling peut simuler avec précision les propriétés du monde physique grâce à une architecture auto-développée et à de puissantes capacités de modélisation inspirées de la loi de mise à l’échelle physique du monde réel.

Le modèle adopte un mécanisme d’attention conjointe spatio-temporelle 3D, ce qui lui permet de modéliser des mouvements complexes. La technologie de reconstruction 3D du visage et du corps humain développée en interne améliore l’expression des visages et du corps à partir d’une seule image.

Source

Laisser un commentaire