Google schlägt Sora 2 in Benchmarks

Einklappen
X
 
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • master
    Administrator
    • 02.09.2024
    • 5244

    #1

    Google schlägt Sora 2 in Benchmarks


    Nano Banana












    Kurzfassung





    Quellen








    Google hat Veo 3.1 veröffentlicht, ein Update für sein KI-Videomodell, das erstmals nativen Ton erzeugen kann.
    Neue Funktionen wie "Insert" erlauben das nachträgliche Hinzufügen von Objekten in erstellte Videos.
    Die Neuerungen sind in Googles Bearbeitungstool "Flow" integriert und sollen die kreative Kontrolle verbessern.
    Seit dem Start von Flow wurden mit der Technologie bereits über 275 Millionen Videos generiert.







    Google Blog
    Google Developers Blog
    Google DeepMind
    Google Cloud Vertex AI
    TechCrunch


    Google DeepMind hat mit Veo 3.1 ein bedeutendes Upgrade für sein KI-Videomodell veröffentlicht. Die neue Version verbessert nicht nur die Bildqualität und die Genauigkeit bei der Umsetzung von Texteingaben, sondern übertrifft in direkten Vergleichen auch den Vorgänger Veo 3 und Konkurrenzmodelle wie Sora 2. Besonders die gesteigerte Konsistenz und der filmische Realismus stehen im Fokus. Besser, schärfer und verständiger Der Sprung von Version 3 zu 3.1 zeigt sich vor allem in drei Kernbereichen. Veo 3.1 erzeugt Videos mit höherem Realismus, insbesondere bei Texturen und der Darstellung von physikalischen Eigenschaften. Zudem wurde die sogenannte Prompt-Treue verbessert, das Modell setzt also die Anweisungen des Nutzers genauer und mit weniger Fehlinterpretationen um. Die wohl wichtigste Neuerung ist die gesteigerte Konsistenz. Charaktere und Objekte behalten über mehrere Szenen hinweg ihr Aussehen und ihre Eigenschaften bei, ein ent*******nder Faktor für erzählerische Inhalte. Frühere Schwächen, wie plötzliche Veränderungen im Hintergrund oder bei Gesichtern, wurden gezielt adressiert.


    Veo 3.1 dominiert im direkten Vergleich Google untermauert die Fortschritte mit neuen Benchmark-Ergebnissen. In von Menschen durchgeführten Side-by-Side-Bewertungen wurde Veo 3.1 klar vor Veo 3 und führenden Konkurrenzmodellen eingestuft. Bei der visuellen Qualität bevorzugten die Tester in 54,6 Prozent der Fälle Veo 3.1 gegenüber Veo 3. Noch deutlicher fällt das Ergebnis bei der Genauigkeit der Prompts aus. Hier sahen die menschlichen Bewerter Veo 3.1 in 59,8 Prozent der Vergleiche vorne. Diese Zahlen deuten darauf hin, dass Google nicht nur die Ästhetik, sondern vor allem das grundlegende Verständnis und die zuverlässige Umsetzung von kreativen Ideen verbessert hat. + Quelle: Google - Benchmark über mehrere Kategorien, Veo 3.1 vs andere Bildgeneratoren. Bearbeitung direkt in der Szene Ein weiterer ent*******nder Fortschritt sind die neuen Bearbeitungswerkzeuge. Mit der "Insert"-Funktion können Nutzer jetzt beliebige Objekte nachträglich in eine generierte Szene einfügen. Die KI analysiert dabei selbstständig Lichtverhältnisse, Schatten und den Stil des Videos, um das neue Element nahtlos zu integrieren. Google hat zudem angekündigt, dass bald eine "Remove"-Funktion folgen wird. Diese soll es ermöglichen, unerwünschte Objekte oder Personen aus einem Clip zu entfernen, während die KI den Hintergrund intelligent rekonstruiert. Diese Werkzeuge heben die Technologie von einer reinen Generierungs-KI zu einem interaktiven Bearbeitungstool.


    Der Ton macht das Video Die größte funktionale Erweiterung von Veo 3.1 ist die native Audio-Generierung. Das Modell erzeugt nun passenden Ton direkt zusammen mit dem Videomaterial. Nutzer können in ihren Prompts nicht nur die visuellen Aspekte, sondern auch Geräusche, Dialoge oder die musikalische Stimmung beschreiben. Dieser integrierte Ansatz vereinfacht den Produktionsprozess erheblich, da keine separaten Werkzeuge für die Vertonung mehr nötig sind. Die KI synchronisiert den Ton mit den visuellen Ereignissen im Clip. Veo 3.1 ist ab sofort in Googles Videobearbeitungstool Flow sowie über die Gemini API und Vertex AI verfügbar.

    Weiterlesen...
Lädt...