30.6.2025 – Im Frühjahr hat Google das neue Format VEO 3 vorgestellt. Damit können KI-generierte Videos produziert werden, die verblüffend real wirken. Dr. Robin Kiera, CEO der Marketingagentur Digitalscouting in Hamburg, hat mit der neuen Technik gearbeitet. Im Interview mit dem VersicherungsJournal erzählt der Digitalexperte von seinen Erfahrungen.

VersicherungsJournal: Was genau kann VEO 3 und wie kann man damit Clips erstellen?

Robin Kiera (Bild: privat)

Dr. Robin Kiera: VEO 3 ist ein Meilenstein. Es erzeugt aus einem einzigen Texteingabebefehl – dem sogenannten Prompt – komplette Videos: Kamera, Musik, Bewegung, Sprache, sogar Lippenbewegungen sind integriert. Und zwar innerhalb von Minuten.

Das gab es in dieser Qualität noch nicht. Was früher ein Filmteam, ein Studio und sechs- bis siebenstellige Budgets gebraucht hätte, macht VEO 3 quasi auf Knopfdruck.

Aber – und das ist entscheidend – es funktioniert nur gut, wenn man selbst genau weiß, wie man eine gute Szene aufbaut. Wer nicht weiß, wie man Licht, Perspektive und Dramaturgie einsetzt, bekommt mit KI eben auch nur mittelmäßige Ergebnisse.

Anders gesagt: Wer vorher schon keine Reichweite hatte, wird durch Künstliche Intelligenz (KI) nicht automatisch zum viralen Hit. Außerdem hat VEO 3 noch erhebliche technische Hürden.

Digital erstellte Bildsequenzen wirken bislang oft noch reichlich unnatürlich. Wie sehen hier die Ergebnisse aus, welchen Eindruck machen die Videos, die mit der neuen Technologie erstellt werden?

Ehrlich? Teilweise spektakulär. In den besten Fällen sieht man kaum, dass es KI-generiert ist. Gerade bei Kamerafahrten, dramatischem Licht oder cineastischen Momenten ist der Wow-Effekt groß.

Was die Kombination aus Realismus, Synchronität und Tempo betrifft, ist VEO 3 derzeit überlegen. Während andere Tools wie Runway, Kaiber oder Pika oft animierte oder stilisierte Szenen erzeugen, geht Google in Richtung realer Spielfilm-Optik. Das ist ein gewaltiger Qualitätssprung.

Aber – und das ist das zweite große Aber – es gibt auch viele Szenen, die technisch noch wackeln: Hände, Übergänge, Mimik, Verhalten von digitalen Charakteren, die keinen Sinn ergeben. Man braucht nun nicht mehr nur viel Wissen über Zielgruppe und Algorithmen, sondern auch viel Wissen, wie man mit spezifischen Prompts nutzbare Ergebnisse erzielt.

VEO 3 – Beispielvideos Digitalscouting hat einige Beispielvideos mit dem Google-Tool erstellt (in englischer Sprache). Sie können unter folgenden Links aufgerufen werden: Video Motorradunfall Video Unternehmensführung

Es funktioniert dann doch noch einiges nicht so gut in der Anwendung.

Vieles. Derzeit sind Videos auf acht Sekunden begrenzt. Das reicht für kurze Teaser, aber nicht für komplexes Storytelling. Die KI spricht nur Englisch, kein Deutsch. Und wenn man mit deutschen Voice-overs arbeitet, funktioniert die Lippenbewegung nicht mehr richtig. Auch Charaktere lassen sich meist nicht über mehrere Szenen hinweg konsistent darstellen.

Wer also eine durchgehende Geschichte erzählen will, kann VEO 3 noch nicht gebrauchen. Deswegen sind die meisten Videos, die man im Internet findet, auch lustige Straßenumfragen von unterschiedlichen Menschen und Charakteren. Außerdem ist die Bedienung anspruchsvoll – ohne Verständnis für Film, Algorithmen der Plattformen und Kommunikation läuft man ins Leere.

Ferner ist es fast unmöglich, echte Menschen in KI-Videos zu integrieren. Klar können Sie Fotos oder Videos der KI als Vorlage geben, aber wie im Beispielvideo macht die KI noch, was sie will, und liefert keine „authentischen” Bilder und Videos. Das heißt, überall dort, wo echte Menschen vom Unternehmen erscheinen sollen (ob Vorstände oder Vermittler), kann man es (noch) nicht einsetzen.

Auch schafft es das Tool nicht, Vorlagen aus der echten Welt von Gebäuden oder Städten umzusetzen. Wenn Sie VEO3 sagen: „Erstelle einen Drohnenflug über Hamburg“, dann sieht das Ergebnis eher aus wie Venedig mit roten Backsteinen. Gerade etablierte Unternehmen mit hohen Leistungsversprechen wie unsere Branche können sich solche „Fehler” nicht erlauben.

Videos mit einer Länge von maximal acht Sekunden: Da denkt man eher an Tiktok als an Erklärvideos, die der internen oder externen Kommunikation dienen. Wo sehen Sie Einsatzmöglichkeiten bei Versicherern und im Vertrieb?

Genau hier liegt die spannende Chance: Versicherer denken oft in Minuten, die Zielgruppen aber in Sekunden. Acht-Sekunden-Formate sind ideal für Tiktok, Instagram Reels, Youtube Shorts oder auch Linkedin. Man kann ja auch mehrere Acht-Sekunden-Videos zusammenschneiden. Aber auch hier bedarf es einfach der Erfahrung, was die Zielgruppe und die Algorithmen der Plattformen wollen.

Eines ist aber wirklich gut: Für interne Kommunikation oder Kampagnen lassen sich Ideen schnell visualisieren und mit wenig Aufwand testen – das spart Zeit und Geld. Sie können also Ideen und Storys mit digitaler Videoproduktion testen, bevor sie viel Geld in die Planung von großen Produktionen stecken.

Könnte auch ein Versicherungsvermittler diese Technologie für sein Unternehmen und in der Kundenansprache anwenden? Was müsste er mitbringen an technischer Ausrüstung, und braucht es Erfahrung in der Videoproduktion?

Ein Makler mit Social-Media-Affinität, einem Handy, einem Laptop und dem Willen zu lernen – ja, der kann loslegen. Technisch braucht es keine High-End-Ausrüstung. Aber: Es braucht Wissen.

Man muss wissen, wie Zielgruppen ticken, wie ein Video aufgebaut sein muss, was eine gute Bildsprache ist. Wer damit noch nie gearbeitet hat, wird mit VEO 3 nicht glücklich. Wer dagegen schon virale Clips produziert hat, bekommt ein neues, mächtiges Werkzeug an die Hand. Die Formel lautet: KI verstärkt Können – aber ersetzt es nicht.

Die brutale Wahrheit über KI wie VEO 3 ist, dass die Einstiegshürde immer, immer größer wird. Es braucht Vorbereitung, mehrere Versuche und man ist auf 180 Video-Generierungen pro Monat begrenzt. Für Unternehmen mit klarer Strategie, definierten Zielgruppen und professionellem Content-Ansatz kann sich das jetzt schon lohnen – insbesondere für Kreativtests. Für alle anderen gilt: anschauen, beobachten, lernen – aber nicht blind losrennen.

Offiziell ist das Tool in Deutschland noch nicht verfügbar. Wann rechnen Sie mit einer Einführung hierzulande und wann wird das Modell so ausgereift sein, dass es standardmäßig genutzt werden kann?

Ich rechne damit, dass bald erste produktive Einsätze im deutschsprachigen Raum realistisch sind – vorausgesetzt, Google arbeitet weiter mit Hochdruck an der Lokalisierung. Der Markt wird nicht auf VEO 3 warten – andere Anbieter wie Runway oder Pika Labs entwickeln sich rasant weiter. Die Technologie wird sich durchsetzen – und zwar schneller, als viele in der Branche denken.

Wo und wie werden VEO-3-Videos dann voraussichtlich ihren Weg in die Versicherungswelt finden?

Dort, wo schnelle, personalisierte Kommunikation gefragt ist: in Social Media, in Werbekampagnen, aber auch in der Maklerkommunikation, im E-Mail-Marketing, im Recruiting oder der Weiterbildung. Statt eines langen Textes: ein Acht-Sekunden-Video, das komplexe Themen emotional greifbar macht. KI wird dabei helfen, Inhalte zu skalieren – aber nur, wenn Unternehmen vorher eine Content-Kultur aufgebaut oder starke Partner an ihrer Seite haben.

Eignen sich besondere Zielgruppen, Produkte oder Vertriebssituationen für den Einsatz?

Ja – besonders Themen mit emotionalem Kern: Familie, Gesundheit, Schaden, Vorsorge. Zielgruppen unter 40, die ohnehin visuell denken. Und Vertriebssituationen, in denen Aufmerksamkeit in Sekunden gewonnen werden muss. Wer hier schnell, glaubwürdig und kreativ kommuniziert, kann VEO 3 als Turbo-Booster nutzen.

Aber: Die zentrale Frage ist nicht „Was kann die KI?“, sondern: „Was kann der Mensch, der sie nutzt?“

Die Fragen stellte