KI generierte Bilder und Texte – meine Einschätzung nach dem ersten Hype
In den letzten Wochen und Monaten ist ein regelrechter Hype um KI generierte Bilder und Texte entstanden. Von Berufswegen muss ich immer neugierig sein und darf die technischen Entwicklungen nicht aus den Augen lassen. Entsprechend viel habe ich mich mit dem Thema in den letzten Wochen beschäftigt. Hier meine erste Einschätzung zu dem Thema.
Das findest du in diesem Artikel:
Was ist KI?
KI (engl. AI) ist das Kürzel für “Künstliche Intelligenz” (engl. Artificial Intelligenz). Es beschreibt dabei die Fähigkeit von Computern / Maschinen, menschliche Denkmuster und Denkleistungen zu imitieren und diese (in Zukunft) zu übertreffen.
“Intelligenz” ist allerdings nicht das korrekte Wort für das, was die Computer dabei in Wirklichkeit leisten. Da man sich bei Mensch und Tier schon über die Definition von “Intelligenz” streitet, ist dies bei Computern natürlich auch ein Thema.
Die einen sehen es als gesammeltes Wissen und die Fähigkeit dieses gezielt einzusetzen, die anderen (wozu ich mich zähle) sehen es als Problemlösungsfähigkeiten in neuen Situationen unabhängig von bisherigem Wissen. Dann gibt es noch die Aspekte von sozialer Intelligenz (wie Empathie) und garantiert noch weiteren Faktoren und Definitionen, die mir an dieser Stelle entfallen sind.
Im Wesentlichen wird dabei vorausgesetzt, dass ein Individuum frei und eigenständig handeln und sich entfalten kann – grade dieser Punkt darf hinsichtlich KI bezweifelt werden, da diese immer “Sklave” ihrer Programmierung ist. Wo ich grade darüber nachdenke – das kann man auch Tier und Mensch vorhalten, hier wäre die “Programmierung” der Instinkt und natürliche, angeborene bzw. genetische Verhaltensweisen (so gesehen sind unsere Gene unsere Programmierung).
Jedenfalls waren die Anfänge der KI eher stochastische Papageien, was sie, zum Teil, immer noch sind, in perfektionierter Weise.
Die Programme arbeiten anhand einer großen Datenbasis (Datenbank bzw. Internet) und einer ausgefeilten Programmierung, welches hinsichtlich Text inzwischen sehr gut in Grammatik geschult ist und den Sinn von Wörtern kennt (mit Einschränkungen z. B. hinsichtlich Doppeldeutigkeit, Sarkasmus etc.).
In Bezug auf Bilder ist die Datenbasis dann grafisch bezogen und das Programm auf Erkennen von Mustern trainiert.
Welche Tools gibt es?
Ausgelöst hat den Hype Open AI mit seiner Text KI ChatGPT und seiner Bild KI Dall-E. Tatsächlich sind aber mehrere Produkte mehr oder weniger zeitgleich auf den Markt gekommen (u. a. auch durch den Druck, der durch den Launch von Open AI entstanden ist).
In Sachen Bildgenerierung hat sich Midjourney schnell als leistungsstarkes Tool platziert, welches in Discord funktioniert und inzwischen kostenpflichtig ist.
Ende/Mitte Mai 2023 hat Adobe die Beta von Firefly geöffnet und einige Tools (Werkzeuge) bereit gestellt. Inzwischen gibt es auch eine Beta von Photoshop, in der KI gestützte Tools implementiert wurden, z.B. um Hintergründe und Details in Bildern zu ergänzen bzw. zu entfernen.
Daneben gibt es viele weitere Tools entweder zur Bildbearbeitung (z. B. Pixelcut), zur Textgenerierung und zur Lösung von (vermeintlichen) Problemen. Wenn man es so sehen will, ist auch das beliebte Übersetzungstool DeepL eines dieser leistungsstarken KI Tools, welches inzwischen in vielen Sprachen hochwertige Übersetzungen in sekundenschnelle anfertigen kann.
Eine jeweils aktuelle Liste findest du im Forenthread zum Thema KI in der Kunst.
Welche Vorteile bringt es?
In Bezug auf Textgenerierung liegen die Vorteile für die breite Masse der Anwender auf der Hand: Sei es zur Formulierung von E-Mails, Artikeltexten (keine Sorge, dieser Text ist noch menschgeschrieben 😉 ) für Blogs oder Shops oder zur Unterstützung bei der Programmierung, Verwaltung von bspw. Tabellen und anderen Officeanwendungen, nichts, was die KI nicht in wenigen Sekunden für einen lösen könnte.
In Sachen Bildgenerierung überschlagen sich die KI-Prompt Engineerer (diejenigen, welche die “Befehle” = Prompts in die Softwareoberfläche geben) mit Experimenten und Spielereien grade selbst. Computergenerierte Bilder können in Kürze erstellt, in andere Stile übertragen und fantasievoll ausgeschmückt werden.
Besonders hilfreich ist auch die Bildbearbeitung, wie z. B. das Freistellen (Entfernen des Hintergrundes) oder Anpassen von Belichtung.
Ohne große Vorkenntnisse in Programmierung oder Bedienen von Programmen kann jetzt jeder selbst Texte erstellen und Bilder bearbeiten bzw. ganz generieren. Damit ergeben sich natürlich auch Nachteile.
Welche Probleme und Nachteile bestehen?
Weil Kunden nun nicht mehr auf Texter, Übersetzer, Fotografen oder Programmierer angewiesen sein werden, werden sich diese Berufszweige zwangsläufig anpassen (müssen). Sei es der oben erwähnte Prompt-Engineer, der daraus entsteht, oder ein Nischensegment, welches die KI (noch) nicht bedienen kann. Langfristig werden die oben erwähnten Programme Berufe überflüssig machen oder eben verändern.
Das macht momentan Vielen berechtigt Angst. Allerdings ist ja das menschliche Credo: Die Entwicklung lässt sich nicht aufhalten. Oder anders ausgedrückt:
Wer nicht mit der Zeit geht, muss mit der Zeit gehen.
Und so verstehe ich auch meinen Beruf als Mediengestalterin, welche in erster Linie Webseiten und auch Drucksachen erstellt. Es wird sich immer ein Kunde finden, der auf die Expertise von ausgebildeten Profis zurückgreifen möchte / muss. Nur muss man sich den Gegebenheiten anpassen und damit klarkommen, dass “kleine Kunden” sich eben selbst behelfen (was sie im Übrigen auch schon immer getan haben).
Allerdings: Noch ist es nicht so weit!
KI generierte Bilder kranken an fehlendem Realismus und Abwechslung. Irritierend falsche Gliedmaßen, Finger oder Gesichtspartien und das ungeklärte Thema Urheberrecht dämpfen momentan stark die Euphorie (zumindest bei mir).
Die doch eher schlechte Qualität der Bilder fällt vor allem in großen Formaten auf. In kleinen Formaten wirken die Bilder doch recht überzeugend.
In Sachen Urheberrecht müssen erste Klagen und Urteile abgewartet werden. Und ob diese nun pro Mensch oder pro KI ausfallen, wird sich noch zeigen müssen.
Gefährlich finde ich auch, dass die generierten Texte politisch manipuliert sind, die KI also nicht unbeeinflusst Daten und Fakten ausspuckt, sondern diese von den Programmierern gefärbt wurden.
Zudem darf man ausgegebene “Fakten” nicht unbesehen übernehmen. Ich habe bspw. Texte zum Thema Layoutmarker oder andere kunstbezogene Themen, bei denen ich mich auskenne, generieren lassen und war entsetzt darüber, wie viel Falsches, ja geradezu purer Blödsinn, von der KI ausgegeben worden ist.
Daher: Aufgepasst bei Themen, bei denen man sich nicht auskennt!
Mehr dazu unten in meinem Fazit.
Wie wird sich die Technik in Zukunft entwickeln?
KI generierte Bilder werden in Zukunft noch viel besser, realistischer und abwechslungsreicher werden. Das ist schon mal sicher. Irgendwann wird der Unterschied zu echten Bildern nicht mehr so ohne Weiteres erkennbar sein (womöglich wird es in Zukunft Onlinetools geben, welche für einen Text-, Bild- und Videomaterial auf künstliche Entstehung hin analysieren werden).
Insgesamt wird sich zeigen, wie weit man sich die KI überhaupt weiterentwickeln lässt, da ja nun schon erste Stimmen der Warnung zu hören sind.
Erst einmal werden die Datenbanken weiter gefüttert und die Techniken verfeinert und modernisiert werden. Durch die aktive Nutzung durch den Menschen (quasi eine große “Betaphase” für die Programmierer) lassen sich Nutzen und Probleme besser erkennen und daran arbeiten.
Mein Fazit
Die schlechte Qualität der ausgegebenen Bilder habe ich oben bereits erwähnt. Ich sehe daher derzeit nicht, dass man diese Bilder professionell nutzen kann. Das wird früher oder später, vorallem kostenpflichtig, anders sein.
Als Künstler empfinde ich die KI generierten Bilder aber als wertvolle Inspiration und Vorlage. Die Idee muss dabei aus einem selbst kommen, die Umsetzung erledigt (grob) die Software. Die hochwertige künstlerische Umsetzung kann dann der Mensch wieder übernehmen. Das sehe ich aktuell als eine tolle Symbiose.
Generell ist Kreativität eine exklusiv menschliche Kompetenz und ich hoffe, dass dies auch in Zukunft so bleiben wird.
Bei den Problemen und Nachteilen bezüglich der generierten Texte oben habe ich ja schon auf die falschen Informationen, welche von ChatGPT ausgegeben werden, hingewiesen: Dinge können einfach falsch oder unvollständig ausgegeben werden.
Wenn man sich zu einem Thema nicht auskennt, sollte man tunlichst gegen recherchieren und nicht unbesehen und unkritisch alles übernehmen.
Grade hinsichtlich Nutzung im Unterricht (was von Lehrern momentan wirklich angedacht wird) sehe ich das sehr kritisch. Ich plädiere unbedingt für ein kritisches, eigenständiges Denken, Lesekompetenz und Textverständnis, damit Schüler in die Lage versetzt werden Informationen zu beurteilen und einzuordnen.
Ja, das ist meine Idealvorstellung vom Unterricht.
Auch bei sogenannten Deepfakes (künstlich erstellte / nachgemachte Stimmen und Videos) sind die Fälschungen für das geübte Auge und Ohr noch erkennbar. Aber in einer schnelllebigen digitalen Welt wird Oberflächlichkeit und Unaufmerksamkeit nicht mehr genügen um zu entscheiden, was wahr ist und was gefälscht.
Erste Künstler machen sich inzwischen einen Spaß daraus Deepfakes von Politikern und Prominenten zu erstellen (erwähnt sei hier stellvertretend Snickers für Linkshänder, welcher in Deutschland momentan die Faktenchecker beschäftigt).
Es ist wichtig, dass man weiß, dass es solche Techniken gibt, dass sie angewendet werden (nicht nur im künstlerischen Sinne!) und dass sie besser werden. Mit Photoshop und Retusche musste man Fotos und Videos noch aufwändig manipulieren, inzwischen erledigt das KI für einen. Daher: Vorsicht und nachdenken!
Medienkompetenz war also noch nie so wichtig, wie heute. Ob nun menschlich oder KI generierte Inhalte – der Mensch, der die Ergebnisse konsumiert, sollte sich immer im Klaren darüber sein, dass Mensch und KI beide Fehler machen können (absichtlich wie unabsichtlich) und man daher, auch bei vermeintlich seriösen Quellen, nicht immer alles glauben darf. Das habe ich aber auch schon zum Thema Photoshop geschrieben.
Auch das Urheberrecht wird momentan arg strapaziert, da die KI Software mit urheberrechtlich geschützten Texten und Bildern von Menschen arbeitet. Früher oder später werden Fotografen, Grafiker, Programmierer, Texter oder andere Kreative auf die Barrikaden gehen (müssen) um ihre kreative Arbeit und Lebensgrundlage zu verteidigen.
Es ist, wie es ist und schon immer war: Der technische Fortschritt ist Fluch und Segen.