KI kann uns dazu verleiten, generierte Kunst mit echten Fotos zu verwechseln. Warum also sind Hände so eine große Herausforderung?
KI-Generatoren entwickeln sich vor unseren Augen in einem beängstigenden Tempo, aber sie haben immer noch Mängel. Seltsame Details in KI-Bildern zu entdecken, ist eigentlich ziemlich lustig. Aus diesem Grund wurden Midjourney-Hände zu einem heißen Thema, einem Problem, das bei vielen Motoren auftritt.
Lassen Sie uns aufschlüsseln, warum Hände KI-Bildgeneratoren so sehr herausfordern. Ihre Programmierer beheben dieses memewürdige Problem bereits, aber es ist interessant, darüber nachzudenken, wie künstliche Intelligenz lernt, ganz zu schweigen davon, was ihr im Weg steht.
Warum KI-generierte Hände Aufsehen erregten
Jeder, der KI-Engines zum Erstellen von Bildern verwendet, hat vielleicht bemerkt, dass die Hände selten richtig herauskommen, aber das Problem erregte Aufsehen, als ein Haufen „Fotos“ auf Twitter auftauchte.
Bei näherer Betrachtung verrieten die seltsamen Hände der Menschen sie als KI-generierte Bilder. Die Tatsache, dass dies der Versuch von Midjourney war, machte die Situation interessanter.
Eine der besten KI-Engines, die es gibt, konnte die Komplexität menschlicher Hände nicht bewältigen, also wurden die Fähigkeiten von Midjourney und seinen Konkurrenten auf die Probe gestellt. Tatsächlich neigt sogar DALL-E zu unrealistischen Fingern und Nägeln.
Der Hype war unverhältnismäßig, wenn man bedenkt, dass KI-generierte Hände schon immer ein Problem waren, aber die zusätzliche Aufmerksamkeit veranlasste die Veröffentlichung von Midjourney v5 zur Verbesserung von v4.
Die neue Version legte Wert darauf, das Handdesign zu verbessern, ein klares Zeichen dafür, dass KI-Ingenieure auf die urkomische Aufregung geachtet und beschlossen haben, die Fähigkeiten der Software zu verbessern.
Andere Engines folgen dem Beispiel von Midjourney nur langsam Reparieren von KI-Kunst mit Photoshop bleibt eine unschätzbare Fähigkeit. Die größte Hürde für Programmierer ist, wie kompliziert es ist, künstliche Intelligenz zu trainieren, um überzeugende Hände zu zeichnen.
Warum kämpfen KI-Bildgeneratoren mit den Händen?
KI-Engines verwenden Generative Adversarial Networks (GANs) oder Stable Diffusion, um Bilder zu erzeugen. Beide Technologien erfordern umfangreiche Ausgangsmaterialien, Schulungen und Verarbeitungsleistung, um selbst die einfachsten Kunstwerke zu erstellen.
Da bereits vorhandene Bilder für das Training einer KI von zentraler Bedeutung sind, müssen Programmierer ihre Software mit Tausenden, wenn nicht Millionen von Bildern füttern neben Eingabeaufforderungen – Wiederholen des Vorgangs immer und immer wieder, bis die Engine versteht, worauf sich ein bestimmtes Wort bezieht und wie es dargestellt wird Objekt.
Aber die Quellbilder, aus denen eine KI lernt, sind hauptsächlich 2D, bei denen Hände in verschiedenen Positionen dargestellt werden. Ob glatt oder gekräuselt, ob fünf Finger oder drei.
Letztendlich versteht eine Maschine das Konzept der Hände nicht wirklich, und die Bilder, aus denen sie lernt, zeigen Hände nicht immer klar und konsistent genug. Deshalb können Midjourney-Hände so hässlich sein: KI-Verwirrung.
So gültig wie Elon Musks Bedenken hinsichtlich der KI-Entwicklung mag sein, dass einige Teile der Technologie noch viel zu lernen haben. Und ihre Hindernisse gehen über unzureichende Beispiele von Händen hinaus.
Weitere Gründe, warum sich KI-Bildgeneratoren nur langsam verbessern
Anschauen Modelle von Midjourney, v5 bietet erweiterte Kohärenz zwischen Texteingabeaufforderungen und produzierten Bildern sowie eine höhere Auflösung und zusätzliche Tools. Aber solche Erfolge sind nicht billig.
Eine KI zu trainieren, besser mit den Händen zu arbeiten, erfordert bessere Bilder, insbesondere in 3D. Das bedeutet, dass viel Zeit und Arbeitskraft für Prozesse aufgewendet werden, von der Beschaffung von Quellmaterialien über die Verbesserung der Codierung bis hin zur Wiederholung des Trainings, bis die KI es richtig macht.
Selbst dann kann die Software Fehler in ansonsten beeindruckenden Kunstwerken machen. Abgesehen davon, dass es sich um eine riesige und komplexe Aufgabe handelt, ist es teuer. Erwarten Sie also nicht kostenlose KI-Text-zu-Bild-Generatoren nur noch auf Midjourneys Kaliber aufzusteigen.
Einfach gesagt, das Problem mit KI-Engines liegt nicht nur in der Unfähigkeit dieser Computerprogramme, vollständig zu verstehen, wie menschliche Merkmale wie Hände und Füße aussehen oder funktionieren. Es kommt auch auf die Kosten an und den Zugang der Technologie zu 3D-Bildern und maschinellen Lerntechniken, die Generatoren helfen können, die Welt um sie herum realistischer zu erfassen.
KI-Bildgeneratoren werden nicht ewig kämpfen
Hände sind ein kniffliges Konzept für künstliche Intelligenz, um ihren binären Kopf herumzureißen, aber Lösungen für das Problem sind bereits am Werk. Midjourney, DALL-E 2 und andere Plattformen werden schließlich in der Lage sein, schrullige Finger auf ein Minimum zu beschränken, wenn nicht sogar vollständig auszurotten.
Fortschritte in anderen KI-Bereichen sorgen dafür, dass sich die Technologie ständig weiterentwickelt und ihre Entwickler immer neue Wege finden, sie anzuwenden und zu verbessern.