Microsoft AI zeichnet Objekte aus Textbeschreibungen

Laut einem von Microsoft-Forschern veröffentlichten wissenschaftlichen Artikel kann eine neue, bei Microsoft entwickelte Software für künstliche Intelligenz im Wesentlichen alles aus textuellen Beschreibungen „schöpfen“. Wenn ein Benutzer beispielsweise den Computer auffordert, "einen gelben Vogel mit schwarzen Flügeln und einem kleinen Schnabel zu zeichnen", ist das Ergebnis das, was Sie auf dem Bild sehen.

Diese Vögel existieren möglicherweise nicht in der realen Welt, sie sind nur ein Aspekt der Phantasie unseres Computers über Vögel.

„Wenn Sie Bing Bird Search öffnen, sehen Sie Vogelfotos. Aber hier werden Fotos Pixel für Pixel von Grund auf vom Computer erstellt “, kommentierte Xiaodong He, ein Forschungsleiter bei Microsoft, in einer offiziellen Microsoft-Veröffentlichung. "Diese Vögel existieren möglicherweise nicht in der realen Welt, sie sind nur ein Aspekt der Vogelphantasie unseres Computers", fügte er hinzu.

Er führt weiter aus, dass die aktuellen Ergebnisse, die der Computer liefert, nicht perfekt sind, sich aber annähern können. Die Idee ist, dass solch eine intelligente Software schließlich als Designassistent für Künstler oder sogar Innenarchitekten dienen könnte.

Microsoft

In Zukunft könnte ein solcher Fachmann ein Bild von einer häuslichen Umgebung machen und dann nach einem Computer fragen: "Fügen Sie in der linken Ecke einen grau gepolsterten Holzsessel im modernistischen Stil hinzu." Der Computer konnte nicht nur beim Einrichten der Umgebung helfen, sondern auch beim Erstellen von Möbeln und anderen Elementen.

Prozess

Die ersten Untersuchungen des Teams, das an diesem Projekt bei Microsoft arbeitet, begannen mit dem Experimentieren mit CaptionBot, einem System mit künstlicher Intelligenz, mit dem beschreibende Beschriftungen für jedes Foto erstellt werden können. Dann erstellten sie eine andere KI-Software, die die Fragen der Menschen zu einem Foto beantworten kann, nämlich SeenAI, das besonders für Sehbehinderte nützlich sein kann.

Schließlich konnte die Gruppe eine Technologie entwickeln, mit der diese Zeichnungen aus Textbeschreibungen erstellt werden können. Der erste Teil heißt Generative Adversarial Network (GAN), mit dem Bilder generiert werden sollen, und der zweite Teil ist als „Diskriminator“ bekannt, der die Qualität von Fotos beurteilt.

Aufmerksamkeit ist ein menschliches Konzept; Wir verwenden Mathematik, um die Aufmerksamkeit auf ein rechnerisches Konzept zu lenken

Dieses System wurde mit Bildpaaren mit Bildunterschriften trainiert, damit die Software verstehen kann, welche Wörter mit welchen Bildern übereinstimmen. Später musste ein mathematisches Modell erstellt werden, um sich auf die vom System entwickelte Schöpfung zu konzentrieren. „Aufmerksamkeit ist ein menschliches Konzept; Wir verwenden Mathematik, um die Aufmerksamkeit auf ein rechnerisches Konzept zu lenken “, sagte er.

Der Forscher glaubt, dass es irgendwann möglich sein wird, aus Skripten, die mit solchen Systemen geschrieben wurden, Animationsfilme zu erstellen, aber wir können nicht vorhersagen, wann irgendetwas dieser Art kommerziell auf ein Microsoft-Produkt angewendet werden könnte.

Microsoft AI "zeichnet" Objekte aus Textbeschreibungen über TecMundo