• Banner

OpenAI Point E: Erstellen Sie in wenigen Minuten eine 3D-Punktwolke aus komplexen Wellenformen auf einer einzigen GPU

In einem neuen Artikel „Point-E: Ein System zur Generierung von 3D-Punktwolken aus komplexen Signalen“ stellt das OpenAI-Forschungsteam Point E vor, ein bedingtes Synthesesystem für 3D-Punktwolkentext, das Diffusionsmodelle verwendet, um vielfältige und komplexe 3D-Formen basierend auf komplexem Text zu erstellen Hinweise.in Minuten auf einer einzigen GPU.
Die erstaunliche Leistung modernster Bildgenerierungsmodelle von heute hat die Forschung zur Generierung von 3D-Textobjekten angeregt.Im Gegensatz zu 2D-Modellen, die eine Ausgabe innerhalb von Minuten oder sogar Sekunden generieren können, erfordern objektgenerierende Modelle jedoch in der Regel mehrere Stunden GPU-Arbeit, um ein einzelnes Beispiel zu generieren.
In einem neuen Artikel Point-E: Ein System zur Generierung von 3D-Punktwolken aus komplexen Signalen stellt das OpenAI-Forschungsteam Point·E vor, ein textuelles bedingtes Synthesesystem für 3D-Punktwolken.Dieser neue Ansatz nutzt ein Ausbreitungsmodell, um aus komplexen Textsignalen in nur ein oder zwei Minuten auf einer einzigen GPU vielfältige und komplexe 3D-Formen zu erstellen.
Das Team konzentriert sich auf die Herausforderung der Konvertierung von Text in 3D, die für die Demokratisierung der Erstellung von 3D-Inhalten für reale Anwendungen von virtueller Realität über Spiele bis hin zu Industriedesign von entscheidender Bedeutung ist.Bestehende Methoden zum Konvertieren von Text in 3D lassen sich in zwei Kategorien einteilen, von denen jede ihre Nachteile hat: 1) generative Modelle können zur effizienten Generierung von Beispielen verwendet werden, können jedoch nicht effizient für verschiedene und komplexe Textsignale skaliert werden;2) ein vorab trainiertes Text-Bild-Modell, um komplexe und unterschiedliche Texthinweise zu verarbeiten. Dieser Ansatz ist jedoch rechenintensiv und das Modell kann leicht in lokalen Minima stecken bleiben, die keinen aussagekräftigen oder kohärenten 3D-Objekten entsprechen.
Daher untersuchte das Team einen alternativen Ansatz, der darauf abzielt, die Stärken der beiden oben genannten Ansätze zu kombinieren, indem ein Text-zu-Bild-Diffusionsmodell verwendet wird, das auf einer großen Menge von Text-Bild-Paaren trainiert wird (wodurch es verschiedene und komplexe Signale verarbeiten kann) und ein 3D-Bilddiffusionsmodell, das auf einer kleineren Menge von Text-Bild-Paaren trainiert wurde.Bild-3D-Paardatensatz.Das Text-zu-Bild-Modell tastet zunächst das Eingabebild ab, um eine einzelne synthetische Darstellung zu erstellen, und das Bild-zu-3D-Modell erstellt eine 3D-Punktwolke basierend auf dem ausgewählten Bild.
Der generative Stapel des Befehls basiert auf kürzlich vorgeschlagenen generativen Frameworks zur bedingten Generierung von Bildern aus Text (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Sie verwenden ein GLIDE-Modell mit 3 Milliarden GLIDE-Parametern (Nichol et al., 2021), das auf gerenderten 3D-Modellen fein abgestimmt ist, als Text-zu-Bild-Transformationsmodell und eine Reihe von Diffusionsmodellen, die RGB-Punktwolken erzeugen Transformationsmodell.Bilder zu Bild.3D-Modelle.
Während frühere Arbeiten 3D-Architekturen zur Verarbeitung von Punktwolken verwendeten, verwendeten die Forscher ein einfaches wandlerbasiertes Modell (Vaswani et al., 2017), um die Effizienz zu verbessern.In ihrer Diffusionsmodellarchitektur werden Punktwolkenbilder zunächst in ein vorab trainiertes ViT-L/14 CLIP-Modell eingespeist und dann werden die Ausgabenetze als Marker in den Konverter eingespeist.
In ihrer empirischen Studie verglich das Team die vorgeschlagene Point·E-Methode mit anderen generativen 3D-Modellen zur Bewertung von Signalen aus COCO-Objekterkennungs-, Segmentierungs- und Signaturdatensätzen.Die Ergebnisse bestätigen, dass Point·E in der Lage ist, aus komplexen Textsignalen vielfältige und komplexe 3D-Formen zu erzeugen und die Inferenzzeit um ein bis zwei Größenordnungen zu verkürzen.Das Team hofft, dass seine Arbeit weitere Forschungen zur 3D-Textsynthese inspirieren wird.
Ein vorab trainiertes Punktwolkenausbreitungsmodell und ein Evaluierungscode sind auf dem GitHub des Projekts verfügbar.Dokument Point-E: Ein System zum Erstellen von 3D-Punktwolken aus komplexen Hinweisen ist auf arXiv.
Wir wissen, dass Sie keine Neuigkeiten und wissenschaftlichen Entdeckungen verpassen möchten.Abonnieren Sie unseren beliebten Synced Global AI Weekly-Newsletter, um wöchentliche KI-Updates zu erhalten.


Zeitpunkt der Veröffentlichung: 28. Dezember 2022