211 0190 814 [email protected]

Dall-e

13 Μαρτίου 2023

Τι είναι το Dall-e;

Το Dall-e χρησιμοποιείται για να δημιουργήσει εικόνες από κείμενο. Η εταιρεία OpenAI που το δημιούργησε, εκπαίδευσε ένα νευρωνικό δίκτυο που ονομάζεται Dall-e το οποίο δημιουργεί εικόνες από κείμενο για ένα μεγάλο εύρος θεματολογίας που εκφράζονται σε φυσική γλώσσα.

Το Dall-e είναι μία έκδοση του GPT-3 με 12 δισεκατομμύρια παραμέτρους, εκπαιδευμένο να παράγει εικόνες από περιγραφές κειμένου, χρησιμοποιώντας ένα σύνολο δεδομένων από συνδυασμούς κειμένων-εικόνας. Έχει διαπιστωθεί ότι διαθέτει μια ποικιλία ικανοτήτων, συμπεριλαμβανομένων της δημιουργίας ανθρωπόμορφων εκδόσεων ζώων ή αντικειμένων, του συνδυασμού διαφορετικών ιδεών με εύλογο τρόπο, της απόδοσης κειμένου και της μεταμόρφωσης εικόνων.

Το GPT-3 έδειξε ότι μια γλώσσα προγραμματισμού μπορεί να χρησιμοποιηθεί για να καθοδηγήσει ένα μεγάλο νευρωνικό δίκτυο ώστε να εκτελέσει μια ποικιλία από εργασίες δημιουργίας κειμένου. Το Image GPT έδειξε ότι ο ίδιος τύπος νευρωνικού δικτύου μπορεί επίσης να χρησιμοποιηθεί για να δημιουργήσει εικόνες υψηλής ευκρίνειας. Επεκτείναμε αυτά τα ευρήματα για να δείξουμε ότι η χειραγώγηση οπτικών σχεδίων μέσω γλώσσας είναι τώρα κάτι εφικτό.

Επισκόπηση

Όπως το GPT-3, το DALL-E είναι ένα μεταμορφωτικό γλωσσικό μοντέλο. Δέχεται και κείμενο και εικόνες ως μια ενιαία ροή δεδομένων που περιέχει έως και 1280 διακριτικά στοιχεία, και εκπαιδεύεται χρησιμοποιώντας την μέγιστη πιθανότητα να δημιουργήσει όλα τα διακριτικά, το ένα μετά το άλλο. Αυτή η διαδικασία εκπαίδευσης επιτρέπει στο DALL-E όχι μόνο να παράγει μία εικόνα από το μηδέν, αλλά επίσης να αναπαράγει οποιαδήποτε τετράγωνη περιοχή μιας υπάρχουσας εικόνας που επεκτείνεται στην κάτω δεξιά γωνία, με τρόπο που να είναι συνεπής με το κείμενο που έχει δοθεί.

Αναγνωρίζουμε ότι η εργασία που περιλαμβάνει παραγωγικά μοντέλα έχει την δυνατότητα για σημαντικές και ευρείς κοινωνικές επιπτώσεις. Στο μέλλον, σχεδιάζουμε να αναλύσουμε πώς, μοντέλα όπως το DALL-E, σχετίζονται με κοινωνικά ζητήματα όπως οικονομικές επιπτώσεις σε συγκεκριμένες εργασιακές διαδικασίες και επαγγέλματα, την πιθανότητα προκατειλημμένων αποτελεσμάτων του μοντέλου, και τις πιο μακροπρόθεσμες ηθικές προκλήσεις που συνεπάγεται αυτή η τεχνολογία.

Δυνατότητες

Ανακαλύψαμε ότι το DALL-E μπορεί να δημιουργήσει αληθοφανείς εικόνες για μια μεγάλη ποικιλία από προτάσεις που εξερευνούν την συνθετική δομή της γλώσσας. Αυτό φαίνεται και από μια σειρά διαδραστικών εικόνων που παρουσιάζονται στην επόμενη ενότητα. Τα δείγματα που εμφανίζονται για κάθε λεζάντα στα γραφικά, αποκτώνται με την λήψη των κορυφαίων 32 από τα 512 μετά την ανακατάταξη με το CLIP, αλλά η επιλογή δεν γίνεται χειροκίνητα, εκτός από τις μικρογραφίες και τις αυτόνομες εικόνες που εμφανίζονται εξωτερικά.

Ιδιότητες Ελέγχου

Δοκιμάζουμε την ικανότητα του DALL-E να τροποποιεί αρκετές από τις ιδιότητες ενός αντικειμένου, όπως επίσης και τις φορές που εμφανίζεται.

Σχεδιάζοντας Πολλαπλά Αντικείμενα

Ο ταυτόχρονος έλεγχος πολλαπλών αντικειμένων, των ιδιοτήτων τους και των χωρικών τους σχέσεων παρουσιάζει μια νέα πρόκληση. Για παράδειγμα, σκεφτείτε την φράση: «ένας σκαντζόχοιρος που φοράει ένα κόκκινο καπέλο, κίτρινα γάντια, μπλε μπλουζάκι και πράσινο παντελόνι. Για να ερμηνευτεί σωστά αυτή η πρόταση, το DALL-E πρέπει όχι μόνο να συνθέσει κάθε κομμάτι ένδυσης με το ζώο αλλά και να σχηματίσει τους συνδυασμούς (καπέλο, κόκκινο), (γάντια, κίτρινα), (μπλουζάκι, μπλε) και (παντελόνι, πράσινο) χωρίς να τα μπερδέψει.

Δοκιμάζουμε την ικανότητα του DALL-E να το κάνει αυτό για σχετική τοποθέτηση, στοίβαξη αντικειμένων κα έλεγχο πολλαπλών χαρακτηριστικών.

Ενώ το DALL-E προσφέρει κάποιο επίπεδο ελέγχου στα χαρακτηριστικά και στις θέσεις ενός μικρού αριθμού αντικειμένων, το ποσοστό επιτυχίας εξαρτάται από το πως έχει διατυπωθεί η λεζάντα. Καθώς εισάγονται περισσότερα αντικείμενα, το DALL-E  είναι επιρρεπές στο να συγχέει συσχετίσεις μεταξύ αντικειμένων και των χρωμάτων τους, και το ποσοστό επιτυχίας μειώνεται απότομα. Παρατηρήσαμε, επίσης, ότι το DALL-E είναι επιρρεπές σε λάθος ερμηνεία της λεζάντας στις εξής περιπτώσεις: οι εναλλακτικές, σημασιολογικά ισοδύναμες λεζάντες συνήθως δεν παρέχουν σωστές ερμηνείες.

Οπτικοποίηση Προοπτικής και Τρισδιάστατης Απεικόνισης

Εντοπίσαμε, επίσης, ότι το DALL-E επιτρέπει ον έλεγχο της οπτικής γωνίας ενός σκηνικού και του 3D στυλ με το οποίο γίνεται rendering.

Για να το πάμε ακόμα πιο μακριά, δοκιμάσαμε την ικανότητα του DALL-E να σχεδιάσει επανειλημμένα το κεφάλι μιας γνωστής φυσιογνωμίας από κάθε οπτική γωνία από μία αλληλουχία από ισομερείς γωνίες, και αντιληφθήκαμε ότι μπορούμε να ανακτήσουμε μια ομαλή κίνηση του περιστρεφόμενου κεφαλιού.

Το DALL-E φαίνεται να είναι ικανό να μπορεί να εφαρμόσει μερικούς τύπους οπτικών παραμορφώσεων σε σκηνές, όπως βλέπουμε με τις επιλογές “fisheye lens view” και :a spherical panorama”. Αυτό μας υποκίνησε να εξερευνήσουμε την ικανότητά του να παράγει αντανακλάσεις.

Οπτικοποίηση Εσωτερικής και Εξωτερικής Δομής

Τα δείγματα από τα «extreme close-yp view” και “x-ray” στυλ, μας έκαναν να εξερευνήσουμε περαιτέρω την ικανότητα του DALL-E να αποδώσει την εσωτερική δομή με όψεις διατομής, και την εξωτερική δομή με macro φωτογραφίες.

Συμπερασματικές λεπτομέρειες με βάση τα συμφραζόμενα

Η εργασία μετάφρασης κειμένου σε εικόνες είναι υποκαθορισμένη: μία μεμονωμένη λεζάντα μπορεί να αντιστοιχεί σε άπειρες αληθοφανείς εικόνες, κι έτσι η εικόνα δεν είναι μοναδικά καθορισμένη.

Για παράδειγμα, σκεφτείτε την λεζάντα «μια ζωγραφιά ενός καπιμπάρα να κάθεται σε έναν αγρό το καλοκαίρι». Αναλόγως τον προσανατολισμό του καπιμπάρα, μπορεί να είναι απαραίτητο να σχεδιαστεί μια σκιά, παρά το ότι αυτή η λεπτομέρεια δεν αναφέρεται συγκεκριμένα. Εξερευνούμε την ικανότητα του DALL-E να επιλύει τον υποκαθορισμό σε τρεις περιπτώσεις: στην αλλαγή στυλ, τοποθεσίας και χρόνου, στον σχεδιασμό του ίδιου αντικειμένου σε άλλες συνθήκες, και στην παραγωγή εικόνας ενός αντικειμένου με ένα συγκεκριμένο κείμενο γραμμένο πάνω του.

Με αξιοπιστία που κυμαίνεται σε διάφορα επίπεδα, το DALL-E παρέχει πρόσβαση σε ένα υποσύνολο δυνατοτήτων μιας μηχανής τρισδιάστατης απόδοσης, μέσω φυσικής γλώσσας. Μπορεί να παρέχει ανεξάρτητο έλεγχο σε ιδιότητες ενός μικρού αριθμού αντικειμένων, και σε περιορισμένη έκταση, την ποσότητά τους και το πως είναι τακτοποιημένα σε σχέση με τα άλλα. Μπορεί επίσης, να ελέγξει την τοποθεσία και την γωνία υπό την οποία αποδίδεται μία σκηνή και μπορεί να παράγει γνωστά αντικείμενα σύμφωνα με τις ακριβείς προδιαγραφές γωνίας και συνθηκών φωτισμού.

Σε αντίθεση με μία μηχανή απόδοσης τρισδιάστατων γραφικών, της οποίας τα δεδομένα που εισάγονται πρέπει να έχουν καθοριστεί συγκεκριμένα και με κάθε λεπτομέρεια, το DALL-E μπορεί συχνά να «γεμίζει τα κενά» όταν η λεζάντα υποδεικνύει ότι η εικόνα πρέπει να περιέχει κάποιες συγκεκριμένες λεπτομέρειες οι οποίες όμως δεν αναφέρονται ρητά.

Συνδυάζοντας μη σχετιζόμενες ιδέες

Η συνθετική φύση της γλώσσας μας επιτρέπει να ενώσουμε ιδέες για να περιγράψουμε και πραγματικά αλλά και φανταστικά πράγματα. Το DALL-E έχει, επίσης, την δυνατότητα να συνδυάζει ανόμοιες ιδέες για να συνθέσει αντικείμενα, μερικά από τα οποία είναι απίθανο να υπάρχουν στον πραγματικό κόσμο. Εξερευνούμε αυτή την ικανότητα σε δύο περιστάσεις: εφαρμόζοντας ιδιότητες από διάφορες ιδέες σε ζώα και σχεδιάζοντας προϊόντα παίρνοντας έμπνευση από μη σχετιζόμενες ιδέες.

Οπτικός Συλλογισμός Μηδενικής Βολής

Το GPT-3 μπορεί να καθοδηγηθεί να εκτελέσει πολλά είδη εργασιών απλώς και μόνο από μία περιγραφή ή μία νύξη να παράγει την απάντηση που παρέχεται στην προτροπή του, χωρίς κάποια επιπλέον εκπαίδευση. Για παράδειγμα, όταν του παρέχεται η έκφραση «ορίστε η πρόταση ‘ένας άνθρωπος έχει βγάλει βόλτα τον σκύλο του στο πάρκο’ μεταφρασμένο στα Γαλλικά:», το GPT-3 απαντάει «un homme qui promène son chien dans le parc.» Αυτή η δυνατότητα αποκαλείται συλλογισμός μηδενικής βολής. Έχουμε εντοπίσει ότι το DALL-E επεκτείνει αυτή την δυνατότητα στο οπτικό πεδίο ορισμού, και έχει την ικανότητα να εκτελεί αρκετά είδη εργασίας μεταφράσεων εικόνα-σε-εικόνα όταν του παρέχονται οδηγίες με τον σωστό τρόπο.

Δεν αναμέναμε ότι αυτή η δυνατότητα θα έβγαινε στην επιφάνεια και δεν κάναμε καμία τροποποίηση στο νευρωνικό δίκτυο ή κάποια διαδικασία εκπαίδευσης. Υποκινούμενοι από αυτά τα αποτελέσματα, υπολογίζουμε την ικανότητα του DALL-E για προβλήματα αναλογικού συλλογισμού με το να το τεστάρουμε στους προοδευτικούς πίνακες του Raven, ένα οπτικό τεστ IQ που χρησιμοποιήθηκε ευρέως τον 20ο αιώνα.

Γεωγραφική Γνώση

Εντοπίσαμε ότι το DALL-E έχει «μάθει» για γεωγραφικά δεδομένα, διακριτικά σημεία και γειτονιές. Η γνώση του για αυτές τις ιδέες είναι εκπληκτικά ακριβής από μερικές απόψεις αλλά και ελλαττωματική από άλλες.

Διαχρονική Γνώση

Εκτός από την εξερεύνηση της γνώσης του DALL-E σχετικά με ιδέες που ποικίλουν σχετικά με τον χώρο, εξερευνούμε επίσης την γνώση του για ιδέες που ποικίλουν σχετικά με τον χρόνο.

Περίληψη Προσέγγισης και Προηγούμενης Εργασίας

Το DALL-E είναι ένας απλός μετασχηματιστής που αποκρυπτογραφεί, που λαμβάνει τόσο κείμενο όσο και εικόνα ως μια ενιαία ροή 1280 διακριτικών – 256 για το κείμενο και 1024 για την εικόνα – και τα μοντελοποιεί όλα αυτοπαλινδρομικά. Η μάσκα προσοχής σε κάθε ένα από τα επίπεδα αυτοπροσοχής επιτρέπει σε κάθε διακριτικό εικόνας να παρακολουθεί όλα τα διακριτικά κειμένου. Το DALL-E χρησιμοποιεί την τυπική αιτιακή μάσκα για τα διακριτικά κειμένου και την αραιή προσοχή για τα διακριτικά εικόνας είτε με γραμμή, στήλη ή συνελικτικό μοτίβο προσοχής, ανάλογα με το επίπεδο.

Η σύνθεση κειμένου σε εικόνα είναι ένας ενεργός τομέας έρευνας από την πρωτοποριακή εργασία των Reed κ.α. των οποίων η προσέγγιση χρησιμοποιεί ένα GAN (generative adversarial network) εξαρτώμενο από ενσωματώσεις κειμένου. Οι ενσωματώσεις παράγονται από έναν κρυπτογράφο προεκπαιδευμένο να χρησιμοποιεί μία αντιθετική απώλεια, καθόλου διαφορετικό από το CLIP (Contrastive Language-Image Pre-training). Τα  StackGAN και StackGAN++ χρησιμοποιούν GAN πολλαπλής κλίμακας για να αυξήσουν την ανάλυση της εικόνας και να βελτιώσουν την οπτική πιστότητα. Το AttnGAN ενσωματώνει την σημασία των χαρακτηριστικών ανάμεσα στο κέιμενο και την εικόνα και προτείνει ένα χαρακτηριστικό αντίθεσης κειμένου-εικόνας που ισορροπεί την απώλεια ως βοηθητικό αντικείμενο. Αυτό είναι ενδιαφέρον για σύγκριση με την ανακατάταξη μας με το CLIP, η οποία γίνεται offline. Άλλες εργασίες ενσωματώνουν πρόσθετες πηγές επίβλεψης κατά την διάρκεια της εκπαίδευσης για την βελτίωση της ποιότητας της εικόνας. Τελικά, η εργασία των Nguyen κ.α. και των Cho κ.α. εξερευνά στρατηγικές που βασίζονται στην δειγματοληψία για την δημιουργία εικόνων που αξιοποιούν προεκπαιδευμένα πολυτροπικά διακριτικά μοντέλα.

Παρόμοια με την δειγματοληψία απόρριψης που χρησιμοποιείται στο VQVAE-2, χρησιμοποιούμε το CLIP για να ανακατατάξουμε α κορυφαία 32 από τα 512 δείγματα για κάθε λεζάντα σε όλα τα διαδραστικά οπτικά. Αυτή διαδικασία μπορεί επίσης να θεωρηθεί ως ένα είδος γλωσσικά καθοδηγούμενης αναζήτησης, και μπορεί να έχεις δραματικό αντίκτυπο στην ποιότητα του δείγματος.

Search Engine Optimization (SEO)

Ο Συναρπαστικός Κόσμος του SEO: Βέλτιστες Πρακτικές και Εργαλεία για Επιτυχία Στην εποχή της ψηφιακής επανάστασης, η διαδικτυακή παρουσία και η αναγνωσιμότητα ενός ιστoτόπου είναι κρίσιμης σημασίας. Και εδώ είναι που το SEO (Search Engine Optimization) έρχεται στη...

Digital Marketing

Έξυπνοί Τρόποι για Αποτελεσματικό Digital Marketing: Οδηγός για Επιτυχημένο Διαδικτυακό Μάρκετινγκ Η εποχή του ψηφιακού μάρκετινγκ έχει έρθει για να μείνει, και όσο περνούν οι χρόνοι, γίνεται ολοένα και σημαντικότερο για την επιτυχία κάθε επιχείρησης. Σε έναν κόσμο...

ChatGPT

Chat GPT: Η Επόμενη Εξέλιξη στην Τεχνητή Νοημοσύνη και η Επανάσταση στην Επικοινωνία Ο χώρος της τεχνητής νοημοσύνης και της αυτοματοποιημένης επικοινωνίας διαμορφώνεται συνεχώς, με καινοτόμες τεχνολογίες που αλλάζουν τον τρόπο που επικοινωνούμε με τις μηχανές και...

Related Posts

Internet of Things (IOT)

    Καινοτομίες στις Συσκευές και Εφαρμογές του Internet Of Things (IoT): Πως οδεύουμαι στο Μέλλον των Έξυπνων Πόλεων και Σπιτιών  Το Διαδίκτυο των Πραγμάτων (IoT) έχει εξελιχθεί πέρα από ένα απλό τεχνολογικό όρο για να γίνει αναπόσπαστο μέρος της καθημερινής μας...

Διαβάστε Περισσότερα

Ο Εξελισσόμενος Ρόλος της Τεχνητής Νοημοσύνης στο Digital Marketing

Ο Εξελισσόμενος Ρόλος της Τεχνητής Νοημοσύνης στο Digital Marketing Στο συνεχές εξελισσόμενο πεδίο της τεχνολογίας, η Τεχνητή Νοημοσύνη (AI) ξεχωρίζει ως καταλύτης της αλλαγής, αναδιαμορφώνοντας επιχειρηματικά πεδία και καθορίζοντας τον τρόπο λειτουργίας των...

Διαβάστε Περισσότερα

Search Engine Optimization (SEO)

Ο Συναρπαστικός Κόσμος του SEO: Βέλτιστες Πρακτικές και Εργαλεία για Επιτυχία Στην εποχή της ψηφιακής επανάστασης, η διαδικτυακή παρουσία και η αναγνωσιμότητα ενός ιστoτόπου είναι κρίσιμης σημασίας. Και εδώ είναι που το SEO (Search Engine Optimization) έρχεται στη...

Διαβάστε Περισσότερα