A DALL E 2 egy új mesterséges intelligencia rendszer, amely írásos leírás alapján valósághű képeket és művészetet tud létrehozni. Nincs több bonyolult stílus- és világítási beállítás: most már csak leírhatja, amit szeretne, és a DALL-E-2 biztosítja a képet. Túl szép, hogy igaz legyen? Túlságosan fenyegető a mindig sikeres fotóiparra nézve? Győzze meg magát a megjelenés előtti tesztfutásommal.
A DALL-E-2 küldetése szerint:
Az OpenAI küldetése annak biztosítása, hogy a mesterséges általános intelligencia (AGI) – amely alatt a rendkívül autonóm rendszereket értjük, amelyek a gazdaságilag legértékesebb munkában felülmúlják az embert – az egész emberiség javát szolgálja.
Ha Ön olyan fotós, aki úgy érzi, hogy a modern technológia folyamatosan górcső alá veszi, hogy a marketingipar létfontosságú szereplője legyen, akkor ez a kijelentés biztosan cserbenhagyja. Előzetesen hozzáfértem a mesterséges általános intelligencia (AGI) platformhoz, és kipróbáltam. Tényleg megteheti, amit mi? Még “meghaladhat” minket? Ez veszélyt jelent a fotósra? Ez egy eszköz? Vagy ez a kettő kombinációja? Lássuk.
A szoftvernek van néhány funkciója. Az első, és amiről a leghíresebb, hogy képes képet vagy grafikát generálni egy leírás alapján. Például az Instagramjukon megtalálod az eredményt: “egy kék narancs kettévágva kék padlón, kék fal előtt”
Abban mindenki egyetért, hogy az eredmény egészen lenyűgöző. Még magam is próbálkoztam egy véletlenszerű leírással.
Tagadhatatlan, hogy a technológia lenyűgöző. Az előtesztelésnél azonban az volt a szándékom, hogy kiderítsem, egy profi fotós meg tudja-e csinálni funkció. Ahelyett, hogy felvesz minket, egy ügyfél begépelheti-e annak leírását, amit akar, és kihagyhatja a szakember felvételének költségeit?
Első teszt: összehasonlíthatók-e az elkészült képek egy profi fotós munkáival?
Az első tesztem az volt, hogy megnézzem, a DALL-E 2 képes-e olyan vizuális tartalmat generálni, amely versenyezhet azokkal a képekkel, amelyeken akkor dolgoztam. Első esettanulmány: kakaóból és datolyából készült csokoládé. Beírtam a kép leírását, amit reggel készítettem: “datolya csokoládészósszal ráöntve”.
Ezek voltak az eredmények:
Gondolom, ha csak egy képre van szüksége a datolyáról csokoládéval, ez is elég lehet. Ha azonban a világítást, a kompozíciót, a színkorrekciót vagy az esztétikát fontolgatná, ezek a képek nem felelnének meg a szabványaimnak.
Aztán úgy döntöttem, hogy bedobok egy modellt a tesztbe. A márka egyszer készített egy képet egy modellről, aki csokoládét csepegtetett a nyelvére, és ez egy nagyon sikeres kép volt. E sorok mentén beírtam: “Egy gyönyörű nő csokoládécseppekkel az egész testén.”
Az első észrevételem az volt, hogy úgy tűnt, hogy a mesterséges intelligencia fehér barnákat választott ki a lényegi szépség ábrázolására, úgyhogy azt hiszem, nincs szerencsém! A második megfigyelésem az előző teszthez hasonlóan az volt, hogy a képek esztétikája teljes kudarcot vallott. Inkább úgy nézett ki, mint egy Freddy-film jelenete, semmint egy csokoládét és vágyat árusító hirdetésre. A szoftver lenyűgözött azzal, hogy egy rövid leírásból varázsütésre képes képeket generálni, de hamar kiderült, hogy semmiképpen sem képes összefüggő esztétikailag sikeres képek halmazát létrehozni.
Második teszt: Előnyösek lehetnek-e a korrekciós funkciók a fotós számára?
Láthatta már a DALL-E 2 szinte valószínűtlen eredményeit a mesterséges intelligencia által korrigált homályos katicabogárból, amint az ebben a Tech Times cikkben látható. Úgy döntöttem, hogy kipróbálom ezeket a funkciókat is. Az első próbálkozásom egy árnyék eltávolítása és mintás háttérrel való kitöltése volt. Azt hiszem, pont a mélyben ugrottam be.
A képem feltöltése után a “Kép szerkesztése” lehetőséget választottam, és beírtam: “Távolítsa el az árnyékot a bőrápoló flakonból és töltse ki a pálmalevél árnyékával”. Kétségtelenül lenyűgözött az általa készített képek.
Jelentősen felülmúlta a Photoshop-ot, amely nem tudott megfelelni a tenyérmintának.
Az eddig kifejtett kritikák mennyisége miatt tényleg le kell vennem a kalappal a szoftver előtt. Aztán kipróbáltam egy másik reális forgatókönyvet. Egyszer a salsa ügyfelem megkért, hogy cseréljem le az alábbi képen látható pirospaprikát jalapeño paprikára. Mondanom sem kell, hogy újra kellett lőnöm. Lenyűgözött a DALLE-2 legújabb javítása, és úgy döntöttem, hogy megnézem, képes-e elvégezni a munkát.
“Cserélje ki a pirospaprikát jalapeño paprikára.”
(tücsök)
“T, Májusba!”?… és a paprika még piros.
Egyértelmű kudarc ebben a feladatban.
Harmadik teszt: Tud-e a Dall-E-2 hatékonyan hozzáadni elemeket a fotós képéhez?
A termékfotózás során gyakran szoktam sok fröccsenést és összeomlást okozni. Az utolsó tesztem az volt, hogy megnézzem, a szoftver képes-e elvégezni ezt a munkát helyettem. Az alábbiakban készített képek inspirálására megkérdeztem, hogy adhat-e chipeket a háttérhez.
Íme a “Tortilla chips hozzáadása a háttérhez” eredménye.
Megkértem a szoftvert is, hogy adjon több vízcseppet egy lövéshez.
Az alábbiakban látható az “Adjon hozzá egy fröccs lé a háttérhez” eredményét.
A fenti teszt nem okozott fröccsenést, és néhány érdekes alternatívát, például egy homályos ananászt kúszott be.
következtetéseket
Miután a DALL-E-2-nek számtalan kihívást kellett elviselnie, világossá vált, hogy a szoftver még nem teljesítette küldetését, hogy “meghaladjon” egy profi fotóst. Bár a szoftver hihetetlen bravúr, nem mindig hozza azt, amit kér. Ha igen, akkor a kép esztétikája nem megfelelő. Csodálkoztam a tenyérárnyék-javításon, és azon tűnődtem, vajon fejlettebb eszközként pozícionálja-e magát, mint a Photoshop.
Mi a véleménye erről az új technológiáról, amelynek célja, hogy “a legnagyobb gazdasági értéken felülmúlja az embereket”? Ossza meg gondolatait alább.