Az AI-gép megpróbálja megérteni a képregényeket… és kudarcot vall

Riasztó ütemben növekszik azoknak a tevékenységeknek a listája, amelyekben a mesterséges intelligencia gépei legyőzték az embereket. Az arcfelismerés, a tárgyfelismerés, a sakk, a Go, a különféle videojátékok és számos egyéb feladat mind elesett ebben a csatában.

varázsugrás bálna hamisítvány

Ezért természetes, hogy megkérdezzük, milyen típusú feladatokat okoz a gépeknek még mindig nehézségei. Hol uralják még mindig az emberek a szállást?

Ma egyfajta választ kapunk Mohit Iyyernek a College Park-i Maryland Egyetemen és néhány barátjának munkájának köszönhetően. Ezek a srácok azt kérdezik, hogy a mesterséges intelligencia mennyire képes megérteni a képregényeket, és aligha tud ellenállni annak, hogy felfedje, hogy a gépek a második helyet foglalják el az emberekhez képest.



A képregények történeteket mesélnek el olyan panelek sorozata segítségével, amelyek kézzel rajzolt és gyakran erősen stilizált képekből állnak, amelyek karakterükben nagyon különböznek a fényképektől. Ezeket a paneleket gondolatbuborékok, beszédbuborékok és narratív dobozok formájában szöveggel is ellátják.

A szöveg és a képek szorosan együttműködnek; gyakran annyira szorosan, hogy a történet nem követhető csak a képek vagy a szöveg segítségével. Az olvasónak ekkor is jelentős következtetéseket és extrapolációkat kell levonnia, amikor panelről panelre ugrál. Sok részletet az olvasónak kell kitöltenie.

Ez teszi igazán érdekessé a képregényeket az alkotók az oldalaikról, a kimondatlan beszélgetések és láthatatlan akciók, amelyek a szomszédos panelek közötti terekben (vagy ereszcsatornákban) lapulnak, mondjuk Iyyer és társai. Ezeknek a részleteknek a megfejtésében kovácsolódik össze a történet az olvasók képzeletében.

Ezt az összetett folyamatot, amelynek során egy egyedi panelt tekintünk meg, és megértjük, hogyan kapcsolódik az előzőekhez, bezárásnak nevezzük. És pillanatnyilag ez egy egyedülálló emberi képesség.

Ezért Iyyer és társai kidolgoztak egy kísérletet, hogy teszteljék, a gépek mennyire képesek ezt is végrehajtani.

Ezek a srácok azzal kezdenek, hogy létrehoznak egy nagy adatbázist a képregényes történetekből, amelyeket a mélytanulási gépek betanítására használhatnak fel. Ezt az 1930-as és 1950-es évek között megjelent képregények felhasználásával készítik. Ez volt a képregények úgynevezett aranykora, ami az 1950-es évek végén ért véget, amikor az Egyesült Államokban szigorú cenzúraszabályozást vezettek be. A szerzői jogok azóta lejártak ezekre a kiadványokra, és nyilvánosan elérhetőek a Digital Comics Museum nevű weboldalon. a felhasználók által feltöltött jpeg-fájlok formája.

Iyyer és társai 4000 legjobban értékelt képregényt használtak fel az oldalon, így több mint 1,2 millió panelből álló adatbázist hoztak létre. Optikai karakterfelismerést használnak az egyes paneleken található szöveg digitalizálására.

A zárás teszteléséhez Iyyer és munkatársai egy kísérletsorozatot dolgoznak ki, amelyben a gépnek panelek sorozatát mutatják be, majd meg kell jósolniuk, mi következik a lehetséges válaszok halmazából. A feladat lehet a következő kép vagy szövegrész megjósolása, vagy a szöveg egy adott karakterhez való illesztése.

Először is a gépnek meg kell tanulnia a képregény működését. Így a csapat a panelek és a szövegek egy részét különféle gépi tanulási algoritmusokhoz táplálta, hogy megtanulják, hogyan követik egymást a panelek. Ezeket a gépeket arra képezték ki, hogy felismerjék a tárgyakat, de inkább természetes képekben, mint rajzfilmekben.

A gépek betanítása után a csapat teszteli őket egy sor panelen, amelyet még nem láttak, és megkérik őket, hogy jósolják meg a sorozat következő képét vagy szövegrészét.

Az eredmény szemöldökhúzó. Míg az emberek az esetek több mint 80 százalékában pontosan meg tudják jósolni a következő szövegrészt vagy képet, a gépek soha nem közelítik meg ezt a pontossági szintet. Egyik architektúra sem teljesít túl az emberi alapvonalon, ami a képregények megértésének nehézségeiről árulkodik, mondják Iyyer és társai. A természetes képekre képzett modellekből nyert képi jellemzők nem képesek megragadni a művészi stílusok hatalmas változatosságát, a szöveges modellek pedig a vizuális kontextusoktól nagymértékben függő köznyelvi párbeszéd gazdagságával és többértelműségével küzdenek.

Ez nem meglepő, tekintve a történetek követéséhez szükséges józan észt és a képregény történetmesélés logikájának megértéséhez szükséges kulturális ismereteket.

Tehát az emberek még mindig mesterei ennek a feladatnak, legalábbis pillanatnyilag.

De a gépek minden bizonnyal jobbak lesznek, ahogy megtanulják azokat a szociális és következtetési készségeket, amelyekről azt gondoljuk, hogy emberré tesznek bennünket.

És ez felvet egy érdekes lehetőséget. A mesterséges intelligencia gépek legyőzték az embereket a sakkban, Veszély! , Go, és sok más feladat. A következő kihívás talán az lenne, hogy jobban megértsék a képregényeket, mint az embereket, és talán még narratívákat is alkossanak ilyen módon. Ez szembeállítja a Google DeepMind-et vagy bármely versenytársát a Marvel vagy a DC Comics szereplőivel. A tökéletes csata, és minden bizonnyal szórakoztató lenne.

Ref: arxiv.org/abs/1611.05118 : Az ereszcsatorna csodálatos rejtelmei: Következtetések levonása a panelek között a képregény-elbeszélésekben

elrejt

Tényleges Technológiák

Kategória

Nincs Kategorizálva

Technológia

Biotechnológia

Technikai Politika

Klímaváltozás

Ember És Technológia

Szilícium-Völgy

Számítástechnika

Mit News Magazin

Mesterséges Intelligencia

Tér

Okos Városok

Blockchain

Feature Story

Alumni Profil

Öregdiák Kapcsolat

Mit News Funkció

1865

Az Én Nézetem

77 Mass Ave

Ismerje Meg A Szerzőt

Profilok A Nagylelkűségben

Az Egyetemen Látható

Öregdiák Levelei

Hírek

Mit News Magazine

Választások 2020

Indexszel

A Kupola Alatt

Tűzoltótömlő

Végtelen Történetek

Pandémiás Technológiai Projekt

Az Elnöktől

Fedősztori

Képgaléria

Ajánlott