• bendera

OpenAI Point E: Unda wingu la pointi za 3D kutoka kwa miundo changamano ya mawimbi kwa dakika kwenye GPU moja

Katika makala mpya Point-E: Mfumo wa kuzalisha mawingu yenye uhakika wa 3D kutoka kwa mawingu changamano, timu ya utafiti ya OpenAI inatanguliza Point E, mfumo wa usanisi wa masharti ya maandishi ya nukta 3D unaotumia miundo ya usambaaji kuunda maumbo mbalimbali na changamano ya 3D yanayoendeshwa na maandishi changamano. ishara.kwa dakika kwenye GPU moja.
Utendaji wa ajabu wa mifano ya kisasa ya utengenezaji wa picha umechochea utafiti katika uzalishaji wa vitu vya maandishi vya 3D.Hata hivyo, tofauti na miundo ya 2D, ambayo inaweza kutoa matokeo kwa dakika au hata sekunde, miundo ya kuzalisha vitu kwa kawaida huhitaji saa kadhaa za kazi ya GPU ili kutoa sampuli moja.
Katika makala mapya Point-E: Mfumo wa kuzalisha mawingu yenye ncha za 3D kutoka kwa mawingu changamano, timu ya utafiti ya OpenAI inawasilisha Point·E, mfumo wa usanisi wa masharti wa maandishi kwa mawingu yenye pointi za 3D.Mbinu hii mpya hutumia muundo wa uenezi kuunda maumbo anuwai na changamano ya 3D kutoka kwa mawimbi changamano ya maandishi kwa dakika moja au mbili kwenye GPU moja.
Timu inaangazia changamoto ya kubadilisha maandishi hadi 3D, ambayo ni muhimu katika kuweka kidemokrasia uundaji wa maudhui ya 3D kwa matumizi ya ulimwengu halisi kuanzia uhalisia pepe na michezo ya kubahatisha hadi muundo wa viwanda.Mbinu zilizopo za kubadilisha maandishi hadi 3D ziko katika makundi mawili, ambayo kila moja ina vikwazo vyake: 1) mifano ya kuzalisha inaweza kutumika kuzalisha sampuli kwa ufanisi, lakini haiwezi kuongeza kwa ufanisi kwa ishara mbalimbali na ngumu za maandishi;2) kielelezo cha picha ya maandishi kilichofunzwa awali kushughulikia viashiria changamano na tofauti vya maandishi, lakini mbinu hii ni ya kimahesabu na muundo unaweza kukwama kwa urahisi katika minima ya ndani ambayo hailingani na vitu vyenye maana au dhabiti vya 3D.
Kwa hivyo, timu iligundua mbinu mbadala ambayo inalenga kuchanganya nguvu za mbinu mbili zilizo hapo juu, kwa kutumia kielelezo cha uenezaji wa maandishi-hadi-picha uliofunzwa kwenye seti kubwa ya jozi za picha-maandishi (kuiruhusu kushughulikia ishara tofauti na ngumu) na muundo wa uenezaji wa picha wa 3D uliofunzwa kwenye seti ndogo ya jozi za picha za maandishi.seti ya data ya jozi ya picha-3D.Muundo wa maandishi-hadi-picha kwanza hutoa sampuli ya picha ya ingizo ili kuunda uwakilishi mmoja wa sanisi, na muundo wa picha-hadi-3D huunda wingu la pointi za 3D kulingana na picha iliyochaguliwa.
Mrundikano wa kuunda amri unatokana na mifumo ya uzalishaji iliyopendekezwa hivi majuzi ya kutoa picha kwa masharti kutoka kwa maandishi (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Wanatumia kielelezo cha GLIDE kilicho na vigezo bilioni 3 vya GLIDE (Nichol et al., 2021), vilivyowekwa vyema kwenye vielelezo vilivyotolewa vya 3D, kama kielelezo chao cha kubadilisha maandishi-hadi-picha, na seti ya miundo ya usambaaji ambayo hutoa mawingu ya uhakika ya RGB kama zao. mfano wa mabadiliko.picha kwa picha.Mifano ya 3D.
Wakati kazi ya awali ilitumia usanifu wa 3D kuchakata mawingu ya uhakika, watafiti walitumia mtindo rahisi wa msingi wa transducer (Vaswani et al., 2017) ili kuboresha ufanisi.Katika usanifu wao wa muundo wa uenezaji, picha za wingu za nukta hutunzwa kwanza katika muundo wa ViT-L/14 CLIP uliofunzwa awali na kisha meshi za kutoa huwekwa kwenye kigeuzi kama vialamisho.
Katika utafiti wao wa majaribio, timu ililinganisha mbinu iliyopendekezwa ya Point·E na miundo mingine ya uzalishaji ya 3D kwenye mawimbi ya alama kutoka kwa utambuzi wa kitu cha COCO, sehemu na seti za data za sahihi.Matokeo yanathibitisha kwamba Point·E inaweza kutoa maumbo mbalimbali na changamano ya 3D kutoka kwa mawimbi changamano ya maandishi na kuongeza kasi ya muda wa marejeleo kwa oda moja hadi mbili za ukubwa.Timu inatumai kazi yao itahamasisha utafiti zaidi katika usanisi wa maandishi wa 3D.
Muundo wa uenezi wa wingu uliofunzwa na msimbo wa tathmini unapatikana kwenye GitHub ya mradi.Document Point-E: Mfumo wa kuunda mawingu ya uhakika wa 3D kutoka kwa vidokezo changamano uko kwenye arXiv.
Tunajua kuwa hutaki kukosa habari zozote au uvumbuzi wa kisayansi.Jiandikishe kwa jarida letu maarufu la Kila Wiki la Synced AI ili kupokea masasisho ya kila wiki ya AI.


Muda wa kutuma: Dec-28-2022