Laboratori OpenAI prezanton produktin e ri Point-E. Kthen tekstet në imazhe 3D

0

Përparimi tjetër për të kapur botën me AI mund të jenë gjeneratorët e modeleve 3D. Këtë javë, laboratori i Inteligjencës Artificiale, “OpenAI” prezantuan produktin e tyre të ri Point-E, një sistem i mësimit të makinerive që krijon një objekt 3D vetëm me një kërkesë teksti.

Sipas një punimi të publikuar së bashku me bazën e kodit, Point-E mund të prodhojë modele 3D në një deri në dy minuta në një GPU të vetme Nvidia V100.

Point-E nuk krijon objekte 3D në kuptimin tradicional. Përkundrazi, ai gjeneron re pikash, ose grupe diskrete pikash të dhënash në hapësirë që përfaqësojnë një formë 3D – prandaj shkurtesa (“E” në Point-E është shkurtesë për “efikasitet”, sepse në dukje është më e shpejtë se qasjet e mëparshme të gjenerimit të objekteve 3D.) Retë e pikave janë më të lehta për t’u sintetizuar nga pikëpamja llogaritëse, por ato nuk kapin grimcat e imta të një objekti duke mos e riprodhuar me formë ose cilësi – një kufizim kryesor i Point-E aktualisht.

 

 

Për të kapërcyer këtë kufizim, ekipi i Point-E trajnoi një sistem shtesë të Inteligjencës Artificiale për të kthyer retë e pikës së Point-E në rrjeta. (Rrjetat – koleksionet e kulmeve, skajeve dhe fytyrave që përcaktojnë një objekt – përdoren zakonisht në modelimin dhe dizajnin 3D.) Por ata vërejnë në letër se modelit ndonjëherë mund të humbasin pjesë të caktuara të objekteve, duke rezultuar në forma të bllokuara ose të shtrembëruara.

Jashtë modelit të gjenerimit të rrjetës, i cili qëndron i vetëm, Point-E përbëhet nga dy modele: një model tekst-në-imazh dhe një model nga imazhi në 3D. Modeli tekst-për-imazh, i ngjashëm me sistemet e artit gjenerues si DALL-E 2 dhe Stable Diffusion i OpenAI-t, u trajnua në imazhe të etiketuara për të kuptuar lidhjet midis fjalëve dhe koncepteve vizuale. Modeli imazh-në-3D, nga ana tjetër, iu dha një grup imazhesh të çiftuara me objekte 3D në mënyrë që të mësonte të përkthej në mënyrë efektive midis të dyjave.

Pas trajnimit të modeleve në një grup të dhënash prej “disa milionë” objektesh 3D dhe meta të dhënave të lidhura, Point-E mund të prodhojë re pikash me ngjyra që përputhen shpesh me kërkesat e tekstit, thonë studiuesit e OpenAI. Por, sistemi ende nuk është perfekt – Modeli imazh-në-3D i Point-E ndonjëherë nuk arrin të kuptojë imazhin nga modeli tekst-në-imazh, duke rezultuar në një formë që nuk përputhet me kërkesën e tekstit.

businessmag.al