Ukens AI-nyheter: Resonnerende video, 3D-rekonstruksjon og robotikk

Ukens AI-nyheter: Resonnerende video, 3D-rekonstruksjon og robotikk

De viktigste gjennombruddene fra siste uke – fra videogeneratorer som resonnerer, til roboter som løper i 5 m/s og bærer 100 kg.

VBVR + WANVideo

Et nytt rammeverk lar videogeneratoren WAN løse visuelle puslespill og utføre presise instruksjonsstyrte handlinger. VBVR forbedrer modellens evne til å resonnere over tid – den kan nå løse geometri, matche former og slå toppmodeller på komplekse fysikkoppgaver som væskelikevekt og 3D-rotasjon.

TTTLRM3D

Ny metode som bygger detaljerte 3D-modeller direkte fra fotografier. Lærer "på stedet" når den mates med bilder, og overgår klassiske metoder som 3D Gaussian Splatting på konsistens og detaljer.

DreamID OmniVideo

ByteDance har vist frem en generator som lager og redigerer snakkende personer ved bruk av bilde- og stemmereferanser. Støtter flere karakterer i samme klipp – mer avansert "filmregi" enn tradisjonelle face-swap-metoder.

Quiver Arrow 1Grafikk

Spesialisert modell for vektorgrafikk (SVG). Slår generelle språkmodeller på ikonografi og komplekse vektor-scener, og kan vektorisere eksisterende bilder til rene, redigerbare stier.

SolarisVideo

Genererer synkron førstepersonsvideo for to spillere i samme Minecraft-verden. Et spennende steg mot fler-agent AI der to boter samarbeider, bygger og miner i et konsistent miljø.

Unitree & AGI Bot G2Robotikk

Unitree viser frem en robot-hund som løper i 5 m/s og bærer over 100 kg i røft terreng. AGI Bot G2 sikter på fabrikkpresisjon med submillimeter-nøyaktighet for elektronikkhåndtering, drevet av Nvidia Jetson.

Ressurser

Read more