Ternary Bonsai: kraftig AI på 1,75 GB

TokenPrat-redaksjonen

29 Apr 2026 — 1 min read

En 8-milliarders parametersmodell som kjører på en iPhone og
bruker under 2 GB RAM. Det er ikke en kompromissmodell –
den slår de fleste fullstørrelsesmodeller i sin klasse.

Hva er 1,58-bit?

Tradisjonelle modeller lagrer hver vekt med 16 eller 32 bits.
Ternary Bonsai bruker bare tre mulige verdier per vekt:
{-1, 0, +1}. Matematisk kreves det log₂(3) ≈ 1,58 bits
for å representere tre tilstander – derav navnet.

Resultatet er en kompresjon på 9x sammenlignet med standard
16-bits modeller, bygget inn i selve arkitekturen fra starten –
ikke lagt på som et etterbehandlingssteg.

Tallene som imponerer

Minnekravene er nesten utrolig lave for det du får:

8B – 1,75 GB (mot 16,4 GB i standard format)
4B – 0,86 GB (mot ~8 GB)
1,7B – 0,37 GB (mot ~3,4 GB)

Til sammenligning: Ternary Bonsai 8B scorer 75,5 i
gjennomsnitt på tvers av standardtester, og ligger kun
bak Qwen3 8B – som krever 16 GB RAM.

Ytelse i praksis

På M4 Pro kjører 8B-modellen 82 tokens per sekund –
omtrent 5x raskere enn en fullpresisjon 8B-modell.
På iPhone 17 Pro Max er hastigheten 27 tokens per sekund.

Energiforbruket er tilsvarende lavt: 0,105 mWh per token
på M4 Pro, mot vesentlig høyere forbruk for fullpreisionsmodeller.

Gratis og åpen

Alle tre modellene er tilgjengelige under Apache 2.0-lisens.
De kjører nativt på Apple-enheter via MLX, og CUDA/Vulkan-støtte
for Windows og Linux er på vei via en fork av llama.cpp.

PrismML ble grunnlagt av forskere fra Caltech og er støttet
av Khosla Ventures og Google.

Hva betyr dette?

Kraftig AI trenger ikke lenger kraftig maskinvare.
Ternary Bonsai er et konkret eksempel på at retningen
mot lokal, privat og energieffektiv AI ikke handler
om å ofre ytelse – men om å finne smartere måter å
pakke intelligens på.

Ressurser

PrismML – offisiell side og whitepaper
Hugging Face – Ternary Bonsai –
last ned modellene
Apache 2.0 Lisens –
vilkår for bruk

PixVerse R1: Avatarer, delte verdener og ingen tidsbegrensning

PixVerse har oppdatert R1 – sin sanntids verdensmodell – med tre konkrete nyheter som endrer hva plattformen faktisk er. Bli deg selv i den genererte verden Via en ny Avatars-fane kan brukere laste opp én til tre bilder av seg selv – front, side og bakfra – og generere en digital karakter som representerer

Smarte triks på hjemmebane: Slik sikrer du deg mot AI-trusler

AI gjør det enklere for angripere å finne og utnytte sikkerhetshull – raskere og i større skala enn før. Det betyr ikke at du trenger avanserte mottiltak. Det betyr at de enkle tiltakene du kanskje har utsatt, nå haster mer. Tofaktorautentisering – og ikke via SMS 2FA er fortsatt det mest effektive

PolarQuant og QJL: Matematikken bak TurboQuant

TurboQuant er ikke én teknikk – det er to separate algoritmer som jobber i sekvens. Forstår du hvordan PolarQuant og QJL fungerer, forstår du hvorfor TurboQuant er annerledes. PolarQuant: En ny vinkel på vektorer Tradisjonell vektorkomprimering krever at modellen beregner og lagrer normaliseringskonstanter for hvert lille datablock. Det er overhead som

AI-minnekrisen: Derfor er HBM blitt en geopolitisk råvare

Bak enhver stor språkmodell sitter et stykke maskinvare som verden ikke klarer å produsere raskt nok: High Bandwidth Memory. HBM – flaskehalsen ingen snakker om HBM er den kritiske komponenten i moderne AI-akseleratorer. Det er ikke prosessorkraft som begrenser AI-veksten – det er minnet som flyttes til og fra prosessoren. Produksjonen domineres