Krátký zápisek z praxe, protože se mě na to čas od času někdo ptá: jaký model jedu lokálně.
Většinou Qwen 3.5 Coder na M5 Max, a za mě už je to docela použitelný. Jasně, se Sonnetem nebo Opusem 4.6 se to srovnávat nedá, ale pocitově mi to připomíná něco jako Sonnet 3.5 (plus minus), co jsem používal někdy v létě.
Jednodušší věci dá na one shot (třeba hada 🤣), ale jinak ho musíš víc pást. Nestačí mu říct, co chceš, hlavně mu musíš říct, jak to chceš, co použít a tak dál. Ale dá se s tím pracovat.
Používám ho hlavně na věci, kam nechci pouštět online LLM: typicky nasazení na produkci nebo práce s citlivějšími daty. Když data nesmí ven z mého stroje, není co řešit, model běží u mě a hotovo.
A na to, že to celé jede na lokálu, je to vlastně neuvěřitelně dobrý. Když vezmeš, kde jsme byli ještě před rokem, je ten skok obrovský. Lokální modely přestaly být hračka pro nadšence a začaly být reálný nástroj do práce.
Mně to sedí do toho, jak mám rád věci celkově: pod vlastní kontrolou, na vlastním železe, bez toho, aby mi data protékala přes cizí servery. Cloud na těžký reasoning pořád používám, ale je fajn mít možnost sáhnout po něčem, co nikdy neopustí stůl.