31. marzo 2026 · Ars Technica
Per chi desidera sperimentare con l'Intelligenza Artificiale senza dipendere dai server in cloud, ci sono ottime notizie. Ollama, uno dei software più popolari per far girare i modelli linguistici di grandi dimensioni (LLM) direttamente sul proprio computer, ha appena fatto un importante salto di qualità. L'ultimo aggiornamento introduce infatti il supporto ufficiale a MLX, il framework open source sviluppato da Apple appositamente per ottimizzare i calcoli di machine learning sui propri dispositivi.
All'atto pratico, per gli utenti Mac dotati di processori Apple Silicon (dal chip M1 in poi), questa novità si traduce in un drastico incremento delle prestazioni. Il software ora dialoga in modo molto più diretto ed efficiente con l'hardware di Cupertino. Ma le migliorie non riguardano solo l'ecosistema Apple: gli sviluppatori hanno ottimizzato la gestione della memoria cache e introdotto la compatibilità con il formato di compressione NVFP4 di Nvidia. Questo accorgimento permette di "snellire" i modelli, riducendo pesantemente il consumo di memoria RAM senza sacrificare la qualità e la precisione delle risposte.
L'aggiornamento arriva con un tempismo perfetto. L'elaborazione dell'IA "in locale" sta infatti uscendo dalla nicchia dei ricercatori e degli smanettoni per conquistare un pubblico sempre più vasto, attratto dalla garanzia di maggiore privacy e dal controllo totale sui propri dati. A fare da traino a questa rivoluzione silenziosa sono fenomeni come OpenClaw, un modello open source che ha letteralmente spopolato su GitHub superando le 300.000 stelle. Tra esperimenti virali come il progetto Moltbook e una vera e propria febbre tecnologica scoppiata in Cina, trasformare il proprio portatile in un cervello digitale personale non è mai stato così allettante e alla portata di tutti.
Ollama, a runtime system for operating large language models on a local computer, has introduced support for Apple’s open source MLX framework for machine learning. Additionally, Ollama says it has improved caching performance and now supports Nvidia’s NVFP4 format for model compression, making for much more efficient memory usage in certain models.
Combined, these developments promise significantly improved performance on Macs with Apple Silicon chips (M1 or later)—and the timing couldn’t be better, as local models are starting to gain steam in ways they haven’t before outside researcher and hobbyist communities. The recent runaway success of OpenClaw—which raced its way to over 300,000 stars on GitHub , made headlines with experiments like Moltbook and became an obsession in China in particular —has many people experimenting with running models on their machines. As developers get frustrated with rate limits and the high cost of top-tier subscriptions to tools like Claude Code or ChatGPT Codex, experimentation with local coding models has heated up.
(Ollama also expanded Visual Studio Code integration recently.) The new support is available in preview (in Ollama 0.19) and currently supports only one model—the 35 billion-parameter variant of Alibaba’s Qwen3.5 . Hardware requirements are intense by normal users’ standards. Users need an Apple Silicon-equipped Mac, sure, but they also need at least 32GB of RAM, according to Ollama’s announcement .
Further, Ollama now takes advantage of the new Neural Accelerators in Apple’s M5-series GPUs, so those brand-new Macs should see extra advantages in both tokens-per-second and time-to-token. Local models still lag behind frontier models in benchmarks, but we’re getting to the point that they’re good enough for some tasks users might normally pay a subscription for—and of course, there are privacy advantages to running models locally compared to cloud-based services, though we definitely do not recommend OpenClaw-like setups that give models deep access to your system. The main barriers remain setup (Ollama is first and foremost a command-line tool, though other interfaces have been made available) and hardware capabilities, especially video memory.
Apple’s MLX offers optimized access to the memory on Apple’s chips, which is shared between the GPU and CPU—a different approach from the desktop machines with dedicated GPUs that Ollama has targeted before. This by no means closes the gap between cloud models and local ones for most users, but it’s potentially a step in the right direction for modern Mac users. Ollama hasn’t shared a timeline for when MLX support will exit preview and branch out to more models.