Ollama是一个专门在本地计算机上运行大语言模型的运行时系统,现已新增对苹果开源机器学习框架MLX的支持。此外,Ollama还改进了缓存性能,并支持英伟达的NVFP4格式进行模型压缩,大幅提升了特定模型的内存使用效率。