llama.cpp的主要目标是在MacBook上使用4位整数量化来运行llama模型
无依赖关系的纯C/C++实现
苹果硅一流公民-通过ARM NEON和Accelerate框架进行优化
支持x86体系结构的AVX、AVX2和AVX512
F16/F32混合精度
支持4位、5位和8位整数量化
在CPU上运行
OpenBLAS支持
cuBLAS和CLBlast支持
llama.cpp的原始实现在一个晚上被黑客入侵。
从那时起,由于许多贡献,该项目有了显著改善。本项目为教育目的,服务于
作为开发ggml库新功能的主要场所。
支持的平台:
Mac操作系统
Linux操作系统
Windows(通过CMake)
码头工人
用户评论