windows 直接安装llama.cpp的方法-洪萨配资

windows 直接安装llama.cpp的方法：

winget install llama.cpp

如果下载那步卡住，可以复制显示出来的链接用讯雷下载后，解压即可使用，需要手动配置Path环境变量指向该目录。
讯雷下载时没有资源下载的话，先转到云盘再从云盘里下载下来。
如：https://github.com/ggml-org/llama.cpp/releases/download/b9310/llama-b9310-bin-win-vulkan-x64.zip

另附llama.cpp 各平台安装包下载

https://github.com/ggml-org/llama.cpp/releases
winget 安装的是vulkan版本，如果想安装cuda版本，可到此下载。

两个版本的区别

vulkan：支持英伟达gpu、intel igpu（核显）、CPU
cuda：支持英伟达gpu、CPU

资料显示，都使用英伟达gpu时，cuda比vulkan速度上快约 30-40%，实测快10-15%。

使用cuda版本还有个好处，当ngl 设置为99时，当显存不足时优先使用显存再用共享内存补齐，也能跑模型。用vulkan版本时，当显存不足会直接加载失败。

模型下载地址

因为hdf.sh无法正常链接https://huggingface.co/settings/tokens 注册用户和获取token，
使用由阿里巴巴通义实验室，联合CCF开源发展技术委员会的社区下载。

https://modelscope.cn/models

注意：llama.cpp需使用的是gguf版本的模型，下载.gguf结尾的即可。

服务启动命令

单模型模式

llama-server -m D:\llama.cpp\models\Qwen3.5-4B-Q4_0.gguf -a Qwen3.5-4B-Q4_0 -b 512 -ngl 99 -rea auto --mlock --port 11444 -c 65535

模型路由模式

llama-server --models-dir D:\llama.cpp\models -b 512 -ngl 99 -rea auto --mlock --port 11444 -c 65535
llama-server --models-dir D:\llama.cpp\models -b 512 -ngl 99 -rea auto --mlock --port 11444 --models-max 1

参数：

中文对照 https://zhuanlan.zhihu.com/p/2038693936693302037
–mlock：锁死内存，防止使用虚拟内存导致的全机卡顿（最重要！）。
-a：设置模型别名。
-b 512：增大批处理，显著减少“首字等待时间”（从 7 秒降到 2 秒左右的关键）。
-ngl 99：0全使用cpu，99全使用gpu。当显存够时用99。
-rea, --reasoning [on|off|auto] ，在对聊天中使用 reasoning/thinking (‘on’, ‘off’, or ‘auto’, 默认: ‘auto’ (detect from template))
–models-max：路由模式下内存驻留的最大模型数。

2026年企业级AI大模型API平台深度评测：可用性、兼容性与运维成本多维对比

2026年企业级AI大模型API平台深度评测：可用性、兼容性与运维成本多维对比随着大语言模型技术深入企业核心生产环节，API聚合与调度平台已演变为关键的数字基础设施。它不再仅仅是流量的中转站，更直接关系到业务连续性、数据安全合规以及长期的…

李华

博主介绍：✨ 专业背景专注Java企业级开发与小程序生态，全网影响力10万开发者，CSDN特邀作者、技术专家、新星计划导师。 🎯 核心服务 📚 毕业设计智库微信小程序方向：100个前沿选题 Java企业级方向&#x…

李华

别再瞎调了！手把手教你用CUDA Occupancy API计算最佳grid和block大小

突破性能瓶颈：用CUDA Occupancy API精准计算线程配置在GPU加速计算的世界里，每个CUDA开发者都曾面临过这样的困境——精心设计的kernel函数，却因为不合理的grid和block配置而无法发挥硬件全部潜力。当你在V100、A100或RTX 3090等不同架构的GP…

李华

从IMU数据流到稳定画面：深入海思Hi3516DV500陀螺仪防抖的底层数据链路

从IMU数据流到稳定画面：深入海思Hi3516DV500陀螺仪防抖的底层数据链路在视频监控与移动拍摄领域，画面稳定性直接决定了用户体验的优劣。海思Hi3516DV500平台凭借其独特的陀螺仪防抖技术，为行业提供了高性价比的解决方案。本文将带您深入这套…

李华

别再只盯着CD和EMD了！点云补全评估指标F-Score与DCD实战解读（附代码示例）

点云补全评估指标F-Score与DCD深度解析：从理论到代码实践在三维视觉领域，点云补全技术的评估一直依赖传统的倒角距离(CD)和地球移动距离(EMD)指标。然而，随着算法精度的提升和应用场景的复杂化，仅靠这两个指标已经难以全面评估补全…

李华

政府事业单位人事管理问答：泛微・聚才林适配方案全解答

一、政府事业单位人事管理的核心要求有哪些？政府事业单位人事管理的核心要求是规范化、合规化、标准化、数字化，需严格遵循相关管理规定，实现人员编制、入转调离、薪酬绩效、培训考核、档案管理等工作的规范管控，同时保障人事数据…

李华