微软开源,CPU推理100B模型,速度飞起~

周末快乐!早上刷到这个可能挺多小伙伴喜欢的内容,分享一下。

微软最新开源框架,bitnet.cpp,致力于在CPU上对超大尺寸模型的推理,不仅能跑,还能达到人工阅读的速度(每秒5~7个token)!

bitnet.cpp 是 1bit LLMs(如 BitNet b1.58)的官方推理框架。它提供了一套优化的内核,支持在 CPU 上对 1.58 bit模型进行快速无损的推理(接下来将支持 NPU 和 GPU)。

目前,在 x86 CPU 上,加速范围为 2.37 倍到 6.17 倍,能耗降低在 71.9% 到 82.2% 之间。

bitnet.cpp 可以在单个 CPU 上运行 100B BitNet b1.58 模型,达到与人阅读相当的速度(每秒 5-7 个token),显着增强了在本地设备上运行 LLMs。

项目地址:https://github.com/microsoft/BitNet

IMG_256

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容