By yinguobing in Rust — 2024年4月21日

LLaMA 3的Rust推理

借助Candle实现LLaMA 3的快速推理

封面图片由通义万相生成

LLaMA 3发布之后，作为最强开原模型又刷了一波流量。不仅各种开源库迅速做了适配，众多云服务厂商也迅速将其集成到了自家的API服务中。

当然，HuggingFace也迅速对LLaMA 3做了适配，并且给出了Python下的调用示例。Candle也不甘落后，在昨天迅速完成了对LLaMA 3的支持。

其中8B-Instruct这个模型支持指令与对话。如果需要在本地实现Rust推理，需要多做一些工作。