LLaMA 3的Rust推理

借助Candle实现LLaMA 3的快速推理

LLaMA 3的Rust推理
封面图片由通义万相生成

LLaMA 3发布之后,作为最强开原模型又刷了一波流量。不仅各种开源库迅速做了适配,众多云服务厂商也迅速将其集成到了自家的API服务中。

当然,HuggingFace也迅速对LLaMA 3做了适配,并且给出了Python下的调用示例。Candle也不甘落后,在昨天迅速完成了对LLaMA 3的支持。

Use llama v3 by default + add to readme. (#2094) · huggingface/candle@52ae332
Minimalist ML framework for Rust. Contribute to huggingface/candle development by creating an account on GitHub.

其中8B-Instruct这个模型支持指令与对话。如果需要在本地实现Rust推理,需要多做一些工作。