RTX 2060用户发来贺电配不配 AMD

发布时间：2023-05-24 09:21:43 所属栏目：数码来源：

导读：LLaMA13B Meta的语言模型，现在用2060就能跑了~羊驼家族的Alpaca和Vicuna也都能运行，显存最低只需要6G，简直是低VRAM用户的福音有没有。这种操作的大致原理是利用最新版CUDA，可以将相应的Transformer中可用的任意数

LLaMA13B Meta的语言模型，现在用2060就能跑了~

羊驼家族的Alpaca和Vicuna也都能运行，显存最低只需要6G，简直是低VRAM用户的福音有没有。

这种操作的大致原理是利用最新版CUDA，可以将相应的Transformer中可用的任意数量的层对象放在相应的GPU服务器上独立地运行。

与此前llama.cpp项目完全运行在CPU相比，用GPU替代一半的CPU可以将效率提高将近2倍。

网友实测的结果中，使用CPU每秒能跑2.1个token，而用GPU能跑3.2个。

如何操作在开始搭建之前，我们需要先申请获得LLaMA的访问权限。

传送门：https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

此外还需要有一个Linux环境。

准备工作完成之后，第一步是将llama.cpp克隆到本地。

接着是新建一个txt文本文档，把提示词输入进去，然后就可以运行了。

这步当中-ngl后面的数字是可以修改的，它代表了转换层的数量。

当该值为18时，运行中消耗的VRAM为5.5GB，根据显存的大小最高可以调至40。这个功能的好处是不需要额外的电源，只需要一个usb-c接口就可以实现。

（编辑：银川站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

首发价699元，小米上线	真的假的？研究称智能
索尼决定终止PS5多人模	不叫Galaxy Z Fold4 消