加入收藏 | 设为首页 | 会员中心 | 我要投稿 银川站长网 (https://www.0951zz.com/)- 云通信、基础存储、云上网络、机器学习、视觉智能!
当前位置: 首页 > 综合聚焦 > 移动互联 > 数码 > 正文

RTX 2060用户发来贺电配不配 AMD

发布时间:2023-05-24 09:21:43 所属栏目:数码 来源:
导读:LLaMA13B Meta的语言模型,现在用2060就能跑了~羊驼家族的Alpaca和Vicuna也都能运行,显存最低只需要6G,简直是低VRAM用户的福音有没有。这种操作的大致原理是利用最新版CUDA,可以将相应的Transformer中可用的任意数

LLaMA13B Meta的语言模型,现在用2060就能跑了~

羊驼家族的Alpaca和Vicuna也都能运行,显存最低只需要6G,简直是低VRAM用户的福音有没有。

这种操作的大致原理是利用最新版CUDA,可以将相应的Transformer中可用的任意数量的层对象放在相应的GPU服务器上独立地运行。

与此前llama.cpp项目完全运行在CPU相比,用GPU替代一半的CPU可以将效率提高将近2倍。

网友实测的结果中,使用CPU每秒能跑2.1个token,而用GPU能跑3.2个。

如何操作在开始搭建之前,我们需要先申请获得LLaMA的访问权限。

传送门:https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

此外还需要有一个Linux环境。

准备工作完成之后,第一步是将llama.cpp克隆到本地。

接着是新建一个txt文本文档,把提示词输入进去,然后就可以运行了。

这步当中-ngl后面的数字是可以修改的,它代表了转换层的数量。

当该值为18时,运行中消耗的VRAM为5.5GB,根据显存的大小最高可以调至40。这个功能的好处是不需要额外的电源,只需要一个usb-c接口就可以实现。

(编辑:银川站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!