RTX 2060用户发来贺电配不配 AMD
LLaMA13B Meta的语言模型,现在用2060就能跑了~ 羊驼家族的Alpaca和Vicuna也都能运行,显存最低只需要6G,简直是低VRAM用户的福音有没有。 这种操作的大致原理是利用最新版CUDA,可以将相应的Transformer中可用的任意数量的层对象放在相应的GPU服务器上独立地运行。 与此前llama.cpp项目完全运行在CPU相比,用GPU替代一半的CPU可以将效率提高将近2倍。 网友实测的结果中,使用CPU每秒能跑2.1个token,而用GPU能跑3.2个。 如何操作在开始搭建之前,我们需要先申请获得LLaMA的访问权限。 传送门:https://ai.facebook.com/blog/large-language-model-llama-meta-ai/ 此外还需要有一个Linux环境。 准备工作完成之后,第一步是将llama.cpp克隆到本地。 接着是新建一个txt文本文档,把提示词输入进去,然后就可以运行了。 这步当中-ngl后面的数字是可以修改的,它代表了转换层的数量。 当该值为18时,运行中消耗的VRAM为5.5GB,根据显存的大小最高可以调至40。这个功能的好处是不需要额外的电源,只需要一个usb-c接口就可以实现。 (编辑:银川站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |