欢迎访问科技-3D打印网

摩尔线程新方法优化AI交互

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

人工智能 35
摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。摩尔线程新方法优化AI交互:显存节省最多82%近年来,AI大型语言模型的进步,推动了语...