摩尔线程新方法优化AI交互

摩尔线程新方法优化AI交互：显存节省最多82％

人工智能 2025-03-04 35

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》，使得端到端延迟低于现在主流的Flash Attention推理引擎，kv-cache显存占用节省最多82％。摩尔线程新方法优化AI交互：显存节省最多82％近年来，AI大型语言模型的进步，推动了语...

阅读全文

‹‹ 1 ››