

由4名MIT研究人员联合创办的Liquid AI,利用非Transformer架构所建置的LFM基础模型家族,宣称在基准测试表现上,已凌驾其他相同规模的Transformer模型,包括Meta Llama、微软 Phi、Stability Stable以及Google Gemma
/Liquid AI
其中,LFM-1.3B在许多基准测试中击败了1B领域的众多好手,包括苹果的OpenELM、Meta的Llama 3.2、微软的Phi 1.5或是Stability的Stable LM 2,Liquid AI说,这是首次有非GPT架构的模型明显超越Transformer模型。
而LFM-3.1B不仅超越了3B领域的各种Transformer模型、混合模型与RNN模型,甚至超越了前一代的7B与13B模型,不管是Google的Gemma 2,苹果的AFM Edge AFM,Meta的Llama 3.2,微软的Phi-3.5都屈居下风。
LFM-40.3B则强调模型规模与输出品质之间的平衡,尽管拥有400亿个参数,但运行时激活120亿个参数来推论,能比美比自己还大的模型,此外,其MoE架构能实现更高的吞吐量,也能部署在更具成本效益的硬件上。
现阶段的LFMs擅长一般知识及专业知识,也能处理数学及逻辑推理,并可有效率地处理长文任务,主要支持英文,也支持中文、法文、德文、西班牙文、日文、韩文与阿拉伯文。较不擅长的则有零样本的代码任务,精确的数值计算,具时效性的信息,也无法计算Strawberry这个字中有多少个R,以及尚未部署人类偏好的优化。