系统极客一直在努力
专注操作系统及软件使用技能

微软推出 Phi-3.5 系列:Mini、MoE、Vision 三款开源 AI 模型

Phi-3

微软刚推出了三款全新的 Phi-3.5 系列开源 AI 模型,包括 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。这些模型是对 Phi-3 系列的扩展和延伸,进一步丰富了微软的人工智能产品线。

这些模型涵盖了从基础推理到高级图像与视频分析等多种任务需求。接下来,本文将对这些模型的技术规格和性能进行详细介绍。

Phi-3.5 已经上线 Ollama 模型库,方便快速本地部署

Phi-3.5-mini-instruct:紧凑型高效模型

Phi-3.5-mini-instruct 拥有 38 亿参数,专为计算资源有限的环境设计,擅长代码生成、数学问题解决和逻辑推理等任务。它支持 128K Token 的上下文长度,在 RepoQA 基准测试中超越了同等级的 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。该模型通过 512 个 H100 GPU 训练了 3.4 万亿 Token,树立了长上下文代码理解的新标准。

  • 参数:38 亿
  • 架构:纯 Transformer 解码器
  • 上下文长度:128K Token
  • 训练数据:3.4 万亿 Token
  • 训练基础设施:512 个 H100-80G GPU
  • 训练时长:10 天

Phi-3.5-mini-instruct 尽管参数较少,但表现优异,是资源受限环境下的理想选择。

Phi-3.5-MoE-instruct:混合专家架构

Phi-3.5-MoE-instruct 采用了混合专家(MoE)架构,将多个专家模型集成到一个系统中。该模型拥有 420 亿参数,但在处理任务时仅激活 66 亿参数,既确保了高效计算,又具备可扩展性。它同样支持 128K Token 的上下文长度,在代码、数学和多语言理解等推理任务中表现卓越,尤其在 RepoQA 和 5-shot MMLU 等基准测试中持续优于更大型的模型。

  • 活跃参数:66 亿(2 个专家)
  • Tokenizer:32K 词汇量
  • 上下文长度:128K Token
  • 训练数据:4.9 万亿 Token(含 10% 多语言数据)
  • 训练基础设施:512 个 H100-80G GPU
  • 训练时长:23 天

此外,Phi-3.5-MoE-instruct 支持多种语言,包括:

  • 欧洲语言:英语、法语、德语、西班牙语、意大利语等
  • 亚洲语言:中文、日语、韩语、泰语
  • 中东语言:阿拉伯语、希伯来语、土耳其语
  • 斯拉夫语言:俄语、乌克兰语

MoE 架构让模型在推理过程中只激活部分参数,实现高效运算,同时仍能利用大规模参数空间。

Phi-3.5-vision-instruct:多模态专长

Phi-3.5-vision-instruct 集成了文本和图像处理能力,在图像理解、光学字符识别、图表与表格分析,以及视频摘要等任务中表现出色。它支持 128K Token 的上下文长度,尤其适用于复杂的多帧视觉任务。该模型使用 256 个 A100 GPU 训练了 5000 亿 Token,在 MMMU、MMBench 和 TextVQA 等基准测试中均表现优异。

  • 参数:42 亿
  • 组件:图像编码器、连接器、投影器、Phi-3.5-Mini 语言模型
  • 训练数据:5000 亿 Token(视觉和文本)
  • 训练基础设施:256 个 A100-80G GPU
  • 训练时长:6 天

Phi-3.5-vision-instruct 结合了视觉和语言处理能力,能够高效处理文本与图像输入,适用于复杂的视觉推理和多模态理解任务。

Phi-3.5 系列开源与许可

以上三款 Phi-3.5 系列模型均已在 Hugging Face 平台开放下载,并采用 MIT 许可证

赞(2) 赞赏

评论 抢沙发

微信赞赏