微软首个多模态Phi-4问世
近日,微软宣布其首个多模态语言模型Phi-4正式问世。这款模型由LoRA华人团队带队开发,拥有56亿参数,集成了语音、视觉和文本处理的多模态能力,成为微软人工智能领域的新里程碑。
Phi-4-multimodal作为微软首款统一架构的多模态语言模型,能够在同一表示空间内同时处理多种输入模态,实现更自然、更具上下文感知能力的交互。据官方介绍,该模型在读图推理性能上碾压GPT-4o,并在自动语音识别和语音翻译方面超越了专业模型。
此外,Phi-4-multimodal还支持设备端执行,针对减少计算开销进行了优化,非常适合在边缘计算平台上部署。目前,该模型已在Azure AI Foundry、HuggingFace和NVIDIA API Catalog等平台上线,开发者可以轻松进行实验和创新。
微软Phi-4的问世,标志着人工智能技术在多模态交互领域取得了重要突破,为未来的智能设备和应用提供了更强大的技术支持。
免责声明:免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!