Phi-4 技术报告 – 搞英语 → 看世界

Phi-4 是微软研究院最新的法学硕士。它拥有14B参数，号称是整个Phi系列的一大飞跃。介绍 Phi-4：微软最新的专门从事复杂推理的小语言模型：

由于整个过程的进步，包括高质量合成数据集的使用、高质量有机数据的管理和训练后创新，Phi-4 在数学相关推理方面优于同类和更大的模型。 Phi-4 继续推动尺寸与质量的前沿。

该模型目前可通过 Azure AI Foundry获得。我不知道如何在那里访问它，但微软计划在未来几天内通过 Hugging Face 发布它。目前还不清楚他们将使用什么许可证 – 希望是 MIT，就像该系列之前的模型所使用的那样。

与此同时，非官方的 GGUF 版本已经出现在 Hugging Face 上。我得到了一个matteogeniaccio/phi-4 GGUF 与我的LLM工具和llm-gguf 插件一起使用，如下所示：

 llm install llm-gguf llm gguf download-model https://huggingface.co/matteogeniaccio/phi-4/resolve/main/phi-4-Q4_K_M.gguf llm chat -m gguf/phi-4-Q4_K_M

这会下载一个 8.4GB 的模型文件。以下是我通过使用该模型收集的一些初始记录记录。

我在 Azure AI Foundry 页面上发现的一个有趣的细节是：

代码范围有限：大多数 phi-4 训练数据基于 Python 并使用常见的包，例如typing 、 math 、 random 、 collections 、 datetime 、 itertools 。如果模型生成的 Python 脚本使用其他包或其他语言的脚本，我们强烈建议用户手动验证所有 API 使用情况。

这就引出了该模型最有趣的事情：它在合成数据上的训练方式。技术报告对此有很多详细信息，包括关于为什么合成数据可以为模型提供更好指导的注释：

合成数据作为预训练的重要组成部分变得越来越普遍，Phi 系列模型一直强调合成数据的重要性。合成数据不是有机数据的廉价替代品，而是比有机数据有几个直接的优势。

结构化和渐进式学习。在有机数据集中，标记之间的关系通常是复杂且间接的。可能需要许多推理步骤才能将当前标记连接到下一个标记，这使得模型很难从下一个标记预测中有效学习。相比之下，语言模型生成的每个标记根据定义都是由前面的标记预测的，从而使模型更容易遵循生成的推理模式。

本节介绍他们生成该数据的方法：

我们为 phi-4 生成合成数据的方法遵循以下原则：

多样性：数据应全面涵盖每个领域内的子主题和技能。这需要从有机来源中挑选不同的种子。

细微差别和复杂性：有效的培训需要细致入微、重要的示例来反映该领域的复杂性和丰富性。数据必须超越基础知识，包括边缘案例和高级示例。

准确性：代码应正确执行，证明应有效，解释应遵循既定知识等。

思维链：数据应该鼓励系统推理，逐步教导模型解决问题的各种方法。

通过@peteratmsr

标签： llm 、 phi 、生成人工智能、训练数据、 ai 、微软、 llms 、人工智能辅助编程、 python

原文： https://simonwillison.net/2024/Dec/15/phi-4-technical-report/#atom-everything