Prompt Flow – 让 LLM 应用开发变得更加流畅

共计 5802 个字符，预计需要花费 15 分钟才能阅读完成。

最近在研究如何更系统地开发基于大语言模型的应用时，发现了微软开源的 Prompt Flow 这个工具。说实话，之前也尝试过各种方式来管理和优化提示词，但总感觉缺少一个完整的工作流支持。直到接触到 Prompt Flow，才发现原来 LLM 应用的开发也可以像传统软件开发一样，有一套完整的工程化流程。

为什么需要 Prompt Flow

在实际使用大语言模型开发应用的过程中，我发现了几个让人头疼的问题。首先是提示词的管理，随着项目的发展，各种提示词会变得越来越多，如果只是简单地把它们散落在代码的各个角落，维护起来会非常痛苦。其次是调试的困难，当 LLM 给出的结果不符合预期时，很难快速定位是提示词的问题、模型参数的问题，还是数据流转的问题。还有就是评估和测试，传统的单元测试方法在面对 LLM 这种具有随机性的组件时显得力不从心。

Prompt Flow 的出现正是为了解决这些痛点。它是微软推出的一套开发工具，专门用于简化 LLM 应用的整个开发生命周期，从最初的想法原型、测试评估，一直到生产部署和监控，都有相应的支持。更重要的是，它不仅仅是一个工具，更像是一种开发范式，让我们可以用更工程化的方式来构建 AI 应用。这个项目在 GitHub 上是开源的，同时也集成在 Azure 的 AI 服务中，既可以在本地使用，也可以在云端协作。

核心能力和工作方式

Prompt Flow 最让我印象深刻的是它的可视化工作流设计。你可以把整个 LLM 应用看作是一个由多个节点组成的流程图，每个节点可以是一个 LLM 调用、一个 Python 函数、一个提示词模板，或者其他工具。这种设计让整个应用的逻辑一目了然，不用再去翻代码就能理解数据是如何在各个组件之间流转的。比如我之前做过一个文档问答的应用，流程是这样的:先用一个节点来解析用户的问题，然后调用向量数据库检索相关文档，再把检索结果和问题一起送给 LLM 生成答案，最后还要对答案做一些后处理。在 Prompt Flow 中，这些步骤就是一个个清晰的节点，连接起来就构成了完整的工作流。

在实际使用过程中，我特别喜欢它的调试功能。每个节点的输入输出都可以单独查看和测试，这意味着当某个环节出问题时，我可以快速定位到具体是哪个节点的问题。而且它还提供了对 LLM 调用的追踪功能，能看到每次模型调用的详细信息，包括使用的提示词、返回的结果、消耗的 token 数量等等。这对于理解模型的行为和优化成本都很有帮助。有一次我发现应用的响应变慢了，通过追踪功能发现是某个节点的提示词太长导致的，及时做了优化。

提示词的变体管理是另一个很实用的功能。在开发过程中，我们经常需要尝试不同的提示词来看哪个效果更好。Prompt Flow 允许你为同一个节点创建多个提示词变体，然后批量运行测试数据来比较它们的表现。这比手动一个个测试要高效得多。我曾经用这个功能对比过三个不同风格的提示词，通过在几百条测试数据上的表现，最终选择了一个在准确率和响应速度上都比较均衡的版本。

快速上手

说了这么多概念，还是得动手试试才能真正理解。Prompt Flow 的安装和使用其实都很简单，我第一次尝试的时候，大概半小时就跑通了第一个示例。工具的安装就是一行命令的事情，用 pip 就可以搞定。安装完成后，建议配置一下环境变量，把 OpenAI 或 Azure OpenAI 的 API Key 设置好，这样后面使用起来会更方便。我一般会在项目根目录放一个 .env 文件来管理这些密钥，这样既安全又便于切换不同的环境。

最简单的入门方式是使用 Prompty 格式。这是 Prompt Flow 提供的一种轻量级格式，可以把提示词和配置写在一个 .prompty 文件里。比如我做过一个最简单的聊天机器人，整个文件看起来是这样的：

---
name: Simple Chat
description: A basic chatbot using GPT
model:
  api: chat
  configuration:
    type: azure_openai
    azure_deployment: gpt-35-turbo
  parameters:
    temperature: 0.7
    max_tokens: 800
inputs:
  question:
    type: string
outputs:
  answer:
    type: string
---
system:
You are a helpful AI assistant.

user:
{{question}}

这个格式很直观，上半部分是配置信息，包括模型类型、参数设置、输入输出定义等，下半部分就是实际的提示词。使用双花括号来引用输入变量，这个语法和很多模板引擎类似，很容易理解。有了这个文件后，在命令行运行 pf flow test --flow chat.prompty --inputs question="Hello" 就能看到结果了。第一次运行成功的时候还挺有成就感的，虽然只是个简单的回显，但至少证明整个流程是通的。

如果需要更复杂的逻辑，可以使用 Python 来写 Flow。Prompt Flow 支持两种 Python Flow 的写法，一种是基于函数的，一种是基于类的。我个人比较喜欢基于函数的方式，因为代码更简洁。下面是一个稍微复杂一点的例子，实现了一个会记住上下文的聊天应用：

from promptflow.tracing import trace
from promptflow.core import Prompty, AzureOpenAIModelConfiguration

@trace
def chat(question: str, chat_history: list = None) -> str:
    """一个简单的聊天流程"""

    # 如果没有历史记录，初始化为空列表
    chat_history = chat_history or []

    # 加载 prompty 文件
    prompty = Prompty.load(
        source="chat.prompty",
        model={
            "configuration": AzureOpenAIModelConfiguration(
                connection="my_openai_connection",
                azure_deployment="gpt-35-turbo"
            )
        }
    )

    # 调用 LLM 并返回结果
    output = prompty(question=question, chat_history=chat_history)
    return output

if __name__ == "__main__":
    # 启用追踪功能，方便调试
    from promptflow.tracing import start_trace
    start_trace()

    # 测试流程
    history = []
    result = chat("介绍一下 Prompt Flow", history)
    print(result)

这段代码的关键在于 @trace 装饰器，它会自动记录函数的执行过程，包括输入输出、执行时间等信息。这在调试的时候特别有用，你可以看到每一步的详细情况。另外，通过 start_trace() 启动追踪后，所有被装饰的函数调用都会被记录下来，之后可以在 Prompt Flow 的可视化界面中查看。我在开发的时候经常用这个功能来排查问题，比直接看日志要直观很多。

对于需要多个步骤的场景，可以创建一个包含多个节点的 Flow。虽然可以完全用代码来定义，但我发现用 YAML 配置文件会更清晰。比如一个简单的内容总结流程可以这样定义：

$schema: https://azuremlschemas.azureedge.net/promptflow/latest/Flow.schema.json
inputs:
  text:
    type: string
outputs:
  summary:
    type: string
    reference: ${summarize.output}
nodes:
- name: extract_key_points
  type: llm
  source:
    type: code
    path: extract.jinja2
  inputs:
    text: ${inputs.text}
    deployment_name: gpt-35-turbo
- name: summarize
  type: llm
  source:
    type: code
    path: summarize.jinja2
  inputs:
    key_points: ${extract_key_points.output}
    deployment_name: gpt-35-turbo

这个配置文件定义了两个节点，第一个节点从输入文本中提取要点，第二个节点基于这些要点生成摘要。节点之间通过 ${节点名.output} 的方式来引用数据，这让数据流向非常明确。实际使用中，你还需要创建对应的 Jinja2 模板文件来定义每个节点的提示词。这种方式的好处是逻辑和提示词分离，修改起来很方便，而且可以在 Prompt Flow 的图形界面中看到完整的流程图。

测试和评估也很简单。Prompt Flow 提供了命令行工具来批量运行测试用例。假设你有一个包含测试数据的 JSONL 文件，每行是一个测试样例，就可以用 pf run create --flow . --data test_data.jsonl --name my_test_run 来运行整批测试。运行完成后，可以用 pf run show-details --name my_test_run 查看每个测试用例的详细结果。这种批量测试的方式让我在优化提示词的时候效率提高了不少，不用再手动一个个输入测试了。

从开发到生产的完整支持

让我最满意的是 Prompt Flow 对整个开发周期的支持。在开发阶段，它提供了丰富的内置工具和模板。比如有专门用于调用 Azure OpenAI 的 LLM 工具，有用于处理文本的 Prompt 工具，还有可以运行任意 Python 代码的 Python 工具。这些工具都经过了良好的封装，使用起来很方便。如果这些内置工具不能满足需求，你还可以开发自己的自定义工具，这给了开发者很大的灵活性。

评估环节是传统软件开发中没有的，但对 LLM 应用来说却至关重要。Prompt Flow 提供了专门的评估流程，可以用一组测试数据来系统地评估你的应用表现。你可以定义各种评估指标，比如准确率、相关性、一致性等等。而且这些评估可以集成到 CI/CD 流程中，每次代码变更都自动运行评估，确保修改没有降低应用的质量。我在项目中就设置了这样的自动评估，几次都及时发现了会导致性能下降的修改。

部署方面，Prompt Flow 支持将开发好的流程部署为 REST API 端点，可以直接在生产环境中使用。如果你用的是 Azure 平台，部署过程会更加简单，可以一键部署到 Azure AI 服务。部署后还可以继续监控应用的运行状态，查看各种指标，这对于维护一个稳定的生产系统很重要。虽然我目前还主要在开发和测试阶段使用，但看到有这么完整的部署支持，心里会踏实很多。

实际应用场景

在我的使用经验中，Prompt Flow 特别适合那些需要多个步骤协作的 LLM 应用。比如内容生成类的应用，可能需要先用一个 LLM 生成初稿，再用另一个 LLM 来审核和优化，最后还要做一些格式化处理。又比如智能客服系统，需要先理解用户意图，然后查询知识库，再生成回复，可能还要加上情感分析等额外步骤。这些复杂的流程用 Prompt Flow 来组织会非常清晰。

聊天应用是另一个很适合的场景。Prompt Flow 专门提供了 Chat Flow 类型，对聊天输入、聊天历史和聊天输出都有特殊的处理。这意味着你不需要自己去管理对话上下文，工具会自动帮你处理。我用 Chat Flow 做过一个技术文档问答助手，用户可以连续提问，系统会记住之前的对话内容，提供更连贯的回答。这种体验比单轮问答要好很多。

对于需要频繁迭代和优化的项目，Prompt Flow 的价值会更加明显。因为它让整个实验过程变得可重复、可追踪。你可以记录下每次尝试的参数配置和结果，建立起一个完整的实验历史。当需要回溯或对比不同版本的效果时，这些记录就非常有用。而且团队协作也会更加顺畅，因为流程配置可以共享，大家基于同样的工作流来开发和测试。

使用体验和思考

从使用体验来说，Prompt Flow 的学习曲线还算平缓。如果你有 Python 基础和一些 LLM 使用经验，上手应该不会太难。官方提供了不少示例流程，可以直接克隆来使用或学习。文档也比较完善，虽然有时候一些高级功能的文档不够详细，但社区还算活跃，遇到问题基本能找到解决方案。我记得刚开始用的时候，对于节点之间的数据传递不太理解，看了几个示例后就明白了其中的逻辑。

不过也有一些需要注意的地方。首先是它和 Azure 生态的深度绑定，虽然核心功能是开源的，可以在本地使用，但很多高级特性都需要 Azure 的支持。如果你的项目不在 Azure 上，可能会受到一些限制。其次是性能开销，由于增加了很多可观测性和追踪的功能，在某些场景下可能会比直接调用 API 慢一些。不过对于大多数应用来说，这点延迟是可以接受的，换来的是更好的开发体验和可维护性。

另外值得一提的是，Prompt Flow 本身也在快速发展中。我这几个月使用下来，已经看到了好几次更新，添加了不少新功能和改进。这说明微软在持续投入，但同时也意味着一些 API 可能会有变化，需要关注更新日志。我建议在生产环境使用时，要做好版本管理和测试，避免升级带来的问题。

最后

回顾这段时间使用 Prompt Flow 的经历，我觉得它确实在提示词工程和 LLM 应用开发方面提供了很大的价值。它不是简单地包装了几个 API 调用，而是真正从工程化的角度来思考如何更好地开发和维护 LLM 应用。可视化的工作流、完善的调试工具、系统的评估机制、便捷的部署方式，这些功能组合起来，让整个开发过程变得更加流畅和可控。

对于正在构建 LLM 应用的开发者来说，我认为 Prompt Flow 值得一试。特别是当你的应用开始变得复杂，需要多个步骤协作，或者需要频繁迭代优化时，它带来的效率提升会非常明显。当然，工具只是手段，关键还是要理解自己的需求，选择合适的技术栈。但至少在我看来，Prompt Flow 为 LLM 应用开发提供了一个很好的范例，展示了如何将传统软件工程的最佳实践应用到 AI 领域。

如果你也在做相关的开发，不妨试试 Prompt Flow，或许会给你带来一些新的启发。毕竟在这个 AI 快速发展的时代，有一套好用的工具链，能让我们把更多精力放在真正重要的问题上，而不是纠结于技术细节。