Prompt 评估方法

Prompt 评估是系统化测试和衡量 Prompt 效果的方法论。包括构建评估数据集、定义评估指标、自动化评估流程和持续优化迭代。这是将 Prompt 工程从「试错」提升为「工程化」的关键步骤。

高级质量保障

适用场景

Prompt 上线前的质量验证；比较不同 Prompt 版本的效果；持续监控生产环境中的 Prompt 表现；团队协作需要客观评估标准时。

Prompt 示例

## Prompt 评估框架

评估维度：
1. 准确性：答案是否正确（对比标准答案）
2. 完整性：是否覆盖所有要点
3. 格式合规：是否符合指定格式
4. 安全性：是否包含有害内容
5. 延迟：响应时间是否可接受

评估方法：
- 自动评估：使用另一个 LLM 作为评判者
- 人工评估：专家打分（1-5 分）
- A/B 测试：线上流量分配对比

输出示例

评估报告：
- Prompt v2 vs v1
- 准确性：87% vs 72%（+15%）
- 格式合规率：95% vs 80%（+15%）
- 平均延迟：1.2s vs 1.5s（-20%）
- 结论：v2 全面优于 v1，建议上线

最佳实践

构建覆盖边界情况的测试集（至少 50 条）
使用 LLM-as-Judge 进行自动评估
记录每次 Prompt 修改和对应的评估结果
区分开发集和测试集，避免过拟合

常见坑

评估集太小无法反映真实表现
LLM 评判者可能有自身偏见
过度优化评估指标可能损害用户体验
忽略边界情况和对抗性输入