把模型比较落回真实工作流,重点不是谁更聪明,而是谁更适合被放进法律审查的稳定流程里。
这篇是首发当天整理的上线版正文,后续会继续补充案例、截图、延伸阅读和更完整的展开。
比较模型时,我最看重的不是一次性惊艳
复杂合同审查最怕“偶尔很神,偶尔跑偏”。一次回答再漂亮,只要格式不稳、引用不稳、风险级别不稳,就很难放进真实工作流里连续使用。
所以我做对比时会更看三个维度:结构化输出是否稳定、长上下文里会不会丢关键前提、以及模型愿不愿意承认不确定性。能稳定交付的模型,才值得继续做工程化。
Prompt 不该只像问题,更应该像流程
在合同审查场景里,好用的 Prompt 往往不是一句“请帮我找风险”,而是一条完整的工作指令链。先定义角色,再限定审查范围,然后要求模型按字段输出,最后加上证据位置和建议动作。
我后来越来越少追求玄学提示词,而是把 Prompt 写成给新同事的 SOP。只要一个人类新人照着这套话也能产出相近结果,模型通常就更容易稳下来。
- 先限定文档类型和审查目标
- 要求逐条给出风险级别、依据和建议动作
- 对不确定项明确标记“需人工复核”