提示词维度测试仪
提示词维度测试仪
背景
当我们使用大模型对ASR(语音识别)文本进行总结时,如何判断总结质量的好坏?这里提供一个简单的测试框架。
核心测试维度
1. 完整性 ✅
原文的关键信息是否都被覆盖?
| 检查项 | 说明 |
|---|---|
| 核心观点 | 主要论点是否保留 |
| 关键数据 | 重要数字、时间是否准确 |
| 人物/事件 | 关键角色是否提及 |
2. 准确性 🎯
总结内容是否与原文一致?
| 检查项 | 说明 |
|---|---|
| 事实正确 | 没有张冠李戴 |
| 无幻觉 | 没有凭空编造内容 |
| 语义保真 | 没有曲解原意 |
3. 简洁性 📝
是否做到了有效压缩?
| 检查项 | 说明 |
|---|---|
| 去除冗余 | 口语化内容已精简 |
| 结构清晰 | 层次分明,易于阅读 |
| 长度合理 | 压缩比适当(通常10%-30%) |
4. 可读性 👀
总结文本是否流畅易懂?
| 检查项 | 说明 |
|---|---|
| 语句通顺 | 没有病句、断句 |
| 逻辑连贯 | 上下文衔接自然 |
| 专业术语 | 保留必要术语,通俗化表达 |
快速打分表
| 维度 | 权重 | 得分(1-5) | 加权分 |
|---|---|---|---|
| 完整性 | 30% | _ | _ |
| 准确性 | 40% | _ | _ |
| 简洁性 | 15% | _ | _ |
| 可读性 | 15% | _ | _ |
| 总分 | 100% | - | _ |
💡 评分参考:4分以上为优秀,3-4分为合格,3分以下需要优化提示词
常见问题与优化方向
| 问题 | 可能原因 | 优化建议 |
|---|---|---|
| 遗漏关键点 | 提示词太笼统 | 明确要求"保留所有核心观点" |
| 出现幻觉 | 模型自由发挥 | 添加"不要编造原文没有的内容" |
| 过于冗长 | 未限制长度 | 指定字数或压缩比例 |
| 逻辑混乱 | 缺少结构引导 | 要求"按时间/主题分点总结" |
本文发布于2025年11月27日09:59,已经过了185天,若内容或图片失效,请留言反馈 -
01 基础大模型调用
1 背景 本节课只解决一个问题:怎么用最简单的代码调用一次大模型。 先不要急着学 CoT、ReAct、工具调用、记忆、多 Agent。因为这些能力最后都会回到同一个基础动作: text 把问题发给大模...
2026/05/24
-
提示词维度测试仪
提示词维度测试仪 背景 当我们使用大模型对ASR(语音识别)文本进行总结时,如何判断总结质量的好坏?这里提供一个简单的测试框架。 核心测试维度 1. 完整性 ✅ > 原文的关键信息是否都被覆盖? | ...
2025/11/27
-
提示词机理档案
模型内部是「方向」而不是「句子」 比如当我们约束“永远不要高度浓缩!”。 - 它不是直接理解「永远不要高度浓缩!」这 9 个汉字。 - 它理解的是:在训练语料中,「不要高度浓缩」「详细展开讲」「拆开来...
2025/11/27
-
提示词写作指南:那些我反复回看的优质示例
Geminsi 3 提示词工程:通用最佳实践指南 Gemini 3 提示词工程:通用最佳实践指南 @_philschmid 最新博客:Gemini 3 更偏好直接、逻辑性强的内容,而非冗长的说教。提示...
2025/11/26
求索空间
apostle9891
360视觉云
360智慧生活
gitea
导航
hoppscotch
暂无评论