提示词维度测试仪
提示词维度测试仪
背景
当我们使用大模型对ASR(语音识别)文本进行总结时,如何判断总结质量的好坏?这里提供一个简单的测试框架。
核心测试维度
1. 完整性 ✅
原文的关键信息是否都被覆盖?
| 检查项 | 说明 |
|---|---|
| 核心观点 | 主要论点是否保留 |
| 关键数据 | 重要数字、时间是否准确 |
| 人物/事件 | 关键角色是否提及 |
2. 准确性 🎯
总结内容是否与原文一致?
| 检查项 | 说明 |
|---|---|
| 事实正确 | 没有张冠李戴 |
| 无幻觉 | 没有凭空编造内容 |
| 语义保真 | 没有曲解原意 |
3. 简洁性 📝
是否做到了有效压缩?
| 检查项 | 说明 |
|---|---|
| 去除冗余 | 口语化内容已精简 |
| 结构清晰 | 层次分明,易于阅读 |
| 长度合理 | 压缩比适当(通常10%-30%) |
4. 可读性 👀
总结文本是否流畅易懂?
| 检查项 | 说明 |
|---|---|
| 语句通顺 | 没有病句、断句 |
| 逻辑连贯 | 上下文衔接自然 |
| 专业术语 | 保留必要术语,通俗化表达 |
快速打分表
| 维度 | 权重 | 得分(1-5) | 加权分 |
|---|---|---|---|
| 完整性 | 30% | _ | _ |
| 准确性 | 40% | _ | _ |
| 简洁性 | 15% | _ | _ |
| 可读性 | 15% | _ | _ |
| 总分 | 100% | - | _ |
💡 评分参考:4分以上为优秀,3-4分为合格,3分以下需要优化提示词
常见问题与优化方向
| 问题 | 可能原因 | 优化建议 |
|---|---|---|
| 遗漏关键点 | 提示词太笼统 | 明确要求"保留所有核心观点" |
| 出现幻觉 | 模型自由发挥 | 添加"不要编造原文没有的内容" |
| 过于冗长 | 未限制长度 | 指定字数或压缩比例 |
| 逻辑混乱 | 缺少结构引导 | 要求"按时间/主题分点总结" |
本文发布于2025年11月27日09:59,已经过了32天,若内容或图片失效,请留言反馈 -
github大模型软件评测
1. 背景 互联网上有许多开源的大模型软件,每种软件都有其独特的功能和优缺点。我曾试用过许多大模型软件,但最终效果和具体内容都未能完全记住。因此,本文将主要记录我所了解和使用过的大模型软件。此外,文中...
2025/02/19
-
whisper.cpp安装
1. 背景 whisper是OpenAI官方发布的一款开源语音识别大模型,使用python实现。可以将语音信息转化为文本信息。其实也叫做ASR"自动语音识别”(Automatic Speech Rec...
2025/03/02
-
【1】COGVIDEO生成视频
1. 背景 cogvideoX是清华和清影同源的开源视频生成大模型,详情可以查看:CogvideoXhttps://modelscope.cn/models/ZhipuAI/CogVideoX-5b-...
2024/11/19
-
whisper.cpp测试与使用
whipser.cpp安装完毕后,加载了多个大模型,分别进行测试。 测试项目 下载模型命令: bash sh ./models/download-ggml-model.sh base 测试命令: 转化...
2025/04/21
求索空间
apostle9891
360视觉云
360智慧生活
gitea
导航
hoppscotch
暂无评论