loading

Loading

请输入关键字开始搜索
    首页 AI专栏AI评测

    多模态大模型评测与标准

    分类:AI评测
    字数: (1278)
    阅读: (180)
    0

    根据网上参考的数据集结果,如果要定型、定量的完成测评,还是需要有标准的数据集,明确正确答案,通过分类来确认准确率、召回率和F1。
    对于智慧生活现有的安防大模型评测,需要明确的几个点:
    1、先要明确场景,根据场景确认数据集,比如B端巡店场景、C端门口安全认知场景、场景识别。
    2、根据每个场景准备对应的数据集,每个场景必须归一化。

    • B端场景的输出数据为合格、不合格。
    • C端安全认知场景需要明确几个大的分类,比如快递员、陌生人、无人等多个分类。
    • 普通视觉类检测,比如门前、门后、室内、室外场景分类。
    • 其他场景需要一起讨论沟通,每个场景一个数据集,并明确每个场景的分类。
      3、统一脚本,明确输入输出格式,包括测试集的输入格式、结果的输出格式(execl输出)
      4、统一数据集以后,根据需求优化prompt,如何测试prompt。
    • 测试数据集分为20份和多份数据集,编写prompt以后可以在20份数据集上先测试,如果OK以后再跑批量数据集。
    • 如果更新的prompt提高了整体分数,则更新prompt。
      数据标注模板,不同场景要求的输出有可能不同,以场景识别为例,只需要识别F1
    ID 图片ID 图片地址 prompt(统一) 问题 正确答案
    1 1.jpg ./1.jpg 生成指定格式:

    {

    “answer”:"X",

    }
    这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 C

    以C端场景为例,需要评测F1和BERTscore.

    ID 图片ID 图片地址 prompt(统一) 问题 正确答案
    1 1.jpg ./1.jpg 你是一个经验丰富的安保人员,……

    生成以下格式:

    {

    “skill”:"XX",

    “des”:"XXX",

    }
    这幅图像触发了什么技能? {

    “skill”:"人员离开",

    “des”:"一位男性离开了门口",

    }

    数据结果输出:

    ID 图片ID 图片地址 prompt(统一) 问题 正确答案 调用成功 用时时间(s) 耗费token 指令遵循 答案 是否正确
    ID 图片ID 图片地址 prompt(统一) 问题 正确答案 调用成功 用时时间(s) 耗费token 指令遵循 答案 是否正确
    1 1.jpg ./1.jpg 生成指定格式:

    {

    “answer”:"X",

    "des":"XX",

    }
    这款摄像机的场景是什么?A.公司 B.室外 C.店铺 D.商场 C True 4.2s 3000 True True True

    最终指标暂定:

    场景 模型 稳定性

    (网络调用)
    平均用时 平均耗费token 指令遵循 F1 precision recall 整体相似度比较 正确相似度比较
    B端巡店 doubao-vison-pro 1QPS下调用错误时间 最长时间、最短时间、平均耗时
    本文发布于2024年12月25日19:57,已经过了368天,若内容或图片失效,请留言反馈
    文章出处: 求索空间
    文章链接: https://blog.askerlab.com/agi_multllm_test
    评论列表:
    empty

    暂无评论