Skip to main content

第六节课笔记

动机

  • 了解模型特色
  • 监控模型性能及辅助优化
  • 减少社会风险
  • 找出最适合应用的场景

评测维度

  • 基座模型(要加上 instruction)
  • 对话模型(直接对话)

客观评测

  • 问答题
  • 多选题
  • 判断题
  • 分类题
  • ...

主观评测

  • 人类评价(打分)
  • 模型评价(GPT)

测评能力

image-20240122182158964

架构

image-20240122182218808

流水线可分为:

image-20240122182239882

总结

OpenCompass 目前已经是公认比较常用的测评平台,不仅支持纯文本,还支持多模态模型测评。包含许多实用工具,以便更好地测评大模型的能力。