的元评估:尽管有效,但最近 llm 的自动评估的几个局限性,包括位置偏见(不适用于我们的案例)、预测的低自洽率以及对自己输出的偏好。为了验证我们的 llm-judge 的可靠性,我们通过测量人工注释和自动评估之间的一致率进行了元评估。当人工注释者和 llm-judge 都对 llm 输出在特定维度上投票“好”(得分为 3/4)或“差”(得分为 1/2)时,我们将其视为一致。在三个选定的用例(服务:回复建议、销售:电子邮件生成和服务:通话摘要)中,我们的 llm-judge 与 llama3-70b 在其他强大的 llm 中实现了最高的一致率(见下文的比较)。
我们的 crm 基准测试框架旨在成为一个全面的动态发展框架,使组织能够找到最适合其特定需求的解决方案,并做出明智的决策,平衡准确性、成本、速度以及信任与安全。借助 salesforce agentforce,客户可 telegram日本資源 以从现有的 llm 中进行选择,也可以使用自己的模型来满足其独特的业务需求。通过使用基准测试为 crm 用例选择模型,企业可以部署更有效、更高效的生成式 ai 解决方案。
我们的目标是通过多种方式扩展我们的框架:
包括设备上小型 llm 的用例。
包括基于 llm 的代理的用例,即评估 llm 的函数调用、格式化和任务完成能力。
包括涉及结构化(例如表格数据、知识图)和非结构化数据的用例。
包括元评估(llm judge)任务。
作者名单:王佩峰、陈海林、涂立夫
致谢:特别感谢来自 ai 平台团队的合作者 sitaram asur 和 deepak mukunthu 向我们提供数据集,以及来自 tableau 团队的 jimmy bowen 在 tableau 仪表板上所做的工作;感谢我们的利益相关者向我们提供数据集并进行手动评估;感谢 yilun zhou 和 jason wu 发起对公共数据集的信任和安全措施的研究,最后,感谢我们的领导人 silvio savarese 和 caiming xiong 在整个项目中的持续支持。