关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025250人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

A股2025年分红额创历史新高 分红次数居前上市公司名单一览

财联社 浏览 257 12-21

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家 浏览 308 11-10

世上渣男千千万,最怕杨子这种

小嵩 浏览 501 08-17

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位 浏览 278 11-27

汪小菲买的上亿豪宅,成了徐家人的烫手山芋?

查尔菲的笔记 浏览 500 08-17

千岸科技合规与税务双承压:股东借离婚还原股权代持,海外累计被罚近百万元|读懂IPO

时代周报 浏览 155 04-10

刚刚,通过!利好来了!

券商中国 浏览 481 09-01

伊姐周六热推:电影《浪浪山小妖怪》;电影《玛丽和麦克斯》......

伊周潮流 浏览 8383 08-03

夸梅-布朗:麦迪根本不能与科比相比;防守任务他只会交给巴蒂尔

懂球帝 浏览 477 08-26

伊朗代表:中俄坚定站在历史正确的一边

上观新闻 浏览 148 04-08

涉世贸组织谈判 商务部:将不寻求新的特殊和差别待遇

界面新闻 浏览 397 09-25

《生万物》大结局令人意外,费左氏彻底黑化,宁学祥却成功洗白!

电和影 浏览 463 08-25

特朗普再访英成"历史性时刻" 英国展现"罕见外交姿态"

环球网资讯 浏览 498 09-18

德天空:巴黎FC报价法兰克福门将特拉普,尚未被拒绝或接受

懂球帝 浏览 6279 08-14

售36.98万元 福特探险者昆仑穿越版正式上市

网易汽车 浏览 298 11-08

阿里到店第一步:高德做榜单,重做一套线下信用体系

晚点LatePost 浏览 398 09-10

16岁"烤鸡少年"承认用"肉宝王" 曾因日销百只烤鸡爆红

新京报 浏览 289 12-23

票房破26亿,只是个开始!谢霆锋、王宝强、吴京要掀起一波新高潮

皮皮电影 浏览 249 01-20

去年上海人工智能产业规模预计超5500亿元,增速超30%

澎湃新闻 浏览 242 01-06

没有脱口秀的古代,话痨们都在干什么?

时尚COSMO 浏览 332 09-05

古尔曼:苹果迎几十年来最大规模高管洗牌,库克或至少再掌舵五年

IT之家 浏览 5158 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11