关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷1012025-11-01 12:00:01305人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夫妻在合租房生养娃遭室友投诉要求搬离 网友吵翻了

都市快报橙柿互动 浏览 414 09-10

美军在高速公路实弹军演 万斯安保车遭炮弹碎片击中

红星新闻 浏览 336 10-21

李沁,一款全方位健康的“老式小孩”

时尚COSMO 浏览 340 09-20

日本34家污水处理厂污泥中检出有机氟化合物

浏览 296 11-17

携“端到端大模型”杀入新势力腹地 燃油车智能化决战启幕

封面新闻 浏览 1359 08-10

签署共同防御协议 沙特回应巴基斯坦是否提供核保护伞

澎湃新闻 浏览 34805 09-19

长沙女子双节返程 发现母亲在大米里藏了1000元现金

潇湘晨报 浏览 391 10-09

4399元 一图读懂OPPO Find X9 刘作虎:严重超标的标准版

快科技 浏览 322 10-17

52岁郭德纲也没想到 徒弟阎鹤祥给他争光了

乡野小珥 浏览 255 11-27

伊姐周六热推:电影《南京照相馆》;电影《戏台》......

伊周潮流 浏览 7742 07-27

收评:创业板指高开高走涨2.29% 黄金概念股集体大涨

财联社 浏览 529 09-02

国际化野心不减?信达生物拿下巨额BD,总额114亿美元创纪录,股价不涨反跌

时代周报 浏览 342 10-23

俄外长:美国施压印度停购俄石油是为了推销自家能源

环球网资讯 浏览 488 10-02

美俄航天局高层将会晤 聚焦国际空间站与联合任务

界面新闻 浏览 8354 07-30

全球首座“来电岛”落地青岛:无人车住进“无人家”,一座城与新产业的双向奔赴

风口财经 浏览 101 05-09

扶我起来,再生1个娃,再薅1万块!

越女事务所 浏览 6567 07-29

一群大学生在村里住了14天:用AI技术打造起一个“情绪银行”

封面新闻 浏览 2622 07-30

图瓦卢考虑退出太平洋岛国峰会 或因"台湾地区被排除"

环球网资讯 浏览 546 08-20

为中国市场删减1分钟 耗资3.5亿大片票房仅2100万

靠谱电影君 浏览 505 08-23

几分钟几百杯订单!外卖平台“0元购”鏖战

财联社 浏览 9653 07-14

特朗普向印"开火" 莫迪"硬碰硬"不愿让步让特朗普恼火

第一财经资讯 浏览 3108 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11