首页 新闻内容详情

李开复:不参与“价格战”、模型盲测国内第一欢迎PK

2024-05-22 1371 区块链百科

文章来源:AI前线 原文链接:https://mp.weixin.qq.com/s/UgYVvsh4DJCep0uuaOagqA

作者 | 褚杏娟

 

 52efeb5dc05c54287cbab8b296c94f91_FrhBOq_gOO9Frl2mQFmlTuywlrl8.png

 

片来源:由无界AI生成

 

 

“我的模型表了其他模型,迎不同的友商来 LMSYS 打擂台,明我是的。但在那生之前,我继续说是最好的模型。”李开复在 5 月 21 日的分享会上道。

 

李开复的底气来自 Yi-Large 一直以来不测评。而最近的 5 月 20 日,在 LMSYS 盲测竞最新排名中,零一万物的最新千亿参数模型 Yi-Large 榜排名世界第七,中国大模型中第一,已 Llama-3-70B、Claude 3 Sonnet,中文榜更是与 GPT4o 并列第一。

 

零一万物也因此成为总榜上唯一一个自家模型入排名前十的中国大模型企。在榜上,GPT 系列占了前十位的四个名。以机构排序,零一万物 01.AI 次于 OpenAI、Google、Anthropic,正式入国际顶级大模型企业阵营

 

 

 

零一万物振的原因是 LMSYS 是大模型金准,都是第三方匿名,而且每个模型都有数万用户评估,果可信度非常高。OpenAI 的 Sam Altman 和 Google CTO Jeff Dean 都在最近的模型布中引用了该测试结果。

 

了提高 Chatbot Arena 查询的整体量,LMSYS 施了重复数据除机制,并出具了去除冗余查询后的榜个新机制旨在消除度冗余的用提示,如度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜将在后

 

在去除冗余查询后的榜中, Yi-Large 的 Elo 得分更一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四。

 

 2c203b726c60eb1c3ab48d19383b2498_Fl71yq_T2prAw7VrERlvTq7wShSN.png

国内大模型厂商中,智 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲。在榜之外,LMSYS 的类别上新增了英、中文、法文三种评测,开始注重全球大模型的多性。Yi-Large 的中文言分榜上拔得筹,与 OpenAI GPT-4o 并列第一。973a1b818626472ac8705e20dec7759a_FsfMJxfUdakU3YPUROZo-jDHMxzx.png

 

在分排行榜中,程能力、及最新推出的 “艰难提示的三个评测是 LMSYS 所出的针对性榜,以专业性与高度著称,可称作大模型“最烧脑的公开盲

 

程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超 Anthropic 当家旗模型 Claude 3 Opus,低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。(Longer Query)榜上,Yi-Large 同位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

 

艰难提示(Hard Prompts)是 LMSYS 了响社区要求,新增的排行榜类别类别包含来自 Arena 的用提交的提示,些提示则经过专门设计,更加复、要求更高且更加格。LMSYS 认为这类提示能够测试最新言模型面性任务时的性能。在一榜上,Yi-Large 艰难提示的能力也得到印,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

 7222c6006024385429cfbd5f5218b448_Fs-80-QWToo3h4L3XaGGnyp__Srt.jpg

 

测评结果:Coding、Longer Query、Hard Prompts

 

 

在此之前,各种静几乎成厂商必争的地方。在零一万物模型训练负责人黄文看来,所打榜主要是厂商要把模型某些一能力做提升,但比候大家可能并不了解,会来一些 bias。LMSYS 提供了一种更接近于用实场景的评测方式,所以可以作一个更好的衡量准。

 

 

 

李开复:不会对标“价格

用好的模型,?当前,Yi-Large API 的定价是 0.02 元 / 千 tokens,大概是 GPT-4 Turbo 成本和定价的三分之一。

 

成本问题是零一万物一直以来就在关注的。“在大模型代,模型训练和推理成本构成了每一个创业公司必要面的增陷阱。”李开复曾道。

 

“我关注到最近降价的象,我认为的定价是非常合理的,而且我也在花很大精力希望它能再降下来。”李开复表示,整个行每年降低 10 倍推理成本是可以期待的,而且也必然生的,以个角度看,在的降价整个行就是一个好消息。

 

于大模型公司,李开复认为,国内常看到 ofo 式的狂降价、双的打法,大模型公司不会么不理智,因术还是最重要的,如果技不行,粹靠贴钱赔钱做生意是行不通的。

 

李开复以万知例介到,零一万物内部也纠结过用 Yi-Medium,中尺寸模型有成本优势,但是大尺寸模型更有泛化和推理能力优势。考到万知用也包括海外用是需要最的推理能力,因此团队终选择了千亿参数的 Yi-Large。

 

并没有达到 TC-PMF、不能赚钱,但是技的需求是不可妥。推出之后,模型和 Infra 团队就一起快速把降下来。”李开复道。

 

于当前的大模型价格,李开复明确表示不会对标这样的(市)定价。“如果中国市就是么卷,大家宁可光、通也不,那我就走外国市。”

 

 

 

“最小到最大的模型,做到中国最好”

在做大模型方面,零一万物将继续坚持 Scaling Law。从最小的 6B 到 34B,到在的千亿模型,训练中的万亿 MoE,零一万物技术团队看到模型性能随着参数量的增大,智能水平也在著上升,Scaling Law AGI 指明了一个方向。

 

以大模型代表的就是大模机器学,需要大量的算力做大量的实验来得到结论,同需要算法和 Infra 做化。

 

在 Scale up 程中,最能高效使用算力的通用构一般会大成功。在模型构上加了各种各的 prior(先)、去调优可以得更好效果,但些 prior 也是束条件,模型效果生影响。零一万物发现,最简单的模型就是最高效的,重要的是怎么去用好算能力,而定算力条件下的智能水平,最重要的是数据的量和使用数据的效率、算效率。

 

黄文表示,零一万物需要算法、Infra 和工程三位一体的人才,但这样的人在国内并不是很多。大模型研中,人才的作用被放大,比如算法团队不需要特多的人,一般是 10~20 人,但是他后面是几万卡,些人的能力就被几万卡放大了很多。

 

目前,零一万物的系列大模型参数刚迈入千亿行列,但已可以与 GPT-4、Gemini 1.5 Pro 等万亿级别的超大参数模模型扳手腕。

 

在 Chatbot Arena 测评的 44 款模型中,GPT-4o 在最新的 Elo 分中以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型以 1240 左右的分位居第二梯;其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成绩则断崖式下滑至 1200 分左右。

 


05d4ad89bb22d969472bc363e87939d1_Ft6-vC8mMV7PprxzR6MqDyiXABlY.png

“我划是从最小到最大的模型都能做到中国最好。”李开复表示。一方面,根据 scaling law,越大尺寸的模型有可能达到 AGI;另一方面,小一些的模型也有各种用机会。因此,零一万物的打法是“一个都不放,并且在每一个潜在尺寸上做到性能最高、推理成本最低。

 

另一个现实是,零一万物 GPU 存量只有 Google、Microsoft 的 5%,但李开复认为这并不代表企就没有机会。

 

“能用同出更多的价是今天我达到些成果的重要原因之一。”李开复道。

 

本文接:https://www.aixinzhijie.com/article/6845848

转载请注明文章出