OpenAI深夜发起价格战,GPT-4o mini爆降99%!GPT-3.5退出历史舞台!
就在今天深夜,OpenAI宣布全新发布GPT-4o mini全面取代已经老去的GTP-3.5,全新发布的GPT-4o mini具有更小、更强的性能,最重要的是更便宜。
精选文章
如果你想升级到GPT4.0服务,可以按照Plus升级教程升级。若还未拥有GPT服务,请移步获得GPT Pronton版或获得GPT Gmail版。
GPT-4o mini,**能力接近原版GPT-4,价格却要便宜一个数量级**:
- 每百万输入tokens,15美分(约1.09元人民币)
- 每百万输出tokens,60美分(约4.36元人民币)
在ChatGPT应用中,GPT-3.5模型已完全退役,免费用户可以直接使用GPT-4o mini模型。
每百万个输入token 15美分,每百万个输出token 60美分,MMLU得分82%,性能超强,反应速度极快。
连OpenAI的CEO Sam Altman都感慨:通往智能的成本,竟是如此低廉。
Altman回顾说:就在2022年,世界上最好的模型是还是text-davinci-003(GPT-3的版本)。
但如今,与这个新模型相比,text-davinci-003差得太多太多。甚至,价格要高出100倍。
换一个说法,**大模型成本在两年内下降了99%**,等再过几年呢?简直不敢想象。
以前,用OpenAI模型构建应用程序可能会产生巨额费用,没有能力对其修改的开发者,极有可能放弃它,转投更便宜的模型,比如谷歌的Gemini 1.5 Flash或者Anthropic的Claude 3 Haiku。现在OpenAI放出大招,想必很多开发者都会重新回归。
GPT-4级别小模型,性能强悍,价格便宜
在多项文本和多模态推理学术基准测试中,GPT-4o mini都超过了其他小模型。
特别是在数学(MGSM、MATH)和代码能力(HumanEval)上优势明显,与其他小模型拉开一个档次,只比GPT-4o完整版稍弱。
此外,它还在函数调用方面表现出强大的性能。
价格方面,也比Claude 3 Haiku和Gemini Flash要更便宜40%-60%。
作为模型开发的一部分,OpenAI与Ramp和Superhuman等公司合作,已将GPT-4o mini用于实际应用,在“从文件中提取结构化数据”和“对邮件通信记录生成高质量回复”等任务明显优GPT于 -3.5 Turbo。
此外几周之前,新模型还化名GPT-mini登上大模型竞技场供广大网友测试检验。
目前收集到6000+用户投票,与GPT-4 Turbo表现相当。
上周模型还没发布,就已经有超过6000名用户投票给早期版本「upcoming-gpt-mini」,但目前该模型的结果已经被撤下。
LMSYS在推特上宣布,正在重新收集投票,很快就会发布正式版模型的成绩。
GPT0-4o mini的发布,显然将大幅扩展AI应用的范围。
它不仅低成本、低延迟,还支持广泛的任务,比如链式或并行调用多个模型的应用(调用多个 API),向模型传递大量上下文(完整代码库或对话历史),或通过快速、实时的文本响应与客户互动(支持聊天机器人)。
并且,由于与GPT-4o共享改进的分词器(tokenizer),它处理起非英语文本会更加经济高效。
目前,GPT-4o mini在API中支持文本和视觉,未来还将支持多模态功能,包括文本、图像、视频和音频的输入和输出。
听起来,它像是功能更强大的虚拟助理,比如了解我们的旅行行程并给出建议。
文本、数学、编码、多模态,效果拔群
在文本智能和多模态推理方面,GPT-4o mini已经超越了GPT-3.5 Turbo和其他小模型,GPT-4o支持的语言它也都支持。
长上下文处理性能上,它比起GPT-3.5 Turbo也有所改进。
在函数调用上,GPT-4o mini同样表现出色,因此开发者可以更方便地构建应用。
接下来我们一起看看人工智能研究组织Artificial Analysis针对gpt-4o-mini做出的分析。
性价比极高
在性价比方面,Artificial Analysis已经为我们整理出了详细的分析。
GPT-4o mini的定价为:输入每1M token 15美分,输出每1M token 60美分。
1M token什么概念?大致相当于2500页书。
这个价格已经卷到了头部模型的最低档,仅次于Llama 3 8B。
从下表中可以看到,在目前头部厂商发布的所有小模型中,GPT-4o mini超越Gemini 1.5 Flash、Llama 3 8B、Mistral 7B等众多竞品,成为性价比之最。
不仅是性价比最好,GPT-4o mini在输出的速度和质量上也实现了目前SOTA水平的优化权衡,甚至比GPT-4o更佳。
将质量和生成速度分开来看,效果依旧能打。
Artificial Analysis上的质量指数代表Chatbot、MMLU和MT-Bench等基准的归一化平均性能。
GPT-4o mini得分为85,和Gemini 1.5 Flash、Llama 3 70B基本处于同一水平,胜过Mixtral系列的8×22B和8×7B型号。
MMLU的得分也基本与质量指数一致,但比较亮眼的是在HumanEval编码任务上的评分。
87.2分的成绩,超过了谷歌系最强模型Gemini 1.5 Pro!
推理效率方面,183 token/s的生成让GPT-4o mini成为这个榜单上的绝对王者,相比第二名Gemini 1.5 Flash还要快18 token/s。
除了生成速度,目前API的响应延迟(TTFT)也算优秀,虽然没打过Phi-3、Llama 3 7B等小模型,但差距也不算太大。
在响应延迟和token生成速度上,GPT-4o mini都有非常优秀的成绩,但需要注意的是,这两个指标与推理所用的硬件规格高度相关,而且模型仅开放API,并没有第三方进行部署后的测评。
模型发布之后,GPT-4o mini能否始终保持这样的高效率推理,更值得期待。
除了生成质量和推理效率,GPT-4o mini在上下文长度方面算是中规中矩,毕竟GPT-4o也才128k,没法和最长1M的Gemini系列抗衡。
如果你想升级到GPT4.0服务,可以按照Plus升级教程升级。若还没有GPT账号,请移步获取GPT账号Pronton版或获取GPT账号Gmail版。
你好,我是火哥!
亲爱的读者你好,我是火哥,一个乐于分享技术类干货的博主。 最新原创的文章都先发布在公众号,欢迎关注哦~
扫描下方二维码,带你第一时间了解ChatGPT、Sora、Midjourney最新动态!