凤凰彩票首页 OpenAI发布GPT5.4，AI初度比东说念主类更会操作电脑，这些岗亭受冲击 - 凤凰彩票官网首页

你的位置：凤凰彩票官网首页 - Welcome > 产品中心 > 凤凰彩票首页 OpenAI发布GPT5.4，AI初度比东说念主类更会操作电脑，这些岗亭受冲击

凤凰彩票首页 OpenAI发布GPT5.4，AI初度比东说念主类更会操作电脑，这些岗亭受冲击

大模子的竞争涓滴莫得冷却的迹象，OpenAI日前又甩出一个“王炸”——GPT-5.4。这是OpenAI初度将前沿推理、编码与智能体智商整合于单一模子，官方觉得它是“当今面向专科责任推出的智商最强、效果最高的前沿模子之一”，符号着AI时刻从对话交互向自主智能体实施任务迈出关节一步。

GPT-5.4在两个维度上高出彰着：第一、开头智商，它是OpenAI首个具备原生活较机使用智商的通用模子，在桌面操控测试中初度超越了东说念主类平均水平；第二、它的“情商”有所进步，该模子在SimpleQA准确率上达到62.5%，较GPT-4o进步了24%，幻觉率下落了25%。

与电脑打交说念的白领责任，会被GPT-5.4颠覆吗？

AI白领超越东说念主类白领

GPT-5.4最具冲破性的调动在于其原生活较机使用智商。此前，不管是ChatGPT Atlas如故AutoGPT类智能体，均接收外挂插件或孤独智能体模式，并非模子原生功能。

OSWorld-Verified是刻下最巨擘的“计较机使用”评测基准，它测试AI代理通过截图不雅察、鼠标键盘操作来完成任务，复古369个的确世界任务，隐私文献措置、网页浏览、办公软件、多愚弄合作等场景。GPT-5.4在该评测中赢得了75%的任务收效力，初度高出72.4%的东说念主类平均水平。

在另一款评估用具GDPval上，GPT-5.4的施展一样亮眼。GDPval是OpenAI于客岁9月推出的评估用具，其独有之处在于评测“明确任务下的拜托质地”，而非肤浅的问答智商。评分接收同劳动大家盲评对比——将“模子拜托截至”与“东说念主类大家拜托截至”并排盲审，由同劳动大家评判优劣。截至娇傲，GPT-5.4在83%的任务中施展就是或优于东说念主类大家，尤其在投行级电子表格建模、演示文稿生成和法律文牍等任务上，率先上风更为彰着。

GPT-5.4带有“小龙虾”格调

“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种嗅觉，每天齐有新变化，应接不暇。”上海东说念主工智能商量院时刻中心主任林圆圆的一句打妙语，说念出了如今AI赛说念上“你追我赶”的近况，凤凰彩票首页每支戎行齐铆足了劲，一次更新就能引来业内花式变动。

行业的范式动荡依然表露。本年级首举行的清华大学AGI-Next峰会明确建议，大模子竞争已从“对话”阶段追究转向“智能体”阶段，实施智商不才半场竞争中至关进犯。本年2月，OpenAI 首席实施官山姆·奥特曼告示OpenClaw首创东说念主‌彼得·斯坦伯格加入OpenAI，力争于于鞭策下一代个东说念主智能体的研发。

{jz:field.toptypename/}

绰号“小龙虾”的OpenClaw是当下最火爆的AI名堂。3月1日，OpenClaw以24.5万颗星登顶GitHub榜首，超越了永恒占据榜首的Linux和React。奥特曼评价说念：“‌彼得是一位委果的天才，他对异日高度智能的智能体如何合作以就业东说念主类有着好多令东说念主惊羡的构想。”

这一东说念主事变动对GPT-5.4的发布产生了平直影响。有树立者不雅察到，GPT-5.4的多项中枢功能——原生电脑操控、100万token高下文、用具搜索带来的47%token本钱从简，恰巧踩中了OpenClaw的时刻痛点。

大模子进入各异化竞争期间

GPT-5.4天然强大，但强大亦有规模。概述来看，它在专科责任场景，止境是金融分析、办公自动化、常识责任中展现了显耀的智商进步，但在编程智商上过期于Claude Opus 4.6，在科学推理上过期于Gemini 3.1 Pro，在医疗健康规模甚而出现了小幅调谢。另外，尽管GPT-5.4在OSWorld-Verified测试中确乎超越了东说念主类基准，但这仅仅在特定的369个任务上，且测试环境是可控的造谣机。在更复杂、更盛开的的确场景中，AI与东说念主类的施展差距可能天壤之隔。

淌若说三年前的大模子还在归并条跑说念上竞争，那么如今，依然很难用归并把标尺来忖度“各怀绝技”的大模子了。正如一位业内东说念主士所言：“不再有‘最佳的AI’——想操控电脑、作念PPT、跑常识责任？选GPT-5.4。想写代码、跑智能体、作念复杂树立？选Claude Opus 4.6。想要最强推理、图片视频认知、最大高下文、最廉价钱？选Gemini 3.1 Pro。”

价钱亦然不得不筹商的要素。GPT-5.4的输入价钱达到了30好意思元/百万tokens，是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍，相配于对GPT-5.4 Pro说一句“嗨”，模子念念考5分钟就可能花掉80好意思元。

林圆圆觉得，大模子的竞争最终将归于算力。东说念主工智能大模子的快速发展对高性能算力建议空前需求，算力瞻望还有成百上千倍的增漫空间。本年宇宙两会建议在将在包括电网、算力网、新式通讯网等在内的“六张网”等重心规模干预高出7万亿元，这一布局深嗜紧要。