

用鼠标和键盘打游戏的智能体,这就来了!
它不仅能在《我的宇宙》中庸平时玩家一较险峻。
还能玩《神庙隐迹》、《星露谷》,致使不错在未见过的 3D 网页游戏中杀青零样本搬动。
而这,都是由字节 seed团队打造的通用型游戏智能体——Game-TARS完成的。
Game-TARS 基于和洽、可彭胀的键盘—鼠标动作空间考试,可在操作系统、网页与模拟环境中进行大范畴预考试。
依托超5000亿标注量级的多模态考试数据,联接稀少推理(Sparse-Thinking) 与衰减捏续耗损(decaying continual loss),大幅培植了智能体的可彭胀性和泛化性。
在 FPS、绽开宇宙、WEB 游戏等任务中,它的推崇超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

这是怎么作念到的?
像东说念主相似用键盘和鼠标打游戏
Game-TARS的中枢调动在于,让智能体不再"调用函数打游戏",而是像东说念主相似用键盘和鼠标操作。

也便是说,它不仅仅通俗地实施指示,而是真实通过模拟东说念主类操作的容貌完成游戏中的每一个动作。
比较之下,传统智能体常常依赖为特定环境定制的动作集:
在 MCP 或 Code 层,它们不错平直调用 Search ( query ) 完成搜索,无需掀开界面或点击按钮。
在 GUI 层则实施封装好的系统动作,如"双击"或"按下热键"。
这些容貌固然高效,却缺少通用性。一朝换个操作系统或应用环境,智能体就无法可想。
为措置这个问题,Game-TARS 专注于最底层的Human Actions(东说念主类动作):
mouseMove ( dx, dy ) :鼠标相对出动,包括 x 轴和 y 轴。
mouseClick ( buttons ) :鼠标点击,如左键、右键或中键。
keyPress ( xkeys ) :键盘按键,包括单个按键和按键组合。
这种想象使智能体的动作指示集与任何特定应用或操作系统解耦,杀青了与东说念主类用户物理交互容貌的平直对都——
即Human-Native Interaction(东说念主类当然交互)。
由此,Game-TARS 界说了一个可彭胀、和洽的动作空间,让智能体告别高层级指示,平直来源"玩",极地面提高了可彭胀性和泛化性。

考试经由
与传统游戏机器东说念主或模块化东说念主工智能不同,Game-TARS 将视觉感知、政策推理、动作实施和永恒牵挂整合到一个视觉谈话模子(VLM)中。
智能体无需针对每款游戏编写特定代码或次序,就能自主学习操作,并在各式游戏中完成任务。
为杀青这少许,Game-TARS 将该智能体构建为一个自总结的、参数化的政策,并期骗和洽的键盘—鼠标动作空间进行考试,包括捏续预考试和后考试两个阶段,

在预考试阶段,团队聘请的ReAct范式,联接稀少推理(Sparse Thinking)——只在重要决议点交错进行推理和行径,以模拟东说念主类证据方式。
具体作念法包括:
离线想维链 + 在线"边作念边说"(Think-Aloud):标注者在实施任务时,通过音频及时抒发想考,生成原生、即时推理的 ReAct 序列。
多模态同步汇聚:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过 ASR 转翰墨,再用大谈话模子去噪、增强逻辑。
视觉锚点因果对都:用屏幕鼠标光标动作锚点,精准对都每个动作信号到其实施帧,规复因果链。
轨迹构建与优化:两帧间的统共键鼠操作吞并为动做事件,无操作记号为 no-op;推理时辰戳重定位到语义关系的动作,生成高度同步、因果一致的考试序列。
此外,为了措置"行径惯性"问题,Game-TARS 引入了指数衰减权重,对一语气重叠动作按指数裁汰权重,确保新动作得回满盈热心,让模子更专注于高熵动作升沉,学习出更闲散、泛化能力更强的政策。
在超越 2 万小时、约 5000 亿 token 的游戏数据上大范畴预考试后,商议插足后考试阶段,进一步强化智能体在特定任务中的实施能力和交互智能,重心培植三大中枢能力:
指示顺从:就地替换按键绑定(如把 W 换成 X 代表"上前"),迫使模子依赖系统辅导解析动作语义。同期让模子基于面前帧瞻望中间动作,加深对动作—情景因果关系的解析。
稀少想维能力:定位重要决议点,只在高熵依次增强推理;通过阻隔微调(rejection fine-tuning)强化高效稀少想维,让智能体学会在重要期间三想此后行。
永恒牵挂:引入双层牵挂机制——短期牵挂保存最新图像,永恒牵挂只保留风雅的稀少想维文本。
此外,为了将能力彭胀到游戏除外,后考试还引入了跨领域轨迹数据,包括代码生成、GUI 自动化和科研任务,匡助 Game-TARS 从游戏玩家成长为多功能通用策动机用户。

在具体的考试细节上,商议聘请了和洽的、单阶段的捏续预考试依次,将所非凡据源和会在全部,并对模子进行了超越 5000 亿个 token 的考试。
在后考试阶段,对约 200 亿个尽心筹划的高质地 token 进行了微调。
履行考据
商议来源通过在《我的宇宙》中测试智能体的能力,考据了和洽动作空间和大范畴捏续预考试的灵验性。

与 grounding-based 或基于 API 的动作不同,商议发现和洽动作空间在考试数据少于 10B 时,领先在奏凯率方面并未超越基于 GUI 动作的智能体。
然而,和洽动作空间的重要上风在于其可彭胀性——不错高效地网罗大范畴数据,况且智能体不错使用一致的体式跨统共游戏进行预考试。
彭胀实考据明,这种和洽动作空间为杀青通用智能体提供了不凡的基础。
当在宽阔的通用策动机使用数据语料库上进行考试后,基于和洽动作空间的 Game-TARS 在《我的宇宙》中的推崇比当年起先进的人人模子提高了约2倍。
正如开头 demo 中所展示的,商议进行了等闲评估:包括 FPS 游戏 Vizdoom、3D 模拟器 Miniworld 和在线网页游戏 。
履行标明,Game-TARS 的迷你版块在各式任务上超越了着名的预考试模子,如 Gemini-2.5-Pro 、GPT-5 和 Claude-4-Sonnet ,展示了在不同领域中的不凡性能。

此外,履行标明 Game-TARS 在考试和推理经由中都具有可彭胀性。

总的来说,Game-TARS 依靠通俗、通用的原生键盘和鼠标动作空间,杀青了大范畴跨领域考试。
这一想象不仅培植了智能体的彭胀性,也为明天在更多任务和环境中的泛化能力奠定了基础。
One more thing
Game-TARS 的第一作家是北京大学东说念主工智能商议院博士生——王子豪。
王子豪师从梁一韬教悔,主要商议标的聚焦于绽开式通用智能体的构建,涵盖策动机应用、具身游戏与深度商议等领域,勇猛于通过大型预考试模子培植智能体的泛化与自主能力。

当今,他在字节超越 Seed 团队担任商议实习生。
参考一语气
[ 1 ] https://arxiv.org/pdf/2510.23691
[ 2 ] https://zhwang4ai.github.io/
一键三连「点赞」「转发」「留心心」
宽待在驳斥区留住你的主张!
— 完 —
� � 年度科技风向标「2025 东说念主工智能年度榜单」评比报名火热进行中!咱们正在寻找 AI+ 时期领航者 点击了解笃定
❤️� � 企业、产物、东说念主物 3 大维度,共设立了 5 类奖项,宽待企业报名参与 � �
一键热心 � � 点亮星标
科技前沿进展逐日见世博体育