
这项由南加州大学、华盛顿大学、阿卜杜拉国王科技大学以及亚马逊AGI归并开展的赓续发表于2026年3月,赓续编号为arXiv:2603.10178v1。对于想要深入了解本领细节的读者,可以通过该编号在学术数据库中查询无缺论文。
当你掀开电脑,让AI助手帮你完成一项任务时,比如整理桌面文献或者发送一封邮件,你如何知说念这个智能助手是确凿完成了任务,依然只是作念了一堆看似正确的操作?这听起来像个大肆问题,但对于筹算机科学家来说,这其实是一个相等辣手的挑战。
如今的AI助手越来越聪慧,它们大约像东说念主类一样操作电脑界面——点击按钮、填写表单、浏览网页。但问题在于,当这些助手扩充完一系列操作后,咱们很难判断它们是否确凿达到了预期目的。这就好比你托福一又友帮你作念饭,但你不在厨房里,只可通过监控摄像来判断他是否确凿作念出了一顿适口的晚餐。
传统的处治活动就像只看临了一张相片来判断通盘这个词烹调过程——要么查验最终的屏幕景色,要么依坏事前设定的章程来考证落幕。但这种活动有很大局限性,因为它忽略了通盘这个词操作过程中的细节变化。就像仅凭一张饭桌的相片,你很难知说念这顿饭是否按照食谱正确制作,依然只是正巧看起来可以。
赓续团队剖判到,委果的处治决议应该是"不雅看"通盘这个词扩充过程,就像看一部无缺的摄像,而不是只是检察伊始和扫尾。他们开发了一个创新性的系统,大约通过分析通盘这个词操作视频来判断AI助手是否委果完成了任务。这个系统被称为"扩充视频奖励模子"(ExeVRM),它就像一个教悔丰富的监督员,大约通过不雅察通盘这个词职责过程来评判落幕。
为了教练这个"数字监督员",赓续团队收罗了卓越5.3万个高质地的视频-任务-落幕组合,创建了名为ExeVR-53k的数据集。这些视频涵盖了Windows、macOS、Ubuntu和Android等不同操作系统,包含了办公软件使用、网页浏览、系统管束、开发器用使用以及日常诳骗等多样场景。
关联词收罗这样多数据濒临一个本体问题:大部分公开可用的筹算机操作数据都是奏效案例,失败的例子相对较少。这就像想要教练一个裁判,但只可提供顺利者的比赛摄像,短缺失败案例来匡助裁判学会识别过错。为了处治这个问题,赓续团队想出了一个好意思妙的活动——"挣扎性辅导翻译"。
这个活动的职责旨趣是这样的:给定一个奏效的操作视频,赓续东说念主员会条款AI生成一个在相通界面环境下看起来合理,但本体上与视频中展示的操作不符的任务辅导。这就像拿着一段作念蛋糕的视频,然后虚构一个"制作面包"的辅导,这样就创造了一个"看起来在作念面包,本体在作念蛋糕"的负面样本。通过这种方式,他们赢得了多数高质地的反面课本,匡助模子学会识别任务完成的委果模范。
关联词,处理这些高明晰度的永劫分操作视频濒临顾惜大的筹算挑战。每个视频包含多数的图像帧,每一帧又包含千千万万的像素信息。若是顺利处理这些数据,就像试图同期记取一部两小时电影中每个场景的每个细节,筹算机的内存会很快浪费。
赓续团队开发了一种被称为"时空标志修剪"的聪慧处治决议。这个本领分为两个部分:空间修剪和时分修剪。空间修剪就像一个智能的图片剪辑器,大约识别出图像中的大片空缺区域、叠加的布景元素或者不变的界面荫庇,然后将它们删除,只保留包含有用信息的部分。比如,在一个电子表格操作的视频中,器用栏和边框频频保持不变,委果垂危的是表格内容的变化。
时分修剪则专注于识别在归并帧之间莫得变化的部分。若是某个界面元素在多个归并的视频帧中都保持都备相通,系统就会将这些叠加的信息压缩掉。这就像制作一个动画的要津帧版块,只保留发生垂危变化的时刻,而跳过中间不足轻重的过渡画面。
通过这种双重修剪计谋,赓续团队奏效地将视频数据的大小减少了约莫60-70%,同期保留了所相瑕疵的界面变化信息。这使得他们大约在现存的筹算资源下处理720p高清视频,而无谓裁减画质来省俭内存。
基于这些创新,ExeVRM模子展现出了令东说念主印象久了的性能施展。在他们构建的测试基准ExeVR-Bench上,8B参数版块的ExeVRM达到了84.7%的准确率和87.7%的调回率。更垂危的是,这个施展超越了许多强盛的营业化模子,包括GPT-5.2和Gemini-3 Pro等闻名系统。
这种上风不仅体当今合座判断的准确性上,还表当今模子大约精详情位问题出现的时分点。当一个AI助手的操作出现过错时,ExeVRM不单是大肆地说"这个任务莫得完成",而是大约指出"在第12秒的时候,助手点击了过错的按钮"。这种时分定位才调对于修订AI助手的性能极其垂危,就像一个扎眼的过错论说大约匡助表率员快速定位和拓荒bug。
赓续团队还发现了一个意旨的风景:使用无缺的视频序列进行评估,比只是依赖少数几张要津截图的后果要好得多。这证据了"过程比落幕更垂危"这一不雅点在AI评估中的有用性。当模子大约不雅察到无缺的操作过程时,它可以更准确地意会用户意图是否被正确扩充,即使最终的屏幕景色看起来相似。
另一个垂危发现是对于视频分辩率的影响。赓续标明,使用720p高清视频比360p低清视频大约赢得更好的评估后果,非凡是在调回率方面有权贵提高。这是因为在筹算机界面操作中,好多要津信息都体当今微弱的视觉变化上——比如文本框中的微小剪辑、按钮景色的微小改变,或者鼠标焦点的移动。这些细节在低分辩率视频中可能会丢失,但对于判断任务完成景色却至关垂危。
在处理效力方面,赓续团队对比了不同修剪计谋的后果。他们发面前分修剪比空间修剪带来的性能提高更为权贵,这可能是因为在GUI操作中,跨时分的冗余比空间内的冗余更为盛大。不外,将两种修剪本领勾通使用大约达到最好的效力均衡,既保持了模子性能,又大大裁减了筹算资本。
这项赓续的本体诳骗出路尽头稠密。在软件测试限度,ExeVRM可以自动评估用户界面的可用性和功能正确性。在AI助手的开发过程中,它可以提供精准的性能反馈,匡助开发者快速识别和拓荒问题。在自动化办公过程中,它可以手脚质地查验器用,确保批量处理的任务都得到了正确扩充。
更进一步,这种视频基础的评估活动具有很好的通用性。它不依赖于特定AI助手的里面职责机制,而是通过不雅察外皮施展来判断落幕。这意味着岂论底层的AI本领如何发展变化,这套评估体系都大约保持有用性。这就像一个通用的施行系统,不管学生使用什么学习活动,都能公说念地评估他们的最终掌捏进度。
天然,这项赓续也存在一些局限性。对于那些包含多数试错过程的永远任务,模子随机可能会误判。比如,当一个AI助手在完成任务过程中进行了屡次尝试,诚然最终奏效了,但中间的"失败"尝试可能会被过错地解读为合座失败的信号。这反馈了outcome-level(落幕级)评估和process-level(过程级)评估之间的内在张力。
另外,尽管时空修剪本领大大提高了处理效力,但处理高分辩率永劫分视频仍然需要相等大的筹算资源。这在一定进度上限制了该本领在资源受限环境中的诳骗。赓续团队指出,将来的职责场合可能会探索更高效的视频压缩算法,或者开发散布式处理架构来进一步裁减筹算门槛。
从本领结束的角度来看,ExeVRM成立在Qwen3-VL基础模子之上,通过在ExeVR-53k数据集上进行微调来赢得特意的评估才调。教练过程接纳了模范的监督学习活动,使用交叉熵亏空函数来优化模子的分类性能。赓续团队使用了8张NVIDIA A100 GPU进行教练,通盘这个词教练过程约莫需要几天时分。
在数据处理方面,他们将原始的操作记载改革为模范化的视频形势,每秒1帧的采样率既保证了要津信息的保留,又戒指了数据量的大小。每个视频序列最多包含100帧,对于更长的操作序列会进行均匀采样来稳妥这个限制。
评估基准ExeVR-Bench的构建也经过了悉心想象。它包含789个测试实例,涵盖了Ubuntu代理任务、东说念主工操作任务、Mac/Windows操作以及Android移动拓荒操作等多个场景。为了确保评估的公说念性,正负样本比例被精准戒指在接近50:50。每个测试实例都经过了东说念主工考证,确保标注的准确性。
赓续团队还进行了详备的对比实验,将ExeVRM与多种现存的评估活动进行了比拟。这些活动包括只看最终截图的AER活动、勾通运转和最终景色的Simplified Judge活动,以及使用无缺截图序列但不进行智能修剪的SE-WSM和ZeroGUI活动。落幕领路,ExeVRM在险些通盘评估野心上都取得了最好性能,非凡是在调回率方面的提高尤为权贵。
在过错分析方面,赓续团队发现ExeVRM的主要失实频频出当今以下几种情况:任务包含复杂的多设施依赖关系、界面变化极其玄妙难以察觉、或者存在时分蔓延导致的景色变化。这些不雅察为将来的修订场合提供了有价值的指点。
说到底,这项赓续代表了AI评估限度的一个垂危跳跃。它不仅提供了一个实用的本领处治决议,更垂危的是展示了一种全新的念念路——通过不雅察无缺的扩充过程而非只是阵势最终落幕来评判AI系统的性能。这种活动论的转换可能会影响通盘这个词AI开发和测试的范式。
跟着AI助手在咱们日常糊口中上演越来越垂危的变装,确保它们大约可靠地完成咱们请托的任务变得至关垂危。ExeVRM这样的本领为咱们提供了一对"智能的眼睛",大约不时监督和考证这些数字助手的职责质地。这不仅有助于提高用户体验,也为AI本领的进一步发展奠定了坚实的基础。
对于平素用户来说,这项本领的熟习意味着将来的AI助手将变得愈加可靠和值得相信。当你让AI帮你处理垂危的职责任务时,你可以更有信心它会正确完成,而不需要驰念因为微小的误操作而导致严重后果。这种本领跳跃将加快AI助手在更多要津场景中的诳骗,从而委果结束东说念主工智能为东说念主类糊口带来便利的愿景。
Q&A
Q1:ExeVRM是什么?
A:ExeVRM是一个扩充视频奖励模子,由南加州大学等机构归并开发。它能通过不雅看AI助手完成任务的通盘这个词操作视频来判断任务是否委果完成,就像一个教悔丰富的监督员能通过不雅察职责过程来评判落幕质地。
Q2:为什么需要不雅看无缺视频而不是只看最终落幕?
A:因为仅看最终屏幕景色容易产生误判。就像仅凭饭桌相片无法知说念这顿饭是否按食谱正确制作一样,好多任务的完成质地需要通过不雅察通盘这个词扩充过程中的微弱变化来判断,比如按钮点击限定、文本输入过程等要津细节。
Q3:时空标志修剪本领是如何职责的?
A:这项本领分为空间修剪和时分修剪两部分。空间修剪删除画面中的叠加布景和空缺区域,时分修剪则压缩归并帧之间不变的部分。通过这种方式,可以将视频数据减少60-70%开云体育,同期保留所相瑕疵的界面变化信息。
