微软推出 Fara-7B:能看、能控电脑的本地端小模型,AI 代理新纪元

虽说目前 AI 模型的主流是越大越好,但这些大模型只能在拥有超多GPU的大型机房上运行,而且很多敏感数据也不能随意上传到云端服务器,所以能在本地端运行的小型开源语言模型也是许多 AI 从业者所努力追求的目标。 2024 年时,微软正式启动小语言模型(Small Language Models, SLMs)的部署策略,首先于 Microsoft Foundry 上推出 Phi 系列模型,并将能在设备端运行的 Phi Silica 引入 Windows 11 驱动的 Copilot+ PC。 近日,微软再度跨出重要一步,正式发布针对「电脑作代理(Computer Use Agent, CUA)」设计的首款 SLM:Fara-7B。 Fara-7B仅有70亿参数,但效能强劲,能在相同规模下达到业界最高表现,且体积足够轻量,可直接在本地端运行,不再需要所有数据都回传云端。

技术解密:Fara-7B的核心架构与运作逻辑

轻量化与终端运算的优势

Fara-7B拥有70亿参数(7B),在当今模型动辄数千亿参数的环境下显得相当精巧。 这种体积优势使其能够直接在用户的设备(如搭载 NPU 的 Copilot+ PC)上运行。 这带来了两大显著优势:

  • 低延迟(Reduced Latency): 省去了将数据传输至云端的往返时间,作反应更为实时。
  • 隐私保障(Improved Privacy): 所有的推理与数据处理皆在本地端完成,用户的敏感资料无需离开设备,这对于处理个人账户或交易信息至关重要。

视觉感知:像人类一样「看」屏幕

与依赖后台辅助功能树(Accessibility Trees)或HTML解析来理解网页结构的传统自动化脚本不同,Fara-7B采用了纯视觉感知的路径。 它基于 Qwen2.5-VL-7B 模型构建,具备强大的视觉定位(Grounding)能力与长达 128k token 的上下文窗口。

Fara-7B 的运作逻辑是「观察—思考—行动」(Observe-Think-Act):

  • 观察: 它直接摄取网页的屏幕截图。
  • 预测: 不需要额外的解析模型,它能直接预测作目标的坐标(Coordinates)。
  • 行动: 通过模拟鼠标点击(Click)、滚动(Scroll)与键盘输入(Type)来与电脑互动。

在名为 Magentic-UI 的界面中,Fara-7B 进行的实验性案例展示包括,这些示范充分展现模型的实际应用场景:自动化日常网络流程,例如旅游预订、信息搜集与价格比较的能力,重点是它体量超小可在本地端运行:

购买 X-Box 海绵宝宝主题手把

Fara-7B 能在 Magentic-UI 中搜索并购买 Xbox 海绵宝宝控制器,且在结帐等关键步骤自动暂停询问用户许可:

查询 Microsoft/Magentic-UI 的 Github 最新三则更新并汇整

通过 Magentic-UI 演示 Fara-7B 在在线寻找相关信息并进行摘要,并要求 Fara-7B 找出并摘要 Github 上 Microsoft/Magentic-UI 的最新三个 issue。

规划旅途

在规划行程时,它能结合 Bing Maps 查询驾驶时间与 Bing Search 搜索附近的奶酪专卖店,展现了跨应用程序的信息整合能力。

来自多代理系统的知识蒸馏:Fara-7B 的训练方式

开发电脑使用代理(CUA)最大的瓶颈在于数据。 搜集人类作电脑的高品质、多步骤数据极为昂贵且耗时。 为了解决这个问题,微软研发了一套基于 Magentic-One 框架的合成数据生成渠道,成功构建了包含 145,000 条轨迹(Trajectories)、涵盖 100 万个步骤的训练数据集。

该渠道分为三个关键阶段:微软推出Fara-7B:能看、能控电脑的本地端小模型,AI代理新纪元 -

任务提案(Task Proposal): 为了确保任务的多样性,系统会从真实的网页索引中提取 URL(如购物、旅游、餐厅网站)作为「种子」。 例如,从一个电影网站 URL 生成「在纽约 AMC Union Square 预订两张《唐顿庄园》大结局门票」的具体任务。 系统甚至会让 LLM 代理先探索网站,再根据获得的信息优化任务指令。

任务求解(Task Solving): 这是最核心的生成环节。 利用 Magentic-One 多代理系统,由一个「协调者代理」(Orchestrator)制定计画,指挥「网页浏览代理」(WebSurfer)执行浏览器作。 如果需要用户输入,系统还能调用「用户模拟器」(UserSimulator)进行多轮交互。 这些作过程、观察结果与代理的思考过程,被完整记录下来形成训练数据。

轨迹验证(Trajectory Verification): 为了确保数据质量,微软引入了三重验证机制:

  • 对齐验证器(Alignment Verifier): 检查作轨迹是否符合原始任务意图。
  • 标准验证器(Rubric Verifier): 根据预设的完成标准对轨迹进行评分。
  • 多模态验证器(Multimodal Verifier): 审查截图与响应,确认视觉证据支持任务已成功完成。

各项基准测试结果:以轻量模型刷新效能/成本曲线

微软在多个公开基准测试中评估了 Fara-7B,包括 WebVoyager、Online-Mind2Web、Deepshop,以及微软新发布的 WebTailBench(专注于求职、比价等长尾任务的基准测试),Fara-7B 皆表现亮眼。
微软推出Fara-7B:能看、能控电脑的本地端小模型,AI代理新纪元 -

数据显示,Fara-7B 在多项指标上展现了 State-of-the-Art(SOTA)级别的性能,甚至超越了体积更大的模型或依赖辅助标记(Set-of-Marks, SoM)的 GPT-4o 代理系统。

  • WebVoyager 测试: Fara-7B 取得了 73.5% 的任务成功率,优于 OpenAI computer-use-preview(70.9%)与 UI-TARS-1.5-7B(66.4%)。
  • WebTailBench 测试: 在这个针对现实世界复杂任务的新基准中,Fara-7B 达到 38.4% 的成功率,远高于 GPT-4o SoM Agent 的 30.0%。
模型WebVoyagerOnline-Mind2WebDeepShopWebTailBench
SoM Agent (GPT-4o)65.1%34.6%16.0%30.0%
OpenAI computer-use-preview70.9%42.9%24.7%25.7%
UI-TARS-1.5-7B66.4%31.3%11.6%19.5%
Fara-7B73.5%34.1%26.2%38.4%

※ 所有结果均为多次实验平均值

效率是Fara-7B的另一大亮点。 在同为7B参数级别的比较中,虽然Fara-7B与UI-TARS-1.5-7B的推理单价相同(基于Qwen2.5-VL-7B架构),但Fara-7B平均仅需16个步骤即可完成任务,而竞品则需约41个步骤。 这意味着在实际应用中,Fara-7B 能以更少的时间和算力成本达到目标,在成本效益曲线(Pareto Frontier)上开创了新局。

安全与负责任的 AI:人机协作的防护网

赋予AI作电脑的权力伴随着风险,如误作、隐私泄露或被恶意利用。 微软在 Fara-7B 的设计中强调了「透明度」与「用户控制」的重要性。

关键决策点(Critical Points)机制

为了防止 AI 进行不可逆的高风险作(如发送电子邮件、确认付款),微软在训练数据中强制加入了「关键决策点」的概念。 当Fara-7B识别到此类场景时,必须停止并请求用户批准。 这确保了人类始终保留最终决定权。

沙盒环境与拒绝机制

微软强烈建议在沙盒(Sandboxed)环境中运行 Fara-7B,以便用户能随时监控并中断其行为。 此外,模型经过了严格的红队测试(Red Teaming)与安全数据训练。 在针对拒绝有害任务的WebTailBench-Refusals测试中,Fara-7B展现了82%的高拒绝率,能有效识别并拒绝如越狱尝试、有害内容生成或提示注入(Prompt Injections)等恶意指令。

目前,Fara-7B 定位为实验性预览版本(Experimental Release),微软已将其以 MIT 授权条款在 Microsoft Foundry 与 Hugging Face 上开源(Open-weight)。 开发者可以直接下载预先优化过的模型,或通过 Magentic-UI 原型进行测试。

微软此举意在降低CUA技术的门槛,邀请社群共同参与。 Fara-7B 证明了通过纯监督式微调(Supervised Fine-tuning),小型模型也能在复杂的代理任务上取得卓越成果。 展望未来,随着多模态基底模型的进化以及强化学习(Reinforcement Learning)技术的引入,能在终端装置上运行的AI代理将会更加强大且可靠。 Fara-7B 的问世,不仅是技术参数的提升,更是对未来数字生活的一种预告:一个你的电脑能真正「理解」并「帮你做完」繁琐杂事的时代,已经触手可及。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论