虽说目前 AI 模型的主流是越大越好,但这些大模型只能在拥有超多GPU的大型机房上运行,而且很多敏感数据也不能随意上传到云端服务器,所以能在本地端运行的小型开源语言模型也是许多 AI 从业者所努力追求的目标。 2024 年时,微软正式启动小语言模型(Small Language Models, SLMs)的部署策略,首先于 Microsoft Foundry 上推出 Phi 系列模型,并将能在设备端运行的 Phi Silica 引入 Windows 11 驱动的 Copilot+ PC。 近日,微软再度跨出重要一步,正式发布针对「电脑作代理(Computer Use Agent, CUA)」设计的首款 SLM:Fara-7B。 Fara-7B仅有70亿参数,但效能强劲,能在相同规模下达到业界最高表现,且体积足够轻量,可直接在本地端运行,不再需要所有数据都回传云端。
技术解密:Fara-7B的核心架构与运作逻辑
目录
轻量化与终端运算的优势
Fara-7B拥有70亿参数(7B),在当今模型动辄数千亿参数的环境下显得相当精巧。 这种体积优势使其能够直接在用户的设备(如搭载 NPU 的 Copilot+ PC)上运行。 这带来了两大显著优势:
- 低延迟(Reduced Latency): 省去了将数据传输至云端的往返时间,作反应更为实时。
- 隐私保障(Improved Privacy): 所有的推理与数据处理皆在本地端完成,用户的敏感资料无需离开设备,这对于处理个人账户或交易信息至关重要。
视觉感知:像人类一样「看」屏幕
与依赖后台辅助功能树(Accessibility Trees)或HTML解析来理解网页结构的传统自动化脚本不同,Fara-7B采用了纯视觉感知的路径。 它基于 Qwen2.5-VL-7B 模型构建,具备强大的视觉定位(Grounding)能力与长达 128k token 的上下文窗口。
Fara-7B 的运作逻辑是「观察—思考—行动」(Observe-Think-Act):
- 观察: 它直接摄取网页的屏幕截图。
- 预测: 不需要额外的解析模型,它能直接预测作目标的坐标(Coordinates)。
- 行动: 通过模拟鼠标点击(Click)、滚动(Scroll)与键盘输入(Type)来与电脑互动。
在名为 Magentic-UI 的界面中,Fara-7B 进行的实验性案例展示包括,这些示范充分展现模型的实际应用场景:自动化日常网络流程,例如旅游预订、信息搜集与价格比较的能力,重点是它体量超小可在本地端运行:
购买 X-Box 海绵宝宝主题手把
Fara-7B 能在 Magentic-UI 中搜索并购买 Xbox 海绵宝宝控制器,且在结帐等关键步骤自动暂停询问用户许可:
查询 Microsoft/Magentic-UI 的 Github 最新三则更新并汇整
通过 Magentic-UI 演示 Fara-7B 在在线寻找相关信息并进行摘要,并要求 Fara-7B 找出并摘要 Github 上 Microsoft/Magentic-UI 的最新三个 issue。
规划旅途
在规划行程时,它能结合 Bing Maps 查询驾驶时间与 Bing Search 搜索附近的奶酪专卖店,展现了跨应用程序的信息整合能力。
来自多代理系统的知识蒸馏:Fara-7B 的训练方式
开发电脑使用代理(CUA)最大的瓶颈在于数据。 搜集人类作电脑的高品质、多步骤数据极为昂贵且耗时。 为了解决这个问题,微软研发了一套基于 Magentic-One 框架的合成数据生成渠道,成功构建了包含 145,000 条轨迹(Trajectories)、涵盖 100 万个步骤的训练数据集。
该渠道分为三个关键阶段:
任务提案(Task Proposal): 为了确保任务的多样性,系统会从真实的网页索引中提取 URL(如购物、旅游、餐厅网站)作为「种子」。 例如,从一个电影网站 URL 生成「在纽约 AMC Union Square 预订两张《唐顿庄园》大结局门票」的具体任务。 系统甚至会让 LLM 代理先探索网站,再根据获得的信息优化任务指令。
任务求解(Task Solving): 这是最核心的生成环节。 利用 Magentic-One 多代理系统,由一个「协调者代理」(Orchestrator)制定计画,指挥「网页浏览代理」(WebSurfer)执行浏览器作。 如果需要用户输入,系统还能调用「用户模拟器」(UserSimulator)进行多轮交互。 这些作过程、观察结果与代理的思考过程,被完整记录下来形成训练数据。
轨迹验证(Trajectory Verification): 为了确保数据质量,微软引入了三重验证机制:
- 对齐验证器(Alignment Verifier): 检查作轨迹是否符合原始任务意图。
- 标准验证器(Rubric Verifier): 根据预设的完成标准对轨迹进行评分。
- 多模态验证器(Multimodal Verifier): 审查截图与响应,确认视觉证据支持任务已成功完成。
各项基准测试结果:以轻量模型刷新效能/成本曲线
微软在多个公开基准测试中评估了 Fara-7B,包括 WebVoyager、Online-Mind2Web、Deepshop,以及微软新发布的 WebTailBench(专注于求职、比价等长尾任务的基准测试),Fara-7B 皆表现亮眼。
数据显示,Fara-7B 在多项指标上展现了 State-of-the-Art(SOTA)级别的性能,甚至超越了体积更大的模型或依赖辅助标记(Set-of-Marks, SoM)的 GPT-4o 代理系统。
- WebVoyager 测试: Fara-7B 取得了 73.5% 的任务成功率,优于 OpenAI computer-use-preview(70.9%)与 UI-TARS-1.5-7B(66.4%)。
- WebTailBench 测试: 在这个针对现实世界复杂任务的新基准中,Fara-7B 达到 38.4% 的成功率,远高于 GPT-4o SoM Agent 的 30.0%。
| 模型 | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench |
|---|---|---|---|---|
| SoM Agent (GPT-4o) | 65.1% | 34.6% | 16.0% | 30.0% |
| OpenAI computer-use-preview | 70.9% | 42.9% | 24.7% | 25.7% |
| UI-TARS-1.5-7B | 66.4% | 31.3% | 11.6% | 19.5% |
| Fara-7B | 73.5% | 34.1% | 26.2% | 38.4% |
※ 所有结果均为多次实验平均值
效率是Fara-7B的另一大亮点。 在同为7B参数级别的比较中,虽然Fara-7B与UI-TARS-1.5-7B的推理单价相同(基于Qwen2.5-VL-7B架构),但Fara-7B平均仅需16个步骤即可完成任务,而竞品则需约41个步骤。 这意味着在实际应用中,Fara-7B 能以更少的时间和算力成本达到目标,在成本效益曲线(Pareto Frontier)上开创了新局。
安全与负责任的 AI:人机协作的防护网
赋予AI作电脑的权力伴随着风险,如误作、隐私泄露或被恶意利用。 微软在 Fara-7B 的设计中强调了「透明度」与「用户控制」的重要性。
关键决策点(Critical Points)机制
为了防止 AI 进行不可逆的高风险作(如发送电子邮件、确认付款),微软在训练数据中强制加入了「关键决策点」的概念。 当Fara-7B识别到此类场景时,必须停止并请求用户批准。 这确保了人类始终保留最终决定权。
沙盒环境与拒绝机制
微软强烈建议在沙盒(Sandboxed)环境中运行 Fara-7B,以便用户能随时监控并中断其行为。 此外,模型经过了严格的红队测试(Red Teaming)与安全数据训练。 在针对拒绝有害任务的WebTailBench-Refusals测试中,Fara-7B展现了82%的高拒绝率,能有效识别并拒绝如越狱尝试、有害内容生成或提示注入(Prompt Injections)等恶意指令。
目前,Fara-7B 定位为实验性预览版本(Experimental Release),微软已将其以 MIT 授权条款在 Microsoft Foundry 与 Hugging Face 上开源(Open-weight)。 开发者可以直接下载预先优化过的模型,或通过 Magentic-UI 原型进行测试。
微软此举意在降低CUA技术的门槛,邀请社群共同参与。 Fara-7B 证明了通过纯监督式微调(Supervised Fine-tuning),小型模型也能在复杂的代理任务上取得卓越成果。 展望未来,随着多模态基底模型的进化以及强化学习(Reinforcement Learning)技术的引入,能在终端装置上运行的AI代理将会更加强大且可靠。 Fara-7B 的问世,不仅是技术参数的提升,更是对未来数字生活的一种预告:一个你的电脑能真正「理解」并「帮你做完」繁琐杂事的时代,已经触手可及。
微信扫一扫
