微软推出 Fara-7B：能看、能控电脑的本地端小模型，AI 代理新纪元

虽说目前 AI 模型的主流是越大越好，但这些大模型只能在拥有超多GPU的大型机房上运行，而且很多敏感数据也不能随意上传到云端服务器，所以能在本地端运行的小型开源语言模型也是许多 AI 从业者所努力追求的目标。 2024 年时，微软正式启动小语言模型（Small Language Models， SLMs）的部署策略，首先于 Microsoft Foundry 上推出 Phi 系列模型，并将能在设备端运行的 Phi Silica 引入 Windows 11 驱动的 Copilot+ PC。近日，微软再度跨出重要一步，正式发布针对「电脑作代理（Computer Use Agent， CUA）」设计的首款 SLM：Fara-7B。 Fara-7B仅有70亿参数，但效能强劲，能在相同规模下达到业界最高表现，且体积足够轻量，可直接在本地端运行，不再需要所有数据都回传云端。

技术解密：Fara-7B的核心架构与运作逻辑

轻量化与终端运算的优势

Fara-7B拥有70亿参数（7B），在当今模型动辄数千亿参数的环境下显得相当精巧。这种体积优势使其能够直接在用户的设备（如搭载 NPU 的 Copilot+ PC）上运行。这带来了两大显著优势：

低延迟（Reduced Latency）： 省去了将数据传输至云端的往返时间，作反应更为实时。
隐私保障（Improved Privacy）： 所有的推理与数据处理皆在本地端完成，用户的敏感资料无需离开设备，这对于处理个人账户或交易信息至关重要。

视觉感知：像人类一样「看」屏幕

与依赖后台辅助功能树（Accessibility Trees）或HTML解析来理解网页结构的传统自动化脚本不同，Fara-7B采用了纯视觉感知的路径。它基于 Qwen2.5-VL-7B 模型构建，具备强大的视觉定位（Grounding）能力与长达 128k token 的上下文窗口。

Fara-7B 的运作逻辑是「观察—思考—行动」（Observe-Think-Act）：

观察： 它直接摄取网页的屏幕截图。
预测： 不需要额外的解析模型，它能直接预测作目标的坐标（Coordinates）。
行动： 通过模拟鼠标点击（Click）、滚动（Scroll）与键盘输入（Type）来与电脑互动。

在名为 Magentic-UI 的界面中，Fara-7B 进行的实验性案例展示包括，这些示范充分展现模型的实际应用场景：自动化日常网络流程，例如旅游预订、信息搜集与价格比较的能力，重点是它体量超小可在本地端运行：

购买 X-Box 海绵宝宝主题手把

Fara-7B 能在 Magentic-UI 中搜索并购买 Xbox 海绵宝宝控制器，且在结帐等关键步骤自动暂停询问用户许可：

查询 Microsoft/Magentic-UI 的 Github 最新三则更新并汇整

通过 Magentic-UI 演示 Fara-7B 在在线寻找相关信息并进行摘要，并要求 Fara-7B 找出并摘要 Github 上 Microsoft/Magentic-UI 的最新三个 issue。

规划旅途

在规划行程时，它能结合 Bing Maps 查询驾驶时间与 Bing Search 搜索附近的奶酪专卖店，展现了跨应用程序的信息整合能力。

来自多代理系统的知识蒸馏：Fara-7B 的训练方式

开发电脑使用代理（CUA）最大的瓶颈在于数据。搜集人类作电脑的高品质、多步骤数据极为昂贵且耗时。为了解决这个问题，微软研发了一套基于 Magentic-One 框架的合成数据生成渠道，成功构建了包含 145,000 条轨迹（Trajectories）、涵盖 100 万个步骤的训练数据集。

该渠道分为三个关键阶段：微软推出Fara-7B：能看、能控电脑的本地端小模型，AI代理新纪元 -

任务提案（Task Proposal）： 为了确保任务的多样性，系统会从真实的网页索引中提取 URL（如购物、旅游、餐厅网站）作为「种子」。例如，从一个电影网站 URL 生成「在纽约 AMC Union Square 预订两张《唐顿庄园》大结局门票」的具体任务。系统甚至会让 LLM 代理先探索网站，再根据获得的信息优化任务指令。

任务求解（Task Solving）： 这是最核心的生成环节。利用 Magentic-One 多代理系统，由一个「协调者代理」（Orchestrator）制定计画，指挥「网页浏览代理」（WebSurfer）执行浏览器作。如果需要用户输入，系统还能调用「用户模拟器」（UserSimulator）进行多轮交互。这些作过程、观察结果与代理的思考过程，被完整记录下来形成训练数据。

轨迹验证（Trajectory Verification）： 为了确保数据质量，微软引入了三重验证机制：

对齐验证器（Alignment Verifier）： 检查作轨迹是否符合原始任务意图。
标准验证器（Rubric Verifier）： 根据预设的完成标准对轨迹进行评分。
多模态验证器（Multimodal Verifier）： 审查截图与响应，确认视觉证据支持任务已成功完成。

各项基准测试结果：以轻量模型刷新效能/成本曲线

微软在多个公开基准测试中评估了 Fara-7B，包括 WebVoyager、Online-Mind2Web、Deepshop，以及微软新发布的 WebTailBench（专注于求职、比价等长尾任务的基准测试），Fara-7B 皆表现亮眼。
微软推出Fara-7B：能看、能控电脑的本地端小模型，AI代理新纪元 -

数据显示，Fara-7B 在多项指标上展现了 State-of-the-Art（SOTA）级别的性能，甚至超越了体积更大的模型或依赖辅助标记（Set-of-Marks， SoM）的 GPT-4o 代理系统。

WebVoyager 测试： Fara-7B 取得了 73.5% 的任务成功率，优于 OpenAI computer-use-preview（70.9%）与 UI-TARS-1.5-7B（66.4%）。
WebTailBench 测试： 在这个针对现实世界复杂任务的新基准中，Fara-7B 达到 38.4% 的成功率，远高于 GPT-4o SoM Agent 的 30.0%。

模型	WebVoyager	Online-Mind2Web	DeepShop	WebTailBench
SoM Agent (GPT-4o)	65.1%	34.6%	16.0%	30.0%
OpenAI computer-use-preview	70.9%	42.9%	24.7%	25.7%
UI-TARS-1.5-7B	66.4%	31.3%	11.6%	19.5%
Fara-7B	73.5%	34.1%	26.2%	38.4%

※ 所有结果均为多次实验平均值

效率是Fara-7B的另一大亮点。在同为7B参数级别的比较中，虽然Fara-7B与UI-TARS-1.5-7B的推理单价相同（基于Qwen2.5-VL-7B架构），但Fara-7B平均仅需16个步骤即可完成任务，而竞品则需约41个步骤。这意味着在实际应用中，Fara-7B 能以更少的时间和算力成本达到目标，在成本效益曲线（Pareto Frontier）上开创了新局。

安全与负责任的 AI：人机协作的防护网

赋予AI作电脑的权力伴随着风险，如误作、隐私泄露或被恶意利用。微软在 Fara-7B 的设计中强调了「透明度」与「用户控制」的重要性。

关键决策点（Critical Points）机制

为了防止 AI 进行不可逆的高风险作（如发送电子邮件、确认付款），微软在训练数据中强制加入了「关键决策点」的概念。当Fara-7B识别到此类场景时，必须停止并请求用户批准。这确保了人类始终保留最终决定权。

沙盒环境与拒绝机制

微软强烈建议在沙盒（Sandboxed）环境中运行 Fara-7B，以便用户能随时监控并中断其行为。此外，模型经过了严格的红队测试（Red Teaming）与安全数据训练。在针对拒绝有害任务的WebTailBench-Refusals测试中，Fara-7B展现了82%的高拒绝率，能有效识别并拒绝如越狱尝试、有害内容生成或提示注入（Prompt Injections）等恶意指令。

目前，Fara-7B 定位为实验性预览版本（Experimental Release），微软已将其以 MIT 授权条款在 Microsoft Foundry 与 Hugging Face 上开源（Open-weight）。开发者可以直接下载预先优化过的模型，或通过 Magentic-UI 原型进行测试。

微软此举意在降低CUA技术的门槛，邀请社群共同参与。 Fara-7B 证明了通过纯监督式微调（Supervised Fine-tuning），小型模型也能在复杂的代理任务上取得卓越成果。展望未来，随着多模态基底模型的进化以及强化学习（Reinforcement Learning）技术的引入，能在终端装置上运行的AI代理将会更加强大且可靠。 Fara-7B 的问世，不仅是技术参数的提升，更是对未来数字生活的一种预告：一个你的电脑能真正「理解」并「帮你做完」繁琐杂事的时代，已经触手可及。