利用 AutoGLM 控制手机实现手机自动化控制

152次阅读

共计 2225 个字符，预计需要花费 6 分钟才能阅读完成。

2025 年末，AI 硬件领域迎来了一波新的高潮。不仅是智能眼镜、耳机等穿戴设备层出不穷，"AI 手机"的概念也终于从营销口号走向了实质性的功能落地。最引人注目的莫过于字节跳动与中兴通讯合作，在 12 月发布了 nubia M153 "豆包手机"。这款手机预装了系统级的 "豆包手机助手"，号称能够打破 App 之间的壁垒，通过语音指令直接帮用户完成比价、订票等跨应用操作。这种 "Phone Use"（手机操控）能力，标志着 AI Agent（智能体）正式接管智能手机的时代已经开启。

而在开源社区和开发者领域，智谱 AI 也在几乎同一时间抛出了重磅炸弹——AutoGLM。这是一个能够让大模型像人类一样 "看懂" 并 "操作" 手机的开源框架，为普通开发者和极客们提供了一个打造私人手机自动化助理的强大工具。

什么是 AutoGLM？

AutoGLM 是由智谱 AI 推出的一款端侧 AI Agent 框架。它的核心愿景是让 AI 能够像人类一样，通过视觉识别屏幕内容，理解用户意图，并模拟点击、滑动等操作来控制手机。

简单来说，如果你想点一杯外卖，以前你需要：解锁手机 -> 打开美团/饿了么 -> 搜索店铺 -> 选择商品 -> 下单支付。有了 AutoGLM，你只需要对手机说："帮我点一份附近评分最高的黄焖鸡米饭"，剩下的步骤，AutoGLM 会自动帮你完成。它不是简单的脚本回放，而是能够根据屏幕实时反馈进行动态决策的智能体。

AutoGLM 的工作原理

AutoGLM 的强大之处在于它结合了视觉语言模型 (VLM) 和 自动化执行框架。

视觉理解 (Vision)：AutoGLM 使用基于 GLM-4V 等先进的视觉语言模型，截取手机屏幕的当前画面，像人眼一样识别屏幕上的 UI 元素（按钮、输入框、文本）。它不依赖应用提供的无障碍接口（Accessibility Service）来获取控件树，而是直接"看"屏幕，这使得它能适应各种非标准开发的 App。
意图推理与规划 (Reasoning & Planning)：接收到用户的自然语言指令后，模型会分析当前屏幕状态，结合历史操作记忆，规划下一步该做什么。例如，如果目标是"搜索商品"，模型会判断当前是否在首页，如果在，则寻找搜索框；如果不在，则规划如何返回或跳转。
动作执行 (Action)：一旦确定了操作（如"点击坐标 (500, 1200)" 或 "向上滑动"），AutoGLM 会通过 ADB (Android Debug Bridge) 发送指令到安卓系统，模拟真实的手指操作。
闭环反馈：操作完成后，系统会再次截图，观察操作是否成功（例如页面是否跳转），并根据反馈调整后续步骤。这种自进化的强化学习框架保证了任务执行的稳定性。

如何安装和使用 AutoGLM

AutoGLM 目前主要面向开发者和尝鲜用户，以开源项目的形式存在。以下是本地部署 Open-AutoGLM 的简要指南：

准备工作

硬件：一台性能较好的电脑（用于运行模型服务，建议配备 NVIDIA 显卡），以及一台开启了开发者模式和 USB 调试的 Android 手机。
环境：Python 3.10+，已安装 ADB 工具并配置好环境变量。

安装步骤

获取代码：从 GitHub 克隆仓库：

git clone https://github.com/THUDM/AutoGLM.git
cd AutoGLM

安装依赖：安装项目所需的 Python 库：

pip install -r requirements.txt

安装辅助工具：为了更精准地输入文本，建议在手机上安装 ADB Keyboard，这通常在项目文档中有提供或可自行下载。

启动模型服务：你需要先下载 AutoGLM 的模型权重（如 zai-org/AutoGLM-Phone-9B），然后启动 API 服务供控制脚本调用：

python3 -m vllm.entrypoints.openai.api_server --model zai-org/AutoGLM-Phone-9B --port 8000

运行控制脚本：

连接手机，确保 ADB 识别到设备。运行主程序，输入你的指令即可开始体验：

python run_agent.py --prompt "帮我在小红书上找一下最近很火的做菜教程"

智谱 App 体验

对于不想折腾代码的用户，智谱 AI 的官方 App "智谱清言" 中也逐步集成了一些 Agent 功能，或者通过申请内测资格，下载专门的 AutoGLM 演示 App，利用云端算力直接控制手机。这种方式通常需要开启手机的无障碍权限和悬浮窗权限。

AutoGLM vs 豆包手机助手

虽然 AutoGLM 和字节跳动的豆包手机助手都在做 "AI 操控手机" 这件事，但两者的路径略有不同：

豆包手机助手：走的是系统级整合路线。通过与手机厂商（中兴 nubia）深度合作，它拥有更高的系统权限和更底层的接口访问能力，体验可能更丝滑，但也受限于特定机型。
AutoGLM：走的是通用视觉 + 跨平台路线。它主要依赖视觉识别和 ADB/无障碍服务，理论上可以适配任何安卓手机，甚至通过云手机技术服务更多设备。这种方案通用性更强，但在隐私保护和操作延迟上通过本地部署能获得更好的平衡。