logo NodeSeekbeta

[开源自荐]烧了几百亿token,我写了一个能在浏览器运行的安卓系统(现支持在线体验手机agent)

12345
  • 总感觉是套壳,这东西。

  • 先收藏后看 xhj003

  • 除了诈骗我找不到应用场景 ac05

  • 跟react win11想法很像

  • 小米的UI,而且打开很丝滑

  • 不如弄个redroid + WebRTC 自建

  • image
    擦这微信还会回消息的

  • 能不能写个能在浏览器上运行的Windows系统 xhj003

  • 重复造轮子么

  • 看半天没看懂,原来是这样,以下为 agent 解读:

    这是一个手机 GUI Agent 研究用的浏览器内模拟平台,专门用来训练和评估 AI 操作手机 App 的能力。

    一句话概括:用浏览器模拟 28 个真实手机 App(微信、支付宝、12306、B站、Spotify……),让 AI 在这个可控环境里做强化学习训练和可验证的自动化测试。

    解决什么问题

    传统真机训练的三个致命问题:

    1. 读不到 —— VLM 法官判断屏幕状态误差率 10.2%,无法给 RL 提供可靠奖励信号
    2. 无法重置 —— 真机无法回到初始状态,训练无从谈起
    3. 无法并行 —— 真机一台一台跑,成本极高

    MobileGym 的解法:

    • 每个 App 都是 React/TS 在浏览器里忠实重建,包含 Android 任务栈、Intent 路由、权限流程
    • 程序化状态法官( programmatic state judge)替代 VLM 判分,416 个任务模板零误判
    • 单机批量并行,每个浏览器实例约 400MB 状态复制,GRPO 训练成本大幅降低
    • Sim-to-Real 效果好:Qwen3-VL-4B 在模拟器里训出来的 +40.7pt 提升,在真机上保留了 95.1%

    适合谁用

    • 做 Mobile Agent 研究的同学(RL 训练、benchmark 评估)
    • 想在微信/支付宝等日常 App 上训 Agent 但没有真机集群的团队
    • 懒得多机并行调试的独立开发者(其实本地就能跑一堆模拟实例)

    GitHub 上 fork 了 6 次、78 stars,还算活跃喵。

12345

你好啊,陌生人!

我的朋友,看起来你是新来的,如果想参与到讨论中,点击下面的按钮!

📈用户数目📈

目前论坛共有60101位seeker

🎉欢迎新用户🎉