具体来说,为了训练模型,Ferret-UI 包含多个 UI 引述任务(比如 OCR、图标识别、小部件分类)和定基任务(比如寻找文本 / 图标 / 小组件、小组件列表);这些任务可帮助模型很好地理解手机 UI 并与之交互。之前的 MLLM 需要外部检测模块或屏幕视图文件,而 Ferret-UI 不一样,它自己就能搞定,可以直接输入原始屏...
设置:Ferret-UI-anyres 是指集成了任意分辨率的版本,Ferret-UI-base 是指直接采用 Ferret 架构的版本,Ferret-UI 是指这两种配置。训练使用了 8 台 A100GPU,Ferret-UI-base 耗时 1 天,Ferret-UI-anyres 耗时约 3 天。 结果 实验比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有任务上的...
而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现...
卓越的性能:在评估中,Ferret-UI不仅超越了大多数开源的UI MLLMs,还在所有基本UI任务上超过了GPT-4V(复杂任务还是不如GPT-4V,估计还得在复杂任务的训练集上做文章)。 总的来说,Ferret-UI的提出为移动UI的自动化理解和交互提供了一种先进的解决方案,其在多个方面的创新和卓越性能使其成为一个引人注目的研究成果。
为了提高UI感知能力,Ferret-UI2引入了动态高分辨率图像编码技术,并采用了一种名为“自适应网格”的增强方法。通过这种方法,Ferret-UI2能够在UI屏幕截图的原始分辨率下保持感知能力,从而更准确地识别视觉元素和它们之间的关系。此外,Ferret-UI2还利用高质量的训练数据来学习基本和高级任务。 对于基本任务,Ferret-UI...
在当今数字化的时代,人工智能(AI)技术的迅猛发展正在不断地改变着我们的生活方式。近日,苹果公司推出了一款名为Ferret-UI的多模态模型,这一技术无疑代表了AI领域的一大重要突破,为用户带来了全新的智能交互体验。Ferret-UI技术的独特之处在于它能够“看懂”手机屏幕上的内容,并根据用户的指令或问题作出相应的...
为此,苹果公司近期推出的多模态大语言模型(MLLM)Ferret-UI,正是这一理念的杰出实践者。 Ferret-UI是苹果专门针对移动用户界面(UI)屏幕理解进行优化的大语言模型,它具备引用、定位和推理三大核心能力。这意味着,Ferret-UI不仅能够理解屏幕上的内容,还能准确地定位并引用特定的UI元素,甚至基于这些信息执行高级推理任务。
1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在 Ferret 的基础上加入了 ...
苹果公司近日发布研究论文,展示了Ferret-UI AI系统,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,Ferret-UI的一个关键创新是在Ferret的基础上引入了“任何分辨率”技术,专为增强对移动端UI屏幕的理解而定制,配备了引用、定位和推理功能。 来源:IT之家谷歌...
作为交互设计师,我们有必要将该技术可以看作是 AI 在交互设计领域的全新尝试,会对未来的界面交互体验产生颠覆性的影响。 一、为什么苹果要做 Ferret-UI 一直以来,ChatGPT 等大型语言模型都主要依赖于文本和图象数据进行训练,而这些数据大多来源于已存在的网络信息和页面。但是,移动应用的界面和交互方式与直观的网...