而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现...
设置:Ferret-UI-anyres 是指集成了任意分辨率的版本,Ferret-UI-base 是指直接采用 Ferret 架构的版本,Ferret-UI 是指这两种配置。训练使用了 8 台 A100 GPU,Ferret-UI-base 耗时 1 天,Ferret-UI-anyres 耗时约 3 天。结果 实验比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有任务上...
Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找文本”任务外,它在所有任务上都超过了Ferret和GPT-4V。 在OCR(光学字符识别)、图标识别和控件分类等基础 UI 任务上,Ferret-UI 的平均准确率分别为72.9%、82.4%和81.4%,远超 GPT-4V 的平均准确率,后者分别为47....
Ferret-UI代表了移动UI理解方面的重大飞跃,结合了优化的架构、全面的训练数据以及强大的参考和基础能力。在UX/UI领域,它带来的影响是深远的: UI/UX设计团队:可以利用Ferret-UI分析用户与原型的交互,并为设计迭代收集有价值的见解。 增强的辅助功能:Ferret-UI与UI元素交互的能力为改善残障特殊用户的辅助功能铺平了道路。
在当今数字化的时代,人工智能(AI)技术的迅猛发展正在不断地改变着我们的生活方式。近日,苹果公司推出了一款名为Ferret-UI的多模态模型,这一技术无疑代表了AI领域的一大重要突破,为用户带来了全新的智能交互体验。Ferret-UI技术的独特之处在于它能够“看懂”手机屏幕上的内容,并根据用户的指令或问题作出相应的...
Ferret-UI基于Ferret模型构建,该模型在自然图像中表现出强大的参照和定位能力。为了适应UI屏幕的不同宽...
苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能,并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent 也纳入对比之中。 首先是基础的 UI 任务性能测试。 Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找...
此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。 移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,...
Ferret-UI是什么? Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务,聚焦于移动端、关注用户交互。
苹果新技术Ferret-UI:看懂屏幕 苹果公司近日发布研究论文,展示了Ferret-UI AI系统,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,Ferret-UI的一个关键创新是在Ferret的基础上引入了“任何分辨率”技术,专为增强对移动端UI屏幕的理解而定制,配备了引用、定位和推理...