ferret-ui

2025-03-02 08:53:34

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

具体来说，为了训练模型，Ferret-UI 包含多个 UI 引述任务（比如 OCR、图标识别、小部件分类）和定基任务（比如寻找文本 / 图标 / 小组件、小组件列表）；这些任务可帮助模型很好地理解手机 UI 并与之交互。之前的 MLLM 需要外部检测模块或屏幕视图文件，而 Ferret-UI 不一样，它自己就能搞定，可以直接输入原始屏...
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机...

设置:Ferret-UI-anyres 是指集成了任意分辨率的版本,Ferret-UI-base 是指直接采用 Ferret 架构的版本,Ferret-UI 是指这两种配置。训练使用了 8 台 A100GPU,Ferret-UI-base 耗时 1 天,Ferret-UI-anyres 耗时约 3 天。结果实验比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有任务上的...
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

而在高级 UI 任务性能的比拼中，Ferret-UI 同样表现优秀。在详细描述（DetDes）、感知对话（ConvP）、交互对话（ConvI）和功能推断（FuncIn）等高级任务上，Ferret-UI 展现了与 GPT-4V 相当的性能，并且在某些任务上超过了GPT-4V。而与开源UI多模态模型 Fuyu 和 CogAgent 相比，Ferret-UI 在大多数任务上均实现...
苹果发布第一个手机端UI多模态大模型——Ferret-UI,基本UI任务性能超...

卓越的性能:在评估中,Ferret-UI不仅超越了大多数开源的UI MLLMs,还在所有基本UI任务上超过了GPT-4V(复杂任务还是不如GPT-4V,估计还得在复杂任务的训练集上做文章)。总的来说,Ferret-UI的提出为移动UI的自动化理解和交互提供了一种先进的解决方案,其在多个方面的创新和卓越性能使其成为一个引人注目的研究成果。
苹果放大招!Ferret-UI 2来了,UI 理解力直接拉满!

为了提高UI感知能力，Ferret-UI2引入了动态高分辨率图像编码技术，并采用了一种名为“自适应网格”的增强方法。通过这种方法，Ferret-UI2能够在UI屏幕截图的原始分辨率下保持感知能力，从而更准确地识别视觉元素和它们之间的关系。此外，Ferret-UI2还利用高质量的训练数据来学习基本和高级任务。对于基本任务，Ferret-UI...
苹果新技术Ferret-UI:看懂屏幕,引领智能交互新纪元

在当今数字化的时代，人工智能（AI）技术的迅猛发展正在不断地改变着我们的生活方式。近日，苹果公司推出了一款名为Ferret-UI的多模态模型，这一技术无疑代表了AI领域的一大重要突破，为用户带来了全新的智能交互体验。Ferret-UI技术的独特之处在于它能够“看懂”手机屏幕上的内容，并根据用户的指令或问题作出相应的...
苹果Ferret-UI引领手机屏幕自然语言操控革命

为此,苹果公司近期推出的多模态大语言模型(MLLM)Ferret-UI,正是这一理念的杰出实践者。 Ferret-UI是苹果专门针对移动用户界面(UI)屏幕理解进行优化的大语言模型,它具备引用、定位和推理三大核心能力。这意味着,Ferret-UI不仅能够理解屏幕上的内容,还能准确地定位并引用特定的UI元素,甚至基于这些信息执行高级推理任务。
苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题：与自然图像相比，用户界面屏幕的长宽比通常更长，包含的关注对象（如图标、文本）也更小，因此我们在 Ferret 的基础上加入了 ...
苹果新技术Ferret-UI:看懂屏幕

苹果公司近日发布研究论文,展示了Ferret-UI AI系统,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,Ferret-UI的一个关键创新是在Ferret的基础上引入了“任何分辨率”技术,专为增强对移动端UI屏幕的理解而定制,配备了引用、定位和推理功能。来源:IT之家谷歌...
苹果Ferret-UI,会颠覆交互设计么? | 人人都是产品经理

作为交互设计师,我们有必要将该技术可以看作是 AI 在交互设计领域的全新尝试,会对未来的界面交互体验产生颠覆性的影响。‍ 一、为什么苹果要做 Ferret-UI 一直以来,ChatGPT 等大型语言模型都主要依赖于文本和图象数据进行训练,而这些数据大多来源于已存在的网络信息和页面。但是,移动应用的界面和交互方式与直观的网...

快搜汉语词典

ferret-ui

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机...

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

苹果发布第一个手机端UI多模态大模型——Ferret-UI,基本UI任务性能超...

苹果放大招!Ferret-UI 2来了,UI 理解力直接拉满!

苹果新技术Ferret-UI:看懂屏幕,引领智能交互新纪元

苹果Ferret-UI引领手机屏幕自然语言操控革命

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

苹果新技术Ferret-UI:看懂屏幕

苹果Ferret-UI,会颠覆交互设计么? | 人人都是产品经理

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索