关于LLaVA-Plus 的一些思考
LLaVA-Plus 是LLAVA团队最近放出来的LMM工作,对LLaVA进行了改进升级,相比LLaVA对输入图像只能进行文本回答的情况,LLaVA-PLUS则包含相当丰富的功能:
- 可以调用SD生成与输入类似的图像
- 可以对图像进行编辑,例如调用Instruct pix2pix在图像上放置一只动物
- 可以对图像进行物体检测,分割,Cpation,OCR,打标签等多模态处理的功能
- 还可以调用外部知识来对未知的信息进行检索
- 支持用户交互,如对用户点击的区域进行实例分割
- 对图像进行美化,然后生成可以发布到社交媒体上的文案
那么LMM是怎么获得到这么多的多模态能力的呢?论文中提出了一个叫Skill Repository
的概念,就是一些AI 子任务的能力和对应的模型,利用这个Skill Repository来完成丰富的功能。也就是说LLaVA-Plus将用户输入的任务通过进行拆分,然后调用合适的子任务模型来实现,再对结果进行一定的处理返回给用户。