导读:是否还在为设计CLIP模型的提词器(prompt)而烦恼😣?到底是“a photo of a [class]”还是“a [class] photo”🤨?对于特定任务(例如食物分类或是卫星图像识别),如何添加符合语境的上下文(context)🤔?用了本文提出的方法CoOp(中文名:琥珀),这些问题通通不需要烦恼🤩。
我们发现了在实践中部署此类模型的主要挑战是对提词器的设计,这是因为设计合适的提词器需要专业领域的知识,尤其是针对那些围绕类别名的上下文。同时,提词器的设计也需要花费大量时间来调整,因为微小的措辞变化可能会对性能产生巨大影响(例如下图a,在“a photo of [CLASS]”中的[CLASS]前加个“a”直接涨了将近6个点🤣)。此外,不同的下游任务需要不同的特别设计(例如图b-d中的“flower”,“texture”,和“satellite”),此举进一步阻碍了部署的效率。