CLIP的四亿数据集预训练过程中,是见到过“platypus”这个词汇的;
四亿数据集中可能没有“鸭嘴兽图片”,但是我们输入的鸭嘴兽图片会有部分特征与预训练过程中大量大量图片中的部分特征相似,比如说鸭嘴兽有尖嘴,预训练过的鸡鸭也有尖嘴,尖嘴的特征就被学习到了。
所以预训练过程大量大量的数据中,见到的“platypus”这个文本与上面“尖嘴”的图像特征就产生过关联。
那么既然“platypus”这个词汇在预训练过程出现过,为什么还叫“零样本学习”?
零样本指的是,没有给“platypus”具体的分类类别。比如说虽然“platypus”这个词汇在预训练过程出现,但分类类别中(猫、狗、鸟、鱼等等),并没有鸭嘴兽这一类别,所以他还是零样本学习。只是说在训练过程中提取到了一些特征而已。
推理过程:
零样本学习中,我们现有的文本池里并没有鸭嘴兽这一类别,那么我们输入一张鸭嘴兽图片,是怎么将这张图片正确分类成鸭嘴兽的?
答:我们要输入图片+文本。输入一张鸭嘴兽图片,再输入几类包含有鸭嘴兽的文本,这时候文本池里就有了鸭嘴兽文本。鸭嘴兽图片和文本就能得到匹配。