谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
数据获取最新解,便是从生成模型中学习。 获取高质量数据,已经成为当前大模型训练的一大瓶颈。 前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。 甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。 一直以来,AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。 此前,谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF,效果甚至不输人类。 现如今,谷歌MIT的研究人员发现,从大模型中学习可以得到使用真实数据训练的最佳模型的表征。 这一最新方法称SynCLR,一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。 论文地址:https://arxiv.org/abs/2312.17742 实验结果表明,通过SynCLR方法学习到的表征,能够与OpenAI的CLIP在ImageNet 上的传输效果一样好。 01 从生成模型中学习 目前表现最好的「视觉表征」学习方法依赖于大规模的实际数据集。然而,真实数据的收集却有不少的困难。 为了降低收集数据的成本,研究人员本文中提出了一个问题: 从现成的生成模型中采样的合成数据,是否是一条通 ...