前 4 个 DALL.E 替代品,文本到图像生成器
OpenAI 在 2020 年发布了 GPT-3,一年后发布了 DALL.E,这是一个基于 GPT-3 构建的具有 120 亿参数的模型。 DALL.E 是一种基于文本描述创建图像的模型。 最新版本 DALL.E2 生成的图像分辨率提高了 4 倍。 该模型使用自然语言字幕和文本/图像配对数据集来创建逼真的图像。 它还可以拍摄原始图像并根据它创建变体。
DALL.E 使用扩散过程来发现文本和图像之间的关系。 它从随机的点图案开始,然后在识别出某些方面后将其追踪到图像。 扩散模型是一种很有前途的生成建模框架,并且突破了图像和视频创作任务的界限。 在扩散中,引导技术用于提高图像保真度和照片写实度。 DALL.E 由两个主要部分组成:一个离散自动编码器,它在压缩的潜在空间中准确地表示图像;一个转换器,它学习语言和离散图像表示之间的相关性。 评估人员被要求比较每个模型的 1,000 张图像。 DALL*E 2 因其字幕匹配和照片级真实感而被选中,而不是 DALL*E 1。
目前,DALL-E 只是一个研究项目,并未包含在 OpenAI 的 AI 中。
来源和详细信息:
https://analyticsindiamag.com/top-4-dall-e-alternatives-text-to-image-generators/