基于CLIP模型和生成式模型的街道深度图生成方法


专利名称

基于CLIP模型和生成式模型的街道深度图生成方法

所属单位

测绘与城市空间信息学院

通讯地址

北京市大兴区黄村镇永源路15号

联系人

科学技术发展研究院

电话

010-68322482

专利发明人

郭贤

专利号

CN202410409637.X

专利类型

发明授权

专利状态

授权且有效

专利简介

本发明涉及一种基于生成式模型和CLIP模型的街道空间深度图生成方法,首先,通过CLIP模型的文本编码器,生成描述距离的文本编码,通过CLIP模型的图像编码器将街道影像转换为图像编码。将本编码与图像编码进行余弦相似度运算,得到距离的相似度评分。通过多层感知机,将相似度评分转化为原始街道影像各区块的距离编码。引入扩散模型Diffusion作为先验模块,将距离编码映射到相应的图像编码,捕捉距离编码中包含的语义信息。最后,通过图像解码器生成街道影像深度图,实现对街道空间的准确深度建模。该方法利用CLIP模型的跨模态表示能力,有效融合文本和图像信息,提高深度图的生成准确性。该发明在城市规划、自动驾驶等领域具有广泛应用前景。
Baidu
map