欢迎您访问广东某某机械环保科有限公司网站,公司主营某某机械、某某设备、某某模具等产品!
全国咨询热线: 400-123-4567

新闻资讯

哈希游戏| 哈希游戏平台| 哈希游戏APP

HAXIYOUXI-HAXIYOUXIPINGTAI-HAXIYOUXIAPP

哈希游戏- 哈希游戏平台- 官方网站《食品科学》机器学习专栏:鲁东大学王丽丽教授等:基于视觉Transformer的食品图像检索

作者:小编2024-12-28 19:01:01

  哈希游戏- 哈希游戏平台- 哈希游戏官方网站食品 计算作为食品科学和计算机科学交叉学科的主要研究之一,旨在利用人工智能、 数据处理与分析等技术对食物本身的营养特性、原材料和制造过程中的营养特征变化等信息进行数据化和整合,通过分析这些数据,可以解决感知、分类、检索、推荐以及预测等问题。食品图像检索,作为食品计算的一项基本任务,主要实现了“以图搜图”的功能,通过输入的查询图像从食品图像数据库中找到所有相似的图像。随着食品数据的快速增长,如何提高食品图像检索的速度也是需要考虑的问题。尽管卷积神经网络(CNN)在实现图像特征空间的全局表示方面已取得显著成果,但其精确度的提升仍依赖于网络深度的增加。

  表3总结了在Food-101、Vireo Food-172、UEC Food-256 3 个数据集上的实验结果。本实验所提出的EVHNet32、EVHNet16模型与AlexNet、ResNet50、ViT-B_32和ViT-B_16模型进行了比较。结果在3 个检索框架(即GreedyHash、CSQ和DPN)下使用16、32、64 位哈希码计算。实验结果表明,EVHNet16在3 个数据集上的3 种检索框架下均表现出良好的性能。尤其是在16 位的低哈希码位数下,其效果更为显著。这主要是因为在特征学习过程中,模型更加侧重于主要特征的学习,即使在映射到低哈希码位数时会损失一部分特征信息,但映射后的低哈希码所包含的特征更具代表性,从而提升了检索性能。从表3还可以观察到,在3 种检索框架下,64 位哈希码的检索性能均优于16 位和32 位,这主要归因于深度哈希在将高维特征向量映射为低维的二进制哈希码时,一些干扰信息被丢弃,只保留了重要的特征信息。相比于16 位和32 位哈希码,64 位哈希码提供了更大的输出空间,这意味着它能够映射到更多的唯一输出,从而更好地保留深层特征信息,因此,64 位哈希码在提高检索精度方面具有显著优势。

  图4详细地展示了在Food-101、Vireo Food-172、UEC Food-256数据集上,各种骨干网络(包括AlexNet、ResNet50、ViT-B_32、ViT-B_16、EVHNet32和EVHNet16)在16 位哈希码下的PR曲线。在DPN检索框架下,所提出的EVHNet32骨干网络在大多数情况下的表现优于AlexNet、ResNet50、ViT-B_32骨干网络。而且,EVHNet16骨干网络在3 个数据集上的表现都优于其他网络,实现了最佳性能。EVHNet16之所以能够实现更高的准确率,主要是因为它采用了更小的块(EVHNet16将输入图像切割成16×16的块,而EVHNet32将输入图像切割成32×32的块),这使得EVHNet16能够捕获图像中的更多细节信息,从而更好地保留原始图像的信息,提高了模型的性能。

  如表4所示,两个分支模块(LFEM、ASFM)都对检索性能产生了积极的影响。LFEM利用卷积结构,使网络捕捉食品图像中的细微差异,学习和提取更细粒度的特征,这使得最终映射的哈希码更具有代表性,从而提高了检索性能。ASFM通过多层类令牌特征的聚合,学习到了食品图像中丰富的语义信息,这种丰富的语义表示有助于提高检索性能。然而,当两个模块同时存在时,全局类令牌特征和局部特征的融合改善了最终特征的表示,使模型的综合性能达到最优。这进一步证实了卷积局部化交互的重要性和全局类令牌的互补性。实验结果充分证明了本研究提出的模块在食品图像检索任务上的有效性。

  本实验针对食品图像细粒度和具有丰富语义信息的特点,提出了一种食品图像检索方法EVHNet,该方法有效结合了卷积结构的局部特征提取能力和Transformer的全局表达能力,构建了基于增强ViT的哈希食品图像检索,在3 个食品数据集上进行的相关研究验证了该方法的有效性。EVHNet包含两个分支模块:ASFM和LFEM。ASFM从多层迭代的Transformer编码器中收集类令牌,收集的类令牌包含了食品图像中不同尺度的语义信息。LFEM对Transformer编码器的最后一层输出进行了局部特征的增强,使得网络能够学习食品图像中更具代表性的特征,并生成具有改进的局部特征表示。增强的局部模块使模型能够自动学习所关注的主要特征,同时抑制不重要的特征。在融合阶段,将局部特征和全局语义特征进行相互补充,从而增强最终的特征表示,增强的特征表示包含了食品图像中的细粒度特征以及更深层次的语义特征。研究发现,相比于纯Transformer结构或者纯CNN结构,混合架构兼顾局部特征和全局特征,在食品图像检索领域表现出良好的潜力。

  王丽丽,博士,教授,硕士生导师,鲁东大学信息与电气工程学院院长,山东省计算机学会常务理事,“多模态数据智能分析与应用”山东省工程研究中心副主任,山东省数据开放创新应用实验室负责人、鲁东大学第五届校学术委员会委员、第五届校学位评定委员会委员,烟台市智慧城市创新实验室顾问。硕博期间就读于北京邮电大学电磁场与微波技术专业,毕业后任鲁东大学信息与电气工程学院教师,主要从事多媒体内容分析理解与应用、智能信息处理等方面的科研工作,已主持完成多项国家级、省部级科研项目,担任国家自然科学基金评审专家和《Concurrency and Computation: Practice and Experience》、《Drones》、《Food Science and Technology》等国际期刊审稿人,先后在《IEEE Photonics Journal》、《Applied optics》、《Sensors》等国际期刊发表SCI/EI检索论文50余篇,获批国家发明专利6 项,国际发明专利8 项,先后获山东高等学校优秀科研成果奖二等奖2 项。指导研究生参加“中国机器人及人工智能大赛”、“中国研究生智慧城市技术与创意设计大赛”等多个中国研究生创新实践系列大赛并获国奖、省奖若干项。