论文分享：More or Less: When and How to Build Convolutional Neural Network Ensembles

研究背景？扩展卷积神经网络模型随着数据集和任务复杂性的增加，卷积神经网络模型需要更多的参数来提升表示能力单一模型与集成模型的选择设计CNN时，需要在扩展单个网络模型和增加网络数量以形...

研究背景

研究背景？

1.扩展卷积神经网络模型

随着数据集和任务复杂性的增加，卷积神经网络模型需要更多的参数来提升表示能力

2.单一模型与集成模型的选择

设计CNN时，需要在扩展单个网络模型和增加网络数量以形成集成模型之间做出选择

3.集成模型的潜在优势

集成模型结合多个子模型，可以减少单个模型的偏差和方差，从而提高总体的泛化性能

CNN需要更多的参数来提升表示能力，因此在设计CNN时需要在扩展单个模型和增加网络数量形成集成模型之间做出选择

研究动机？

1.提升模型准确性与资源效率

在给定参数预算内最大化模型准确性的方法，同时控制训练和推理成本

2.优化设计决策

选择扩展单一模型还是构建集成模型时缺乏明确指导

3.现有研究的局限性

需要一个统一的实验框架来系统地比较单一模型和集成模型在各种条件下的表现

选择扩展单一模型还是构建集成模型需要一个统一的实验框架来系统地比较单一模型和集成模型在各种条件下的表现

研究挑战？

1.资源限制下的性能优化

如何在给定的参数预算内设计CNN，以在准确性、训练和推理时间方面实现最佳性能

2.设计空间的复杂性

需要在多种网络架构、数据集和设计选择之间进行详细的比较和评估

3.缺乏统一的评估标准

现有研究通常在不同的数据集和硬件环境下进行，导致结果无法直接比较

资源限制下在准确性、训练和推理时间方面实现最佳性能，同时在多种网络架构、数据集和设计选择之间进行详细的比较和评估

研究内容

文章总览

1.Single Networks VS. Ensembles

作者提出了以下问题：

在给定的性能需求下，应选择单一网络还是集成网络？

应如何设计这些网络？

随着约束和需求的演变，是否应在单一网络和集成网络之间切换？

2.Method

作者提出了一种方法论来准确映射设计空间

目前没有一个稳健的理论框架可以一致地分析设计空间和众多参数及其指标之间的交互作用

为了隔离网络设计关键参数（即深度、宽度和参数数量）对以下几个关键指标的影响，开展详尽的实验研究：

准确性、训练时间、推理时间、内存使用

3.框架设计空间

论文探索了两类架构同质的集合

单个卷积神经网络模型和集合网络模型

研究深度和宽度对集合设计的质量和成本的影响，并探讨如何确保模型设计之间的比较是公平的

建立公平排名

参数数量固定：为了确保资源使用的公平性，比较的模型将具有相同数量的参数

参数独立于硬件或软件平台：参数数量不依赖于使用的硬\软件平台，直接从网络规格中计算得出

网络与集合设计空间

单一网络对比集合：一个特定类别的卷积神经网络架构；集合由具有相同架构的多个网络组成，每个网络分摊整个集合的参数数量

通过限制设计空间到同质集合，减少可能的集合配置，使得实验和推理更加可行

深度等价与宽度等价集合

深度等价集合：单个模型的深度为最大可能值，而宽度则调整以保持参数数量不变

宽度等价集合：宽度保持不变，而深度调整以保持参数总数不变

深度等价集合的网络比宽度等价集合的网络具有更深的网络架构，而宽度等价集合则具有更宽的网络

设计空间的总览

包括单一网络模型、宽度等价集合和深度等价集合

每个类别都包含几种模型设计，基于四元组（宽度、深度、参数总数、网络类别）设计

回顾一下作者提出的问题

在给定的性能需求下，应选择单一网络还是集成网络？

应如何设计这些网络？

随着约束和需求的演变，是否应在单一网络和集成网络之间切换？

实验验证

实验设置

数据集和架构

数据集：DenseNets、ResNets（包括宽版ResNets）以及SVHN、C10和ImageNet数据集

实现：所有实验都在PyTorch框架下实施，并使用了Nvidia V100 GPU来运行实验

评估指标

泛化准确性：模型在未见过的数据上的表现如何

每轮训练时间：每个训练周期所需的时间

推理时间：模型做出预测所需的时间

内存使用：模型运行时占用的内存量

集成切换阈值（Ensemble Switchover Threshold, EST）

集成模型的优越泛化能力

参数增长的减少回报：随着模型参数数量的增加，单一网络模型的泛化准确性增长会趋于平稳，这种效应在集成模型中不显著

集成模型的工作原理

参数分配：集成模型中参数被均匀分配到各个较小的网络（每个网络参数数量为单一网络的1/k）

训练优化：减少了每个单一模型在达到泛化性能平台期时的参数数量，从而使整个集成模型能够更好地泛化

泛化性能的提升：集成模型通过丰富模型类空间、平均化模型输出提高泛化能力

参数预算下集成模型的优越泛化

低到中等资源：即使在1M-1.5M参数范围内，也能观察到EST，在训练过程的前半段就已显现

重新评估集成模型的有效性：传统上认为集成模型只在资源充足时更有效，但研究结果表明，即使在资源较少的情况下，集成模型也可能优于单一模型

集成模型对复杂数据集的有效性

数据集复杂性增加：研究通过在逐渐增加复杂度的数据集（如CIFAR-10, CIFAR-100, 和Tiny ImageNet）

EST的变化：随着数据集复杂性的增加，EST在资源图表上向原点移动，表明在较少的资源下集成模型就开始超越单一模型

大型模型集成的优势：

大型集成在保持参数总数不变的情况下，通过增加模型的数量而非单个模型的大小，实现更好的性能

表明在参数资源有限的情况下，选择创建更多较小的模型集成可能比单一大模型更有效

大型集成模型在大参数预算下有效

参数与网络数量的解耦：单纯增加集成的规模（即网络数量），而不增加总参数数量，也能提高精度

只有当拥有足够的参数预算分配给模型中的每个网络时，才需要更大的集成规模

总结：集成切换阈值（Ensemble Switchover Threshold, EST）

参数预算下集成模型的优越泛化

即使在资源较少的情况下，集成模型也可能优于单一模型

集成模型对复杂数据集的有效性

在较少的资源下集成模型就开始超越单一模型

大型模型集成的优势：

在参数资源有限的情况下，选择创建更多较小的模型集成可能比单一大模型更有效

大型集成模型在大参数预算下有效

只有当拥有足够的参数预算分配给模型中的每个网络时，才需要更大的集成规模

集成训练更快，并提供相当的推理时间

集成模型的训练和推理效率

训练时间：每个epoch的训练时间更长，但集成模型能在整体训练时间内比单一网络模型更快达到相同的准确度

推理时间：集成模型提供了与单一网络模型相当的推理时间

深度与宽度对训练时间的影响

深度与宽度的权衡：深度等价的集成模型在训练中需要更长的时间

GPU的数据并行处理：宽而浅的网络可以更有效地利用GPU的数据并行能力，因为增加网络宽度只增加了层内的核心数，而不需要额外的同步操作，这有助于提高计算效率

宽度等效集成提供竞争推理时间

深度等效集成明显较慢，宽度等效集成提供了与单一网络模型相当的推理速度

这对传统观点提出了质疑，传统观点认为模型集合的推理速度要慢得多

模型集成是内存高效的

提高批处理大小、低端GPU的适用性

训练深度等价集成和宽度等价集成模型时，相比单一网络模型，使用的内存量更少

集成模型不仅可以提高模型的泛化能力，还能在资源有限的环境中通过优化内存使用

Results

集成切换阈值（Ensemble Switchover Threshold，EST）：

集成切换阈值的定义：EST是指在资源（参数数量和训练周期）达到某一阈值之后，集成网络在泛化精度上超越单一模型的点

整体性能对比：与传统观点相反，作者发现网络集成在总体精度上不仅优于单个卷积网络，而且训练速度也更快

EST的普遍性：研究显示EST在不同的数据集和架构中都能稳定出现

集成中网络数量的影响：集成中的网络数量及其各自的设计是确定EST的关键因素

推理时间：集成模型在设计空间的大部分区域中可以提供与单一模型相当的推理时间

内存使用：在参数数量相同的情况下，集成模型的训练所需内存显著少于单一模型

总结与思考

总结 -- 集成模型的综合评价

通过创建详尽的框架分析，表明集成模型在固定资源下，相比单一网络模型，能够：

实现更好的准确性、提供更快的训练速度

提供与单一网络相当的推理时间、需要更少的内存

思考

探索异质集成，即集成中包含不同类型（宽度等价和深度等价混合）的网络

目前只是针对CNN，需要考虑吧采用不同的网络架构进行集成是否能够获得同样的结论

将集成模型应用于图像分类以外的其他领域，如对象检测、机器翻译和深度生成模型

发表于 2024-06-18 16:39
阅读 ( 1859 )
分类：论文分享