Deep-gKnock

Guangyu Zhu, Tingting Zhao

最近更新于 Sep 5, 2023

特征选择对于当代高维数据分析至关重要。在各种科学问题中，特征之间的组群结构自然而然地产生。已经提出了许多方法来将组群结构信息纳入特征选择中。然而，这些方法通常局限于线性回归设置。为了放宽线性约束，我们设计了一种新的深度神经网络（DNN）架构，并将其与最近提出的模拟技术相结合，以执行具有可控组内假发现率（gFDR）的非线性组特征选择。

过程

生成组模拟特征；
将原始特征和组模拟特征合并到设计的DNN架构中。DNN结构基于MLP构建，主要区别在于它具有插件式的组特征竞争层。
计算模拟统计数据并过滤掉不重要的组。

贡献

端到端的组内特征选择和深度表示。
具有增强的可解释性和可重复性的学习神经网络。
更具计算可行性的神经网络。
在高维合成和真实世界全基因组关联研究的线性和非线性设置中，在功率和可控gFDR方面表现卓越，适用于$p\gg n$制度。
全面的实验结果，用于描述我们的方法在关键参数、模型架构变化以及对模型误差规范性的稳健性方面的性能。

Deep Learning Feature Selection