Deep-gKnock
特征选择对于当代高维数据分析至关重要。在各种科学问题中,特征之间的组群结构自然而然地产生。已经提出了许多方法来将组群结构信息纳入特征选择中。然而,这些方法通常局限于线性回归设置。为了放宽线性约束,我们设计了一种新的深度神经网络(DNN)架构,并将其与最近提出的模拟技术相结合,以执行具有可控组内假发现率(gFDR)的非线性组特征选择。
过程
- 生成组模拟特征;
- 将原始特征和组模拟特征合并到设计的DNN架构中。DNN结构基于MLP构建,主要区别在于它具有插件式的组特征竞争层。
- 计算模拟统计数据并过滤掉不重要的组。
贡献
- 端到端的组内特征选择和深度表示。
- 具有增强的可解释性和可重复性的学习神经网络。
- 更具计算可行性的神经网络。
- 在高维合成和真实世界全基因组关联研究的线性和非线性设置中,在功率和可控gFDR方面表现卓越,适用于$p\gg n$制度。
- 全面的实验结果,用于描述我们的方法在关键参数、模型架构变化以及对模型误差规范性的稳健性方面的性能。