Análisis de datos longitudinales semiparamétricos de dimensiones ultraaltas
Ver publicación
Resumen
Dado que los datos longitudinales de dimensiones ultraaltas son cada vez más evidentes en campos como la salud pública y la bioinformática, el desarrollo de métodos flexibles con un modelo escaso es de gran interés. En este entorno, la dimensión de las covariables puede crecer potencialmente exponencialmente a medida que exp (𝑛1/2) exp (n1 / 2) con respecto al número de clústeres n. Consideramos un enfoque semiparamétrico flexible, es decir, modelos de índice único parcialmente lineales, para datos longitudinales de dimensiones ultraaltas. Lo más importante es que permitimos no solo las covariables parcialmente lineales sino también las covariables de índice único dentro de la función flexible desconocida estimada no paramétricamente como de dimensión ultra alta. Utilizando ecuaciones de estimación generalizadas penalizadas, este enfoque puede capturar la correlación dentro de los sujetos, puede realizar una selección y estimación de variables simultáneas con una penalización de desviación absoluta recortada suavemente, y puede capturar la no linealidad y potencialmente algunas interacciones entre predictores. Establecemos la teoría asintótica para los estimadores, incluida la propiedad del oráculo en dimensión ultra alta, tanto para los componentes parcialmente lineales como no paramétricos, y presentamos un algoritmo eficiente para manejar los desafíos computacionales. Mostramos la efectividad de nuestro método y algoritmo a través de un estudio de simulación y datos de expresión génica del ciclo celular de levadura.