Matrix-based algorithms for solving computationally intensive statistical estimation problems
Other title:
Algoritmos basados en matrices para resolver problemas estadísticos de estimación de alto coste computacional
Author:
Centro/Departamento/Otros:
Subject:
Matemáticas y estadística
Modelos econométricos
Matrices
Construcción de algoritmos
Publication date:
Descripción física:
Abstract:
Abordar problemas estadísticos computacionalmente intensivos es una tarea compleja. El objetivo es investigar y desarrollar algoritmos para solucionar tales problemas estadísticos reduciendo significativamente el coste computacional con respecto a los procedimientos usados hasta ahora. Se considerará, en particular, el sistema aumentado y la estimación numérica del Modelo Lineal Generalizado Vectorial (MLGV). Se tienen en cuenta las estructuras intrínsecas de cada problema y se utilizan cálculos y descomposiciones matriciales como herramientas principales. En primer lugar, se propone un algoritmo computacionalmente eficiente para resolver el sistema aumentado con Hessiano semi-definido positivo. El algoritmo, que es recursivo por bloques, se basa en la descomposición QR y explota la estructura trapezoidal del factor de Cholesky del Hessiano. El algoritmo proporciona el mejor estimador lineal insesgado de un modelo lineal general con matriz de varianzas-covarianzas singular. Esta estrategia recursiva mejora los métodos tradicionales basados en el espacio nulo y su comportamiento es superior a medida que disminuye el rango del Hessiano. Cuando sólo se conoce el factor de Cholesky, la eficiencia del algoritmo es considerablemente superior. A continuación, se desarrollan diversos procedimientos numéricos para abordar la estimación del MLGV con el fin de reducir el alto coste computacional del problema cuando el tamaño de la matriz modelo y de la matriz de pesos es grande. Para ello se tiene en cuenta la estructura de Kronencher de la matriz modelo y la estructura dispersa de la matriz de pesos. Se introducen 3 enfoques iterativos para estimar el MLGV. El primer enfoque formula el MLGV como un modelo lineal ordinario en cada iteración y usa la descomposición QR generalizada para estimarlo. Los otros dos utilizan la descomposición QR generalizada para calcular el estimador mínimo-cuadrático del MLGV, formulado como problemas mínimo-cuadráticos lineales generalizados iterativos. El tercer enfoque permite calcular el estimador máximo-verosímil cuando se trabaja con matrices de pesos semi-definidas positivas en cada iteración. Se obtiene y se discute el coste computacional teórico de cada estrategia. Como resultado, se concluye que se encuentran algoritmos más eficientes que los utilizados habitualmente. Se demuestra que algunas de estas estrategias se pueden utilizar para problemas estadísticos de gran escala, ya que su complejidad es una función lineal del tamaño muestral. Además, se utilizan los algoritmos de cálculo de los estimadores máximo-verosímiles en problemas relacionados con dos modelos de regresión para datos categóricos. En concreto, se considera el modelos multinomial logístico y el modelos de riesgos no proporcionales. El primer modelo tiene una matriz de pesos densa, mientras que el segundo presenta una estructura tri-triangular. Los resultados experimentales confirman los teóricos.
Abordar problemas estadísticos computacionalmente intensivos es una tarea compleja. El objetivo es investigar y desarrollar algoritmos para solucionar tales problemas estadísticos reduciendo significativamente el coste computacional con respecto a los procedimientos usados hasta ahora. Se considerará, en particular, el sistema aumentado y la estimación numérica del Modelo Lineal Generalizado Vectorial (MLGV). Se tienen en cuenta las estructuras intrínsecas de cada problema y se utilizan cálculos y descomposiciones matriciales como herramientas principales. En primer lugar, se propone un algoritmo computacionalmente eficiente para resolver el sistema aumentado con Hessiano semi-definido positivo. El algoritmo, que es recursivo por bloques, se basa en la descomposición QR y explota la estructura trapezoidal del factor de Cholesky del Hessiano. El algoritmo proporciona el mejor estimador lineal insesgado de un modelo lineal general con matriz de varianzas-covarianzas singular. Esta estrategia recursiva mejora los métodos tradicionales basados en el espacio nulo y su comportamiento es superior a medida que disminuye el rango del Hessiano. Cuando sólo se conoce el factor de Cholesky, la eficiencia del algoritmo es considerablemente superior. A continuación, se desarrollan diversos procedimientos numéricos para abordar la estimación del MLGV con el fin de reducir el alto coste computacional del problema cuando el tamaño de la matriz modelo y de la matriz de pesos es grande. Para ello se tiene en cuenta la estructura de Kronencher de la matriz modelo y la estructura dispersa de la matriz de pesos. Se introducen 3 enfoques iterativos para estimar el MLGV. El primer enfoque formula el MLGV como un modelo lineal ordinario en cada iteración y usa la descomposición QR generalizada para estimarlo. Los otros dos utilizan la descomposición QR generalizada para calcular el estimador mínimo-cuadrático del MLGV, formulado como problemas mínimo-cuadráticos lineales generalizados iterativos. El tercer enfoque permite calcular el estimador máximo-verosímil cuando se trabaja con matrices de pesos semi-definidas positivas en cada iteración. Se obtiene y se discute el coste computacional teórico de cada estrategia. Como resultado, se concluye que se encuentran algoritmos más eficientes que los utilizados habitualmente. Se demuestra que algunas de estas estrategias se pueden utilizar para problemas estadísticos de gran escala, ya que su complejidad es una función lineal del tamaño muestral. Además, se utilizan los algoritmos de cálculo de los estimadores máximo-verosímiles en problemas relacionados con dos modelos de regresión para datos categóricos. En concreto, se considera el modelos multinomial logístico y el modelos de riesgos no proporcionales. El primer modelo tiene una matriz de pesos densa, mientras que el segundo presenta una estructura tri-triangular. Los resultados experimentales confirman los teóricos.
Local Notes:
DT(SE) 2017-155
Collections
- Tesis [7513]