quinta-feira, 3 de dezembro de 2020

Machine Learning Não Supervisionado - MANOVA - Complementa Cluster Analysis - PCA - Canônicas etc.


Machine Learning Não Supervisionado - MANOVA - Complementa Cluster Analysis - PCA - Canônicas etc.



 MANOVA 

Introdução:

Como testar se os grupos formados em Machine Leraning Não Supervicionado, da Visual Analytic, Realmente Existem



























No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis (ou preditores), Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado ou IA).

Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:







Programa SAS para MANOVA

data Q_Vida;
input cat $ imc corr kcal;
datalines;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SED  27.3 2.5 2700
SED  23.4 4.3 2300
SED  25.2 2.3 2600
SED  26.4 2.6 3200
PRO 26.2 4.1 2600
PRO 24.2 2.1 2700
PRO 25.4 1.9 2650
;

proc print;
run;


proc glm;
 class cat;
 model imc corr kcal  = cat;
  contrast " Atl e Semiat Vs Seden e Prof" cat 1 -1 -1 1;
 contrast " Professor Vs Sedentario" cat 0 1 -1 0;
 manova h=_all_ / printe printh;
run;








/* 
contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
   dos contrastes 
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados 
tambem
*/


Saida do SAS


Obscatimccorrkcal
1AT20.260.73200
2AT21.354.83100
3AT19.349.62800
4AT21.152.33300
5SEM22.414.92600
6SEM21.917.82700
7SEM23.818.63200
8SEM24.115.13300
9SED27.32.52700
10SED23.44.32300
11SED25.22.32600
12SED26.42.63200
13PRO26.24.12600
14PRO24.22.12700
15PRO25.41.92650

Procedimiento GLM

Información del nivel de clase
ClaseNivelesValores
cat4AT PRO SED SEM
N.º observaciones leídas15
Número de observaciones usadas15

Procedimiento GLM

 

Variable dependiente: imc

OrigenDFSuma de cuadradosCuadrado de la mediaValor FPr > F
Modelo363.9923333321.3307777814.230.0004
Error1116.491666671.49924242  
Total corregido1480.48400000   
R-cuadradoVar Coef.Raíz MSE Media de imc
0.7950945.2148021.22443623.48000
OrigenDFTipo I SSCuadrado de la mediaValor FPr > F
cat363.9923333321.3307777814.230.0004
OrigenDFTipo III SSCuadrado de la mediaValor FPr > F
cat363.9923333321.3307777814.230.0004
ContrasteDFContraste SSCuadrado de la mediaValor FPr > F
Atl e Semiat Vs Seden e Prof149.4156410349.4156410332.960.0001
Professor Vs Sedentario10.162976190.162976190.110.7478

Procedimiento GLM

 

Variable dependiente: corr

OrigenDFSuma de cuadradosCuadrado de la mediaValor FPr > F
Modelo36829.1585002276.386167300.25<.0001
Error1183.3975007.581591  
Total corregido146912.556000   
R-cuadradoVar Coef.Raíz MSE Media de corr
0.98793513.604102.75346920.24000
OrigenDFTipo I SSCuadrado de la mediaValor FPr > F
cat36829.1585002276.386167300.25<.0001
OrigenDFTipo III SSCuadrado de la mediaValor FPr > F
cat36829.1585002276.386167300.25<.0001
ContrasteDFContraste SSCuadrado de la mediaValor FPr > F
Atl e Semiat Vs Seden e Prof13939.0975003939.097500519.56<.0001
Professor Vs Sedentario10.0867860.0867860.010.9167


Procedimiento GLM

 

Variable dependiente: kcal

OrigenDFSuma de cuadradosCuadrado de la mediaValor FPr > F
Modelo3497333.333165777.7781.950.1801
Error11935000.00085000.000  
Total corregido141432333.333   
R-cuadradoVar Coef.Raíz MSE Media de kcal
0.34721910.18210291.54762863.333
OrigenDFTipo I SSCuadrado de la mediaValor FPr > F
cat3497333.3333165777.77781.950.1801
OrigenDFTipo III SSCuadrado de la mediaValor FPr > F
cat3497333.3333165777.77781.950.1801
ContrasteDFContraste SSCuadrado de la mediaValor FPr > F
Atl e Semiat Vs Seden e Prof1452307.6923452307.69235.320.0415
Professor Vs Sedentario14285.71434285.71430.050.8265


Procedimiento GLM

Análisis multivariante de la varianza

Matriz SSCP de error E =
 imccorrkcal
imc16.4916666670.65752740
corr0.657583.39751170
kcal27401170935000
Coeficientes de correlación parcial de la matriz SSCP de error / Prob > |r|
DF = 11imccorrkcal
imc
1.000000
 
0.017729
0.9564
0.697770
0.0116
corr
0.017729
0.9564
1.000000
 
0.132496
0.6814
kcal
0.697770
0.0116
0.132496
0.6814
1.000000
 

Procedimiento GLM

Análisis multivariante de la varianza

H = Tipo III Matriz SSCP para cat
 imccorrkcal
imc63.992333333-642.8555-5506
corr-642.85556829.158553567
kcal-550653567497333.33333
Raices de características y vectores de: E Inversa * H, donde
H = Tipo III Matriz SSCP para cat
Matriz SSCP de error E =
Raíz característicaPorcentajeVector característico V'EV=1
imccorrkcal
87.925969299.030.08882907-0.10346433-0.00020545
0.85567330.96-0.31871779-0.040259560.00127454
0.00757410.010.100126000.004003340.00069140
Criterio de test MANOVA y aproximaciones F para la hipótesis de efectos cat no generales
H = Tipo III Matriz SSCP para cat
Matriz SSCP de error E =

S=3 M=-0.5 N=3.5
EstadísticoValorValor FNum DFDen DFPr > F
NOTA: El estadístico F para la raíz mayor de Roy es un límite superior.
Lambda de Wilks0.0060144117.58922.054<.0001
Traza de Pillai1.457383903.469330.0042
Traza Hotelling-Lawley88.7892166083.86911.333<.0001
Raíz más grande de Roy87.92596917322.40311<.0001
H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof
 imccorrkcal
imc49.415641026-441.195-4727.692308
corr-441.1953939.097542210
kcal-4727.69230842210452307.69231
Raices de características y vectores de: E Inversa * H, donde
H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof
Matriz SSCP de error E =
Raíz característicaPorcentajeVector característico V'EV=1
imccorrkcal
52.9793547100.000.11338149-0.09999477-0.00030596
0.00000000.00-0.22382343-0.040415660.00143216
0.00000000.000.237791010.026633560.00000000
Criterio de test MANOVA y estadísticos F exactos para la hipótesis de efectos Atl e Semiat Vs Seden e Prof no generales
H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof
Matriz SSCP de error E =

S=1 M=0.5 N=3.5
EstadísticoValorValor FNum DFDen DFPr > F
Lambda de Wilks0.01852560158.9439<.0001
Traza de Pillai0.98147440158.9439<.0001
Traza Hotelling-Lawley52.97935466158.9439<.0001
Raíz más grande de Roy52.97935466158.9439<.0001
H = Contraste Matriz SSCP para Professor Vs Sedentario
 imccorrkcal
imc0.16297619050.118928571426.428571429
corr0.11892857140.086785714319.285714286
kcal26.42857142919.2857142864285.7142857
Raices de características y vectores de: E Inversa * H, donde
H = Contraste Matriz SSCP para Professor Vs Sedentario
Matriz SSCP de error E =
Raíz característicaPorcentajeVector característico V'EV=1
imccorrkcal
0.01086956100.000.251070720.03338887-0.00010596
0.000000000.00-0.22499497-0.016259720.00146064
0.000000000.00-0.076404240.104702110.00000000
Criterio de test MANOVA y estadísticos F exactos para la hipótesis de efectos Professor Vs Sedentario no generales
H = Contraste Matriz SSCP para Professor Vs Sedentario
Matriz SSCP de error E =

S=1 M=0.5 N=3.5
EstadísticoValorValor FNum DFDen DFPr > F
Lambda de Wilks0.989247320.03390.9915
Traza de Pillai0.010752680.03390.9915
Traza Hotelling-Lawley0.010869560.03390.9915
Raíz más grande de Roy0.010869560.03390.9915

Nenhum comentário:

Postar um comentário