Machine
Learning Não Supervisionado - MANOVA - Complementa Cluster Analysis - PCA - Canônicas
etc.
MANOVA
Introdução:
Como testar se os grupos formados em Machine Leraning Não Supervicionado, da Visual Analytic, Realmente Existem
No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis (ou preditores), Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado ou IA).
Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:
Programa SAS para MANOVA
data Q_Vida;
input cat $ imc corr kcal;
datalines;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SED 27.3 2.5 2700
SED 23.4 4.3 2300
SED 25.2 2.3 2600
SED 26.4 2.6 3200
PRO 26.2 4.1 2600
PRO 24.2 2.1 2700
PRO 25.4 1.9 2650
;
proc print;
run;
proc glm;
class cat;
model imc corr kcal = cat;
contrast " Atl e Semiat Vs Seden e Prof" cat 1 -1 -1 1;
contrast " Professor Vs Sedentario" cat 0 1 -1 0;
manova h=_all_ / printe printh;
run;
/*
contrast " Atl e Semiat Vs Seden e Prof" cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
dos contrastes
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados
tambem
contrast " Atl e Semiat Vs Seden e Prof" cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
dos contrastes
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados
tambem
*/
Saida do SAS
Obs | cat | imc | corr | kcal |
---|---|---|---|---|
1 | AT | 20.2 | 60.7 | 3200 |
2 | AT | 21.3 | 54.8 | 3100 |
3 | AT | 19.3 | 49.6 | 2800 |
4 | AT | 21.1 | 52.3 | 3300 |
5 | SEM | 22.4 | 14.9 | 2600 |
6 | SEM | 21.9 | 17.8 | 2700 |
7 | SEM | 23.8 | 18.6 | 3200 |
8 | SEM | 24.1 | 15.1 | 3300 |
9 | SED | 27.3 | 2.5 | 2700 |
10 | SED | 23.4 | 4.3 | 2300 |
11 | SED | 25.2 | 2.3 | 2600 |
12 | SED | 26.4 | 2.6 | 3200 |
13 | PRO | 26.2 | 4.1 | 2600 |
14 | PRO | 24.2 | 2.1 | 2700 |
15 | PRO | 25.4 | 1.9 | 2650 |
Procedimiento GLM
Información del nivel de clase | ||
---|---|---|
Clase | Niveles | Valores |
cat | 4 | AT PRO SED SEM |
N.º observaciones leídas | 15 |
---|---|
Número de observaciones usadas | 15 |
Procedimiento GLM
Variable dependiente: imc
Origen | DF | Suma de cuadrados | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Modelo | 3 | 63.99233333 | 21.33077778 | 14.23 | 0.0004 |
Error | 11 | 16.49166667 | 1.49924242 | ||
Total corregido | 14 | 80.48400000 |
R-cuadrado | Var Coef. | Raíz MSE | Media de imc |
---|---|---|---|
0.795094 | 5.214802 | 1.224436 | 23.48000 |
Origen | DF | Tipo I SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 63.99233333 | 21.33077778 | 14.23 | 0.0004 |
Origen | DF | Tipo III SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 63.99233333 | 21.33077778 | 14.23 | 0.0004 |
Contraste | DF | Contraste SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Atl e Semiat Vs Seden e Prof | 1 | 49.41564103 | 49.41564103 | 32.96 | 0.0001 |
Professor Vs Sedentario | 1 | 0.16297619 | 0.16297619 | 0.11 | 0.7478 |
Procedimiento GLM
Variable dependiente: corr
Origen | DF | Suma de cuadrados | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Modelo | 3 | 6829.158500 | 2276.386167 | 300.25 | <.0001 |
Error | 11 | 83.397500 | 7.581591 | ||
Total corregido | 14 | 6912.556000 |
R-cuadrado | Var Coef. | Raíz MSE | Media de corr |
---|---|---|---|
0.987935 | 13.60410 | 2.753469 | 20.24000 |
Origen | DF | Tipo I SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 6829.158500 | 2276.386167 | 300.25 | <.0001 |
Origen | DF | Tipo III SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 6829.158500 | 2276.386167 | 300.25 | <.0001 |
Contraste | DF | Contraste SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Atl e Semiat Vs Seden e Prof | 1 | 3939.097500 | 3939.097500 | 519.56 | <.0001 |
Professor Vs Sedentario | 1 | 0.086786 | 0.086786 | 0.01 | 0.9167 |
Procedimiento GLM
Variable dependiente: kcal
Origen | DF | Suma de cuadrados | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Modelo | 3 | 497333.333 | 165777.778 | 1.95 | 0.1801 |
Error | 11 | 935000.000 | 85000.000 | ||
Total corregido | 14 | 1432333.333 |
R-cuadrado | Var Coef. | Raíz MSE | Media de kcal |
---|---|---|---|
0.347219 | 10.18210 | 291.5476 | 2863.333 |
Origen | DF | Tipo I SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 497333.3333 | 165777.7778 | 1.95 | 0.1801 |
Origen | DF | Tipo III SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
cat | 3 | 497333.3333 | 165777.7778 | 1.95 | 0.1801 |
Contraste | DF | Contraste SS | Cuadrado de la media | Valor F | Pr > F |
---|---|---|---|---|---|
Atl e Semiat Vs Seden e Prof | 1 | 452307.6923 | 452307.6923 | 5.32 | 0.0415 |
Professor Vs Sedentario | 1 | 4285.7143 | 4285.7143 | 0.05 | 0.8265 |
Procedimiento GLM
Análisis multivariante de la varianza
Matriz SSCP de error E = | |||
---|---|---|---|
imc | corr | kcal | |
imc | 16.491666667 | 0.6575 | 2740 |
corr | 0.6575 | 83.3975 | 1170 |
kcal | 2740 | 1170 | 935000 |
Coeficientes de correlación parcial de la matriz SSCP de error / Prob > |r| | |||
---|---|---|---|
DF = 11 | imc | corr | kcal |
imc | 1.000000 | 0.017729 0.9564 | 0.697770 0.0116 |
corr | 0.017729 0.9564 | 1.000000 | 0.132496 0.6814 |
kcal | 0.697770 0.0116 | 0.132496 0.6814 | 1.000000 |
Procedimiento GLM
Análisis multivariante de la varianza
H = Tipo III Matriz SSCP para cat | |||
---|---|---|---|
imc | corr | kcal | |
imc | 63.992333333 | -642.8555 | -5506 |
corr | -642.8555 | 6829.1585 | 53567 |
kcal | -5506 | 53567 | 497333.33333 |
Raices de características y vectores de: E Inversa * H, donde H = Tipo III Matriz SSCP para cat Matriz SSCP de error E = | ||||
---|---|---|---|---|
Raíz característica | Porcentaje | Vector característico V'EV=1 | ||
imc | corr | kcal | ||
87.9259692 | 99.03 | 0.08882907 | -0.10346433 | -0.00020545 |
0.8556733 | 0.96 | -0.31871779 | -0.04025956 | 0.00127454 |
0.0075741 | 0.01 | 0.10012600 | 0.00400334 | 0.00069140 |
Criterio de test MANOVA y aproximaciones F para la hipótesis de efectos cat no generales H = Tipo III Matriz SSCP para cat Matriz SSCP de error E = S=3 M=-0.5 N=3.5 | |||||
---|---|---|---|---|---|
Estadístico | Valor | Valor F | Num DF | Den DF | Pr > F |
NOTA: El estadístico F para la raíz mayor de Roy es un límite superior. | |||||
Lambda de Wilks | 0.00601441 | 17.58 | 9 | 22.054 | <.0001 |
Traza de Pillai | 1.45738390 | 3.46 | 9 | 33 | 0.0042 |
Traza Hotelling-Lawley | 88.78921660 | 83.86 | 9 | 11.333 | <.0001 |
Raíz más grande de Roy | 87.92596917 | 322.40 | 3 | 11 | <.0001 |
H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof | |||
---|---|---|---|
imc | corr | kcal | |
imc | 49.415641026 | -441.195 | -4727.692308 |
corr | -441.195 | 3939.0975 | 42210 |
kcal | -4727.692308 | 42210 | 452307.69231 |
Raices de características y vectores de: E Inversa * H, donde H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof Matriz SSCP de error E = | ||||
---|---|---|---|---|
Raíz característica | Porcentaje | Vector característico V'EV=1 | ||
imc | corr | kcal | ||
52.9793547 | 100.00 | 0.11338149 | -0.09999477 | -0.00030596 |
0.0000000 | 0.00 | -0.22382343 | -0.04041566 | 0.00143216 |
0.0000000 | 0.00 | 0.23779101 | 0.02663356 | 0.00000000 |
Criterio de test MANOVA y estadísticos F exactos para la hipótesis de efectos Atl e Semiat Vs Seden e Prof no generales H = Contraste Matriz SSCP para Atl e Semiat Vs Seden e Prof Matriz SSCP de error E = S=1 M=0.5 N=3.5 | |||||
---|---|---|---|---|---|
Estadístico | Valor | Valor F | Num DF | Den DF | Pr > F |
Lambda de Wilks | 0.01852560 | 158.94 | 3 | 9 | <.0001 |
Traza de Pillai | 0.98147440 | 158.94 | 3 | 9 | <.0001 |
Traza Hotelling-Lawley | 52.97935466 | 158.94 | 3 | 9 | <.0001 |
Raíz más grande de Roy | 52.97935466 | 158.94 | 3 | 9 | <.0001 |
H = Contraste Matriz SSCP para Professor Vs Sedentario | |||
---|---|---|---|
imc | corr | kcal | |
imc | 0.1629761905 | 0.1189285714 | 26.428571429 |
corr | 0.1189285714 | 0.0867857143 | 19.285714286 |
kcal | 26.428571429 | 19.285714286 | 4285.7142857 |
Raices de características y vectores de: E Inversa * H, donde H = Contraste Matriz SSCP para Professor Vs Sedentario Matriz SSCP de error E = | ||||
---|---|---|---|---|
Raíz característica | Porcentaje | Vector característico V'EV=1 | ||
imc | corr | kcal | ||
0.01086956 | 100.00 | 0.25107072 | 0.03338887 | -0.00010596 |
0.00000000 | 0.00 | -0.22499497 | -0.01625972 | 0.00146064 |
0.00000000 | 0.00 | -0.07640424 | 0.10470211 | 0.00000000 |
Criterio de test MANOVA y estadísticos F exactos para la hipótesis de efectos Professor Vs Sedentario no generales H = Contraste Matriz SSCP para Professor Vs Sedentario Matriz SSCP de error E = S=1 M=0.5 N=3.5 | |||||
---|---|---|---|---|---|
Estadístico | Valor | Valor F | Num DF | Den DF | Pr > F |
Lambda de Wilks | 0.98924732 | 0.03 | 3 | 9 | 0.9915 |
Traza de Pillai | 0.01075268 | 0.03 | 3 | 9 | 0.9915 |
Traza Hotelling-Lawley | 0.01086956 | 0.03 | 3 | 9 | 0.9915 |
Raíz más grande de Roy | 0.01086956 | 0.03 | 3 | 9 | 0.9915 |
Nenhum comentário:
Postar um comentário