quinta-feira, 25 de novembro de 2021

Aula 25/11/2021

 Aula 25/11/2021

Link:


https://meet.google.com/jqh-qoup-qvq


Site Disciplina:

https://sites.google.com/view/lce1270-ia-cd-gest-usp-gabriel

        - vídeos semana passada e anteriores.


Pauta:

- Tirar todas as duvidas sobre atividades obrigatórias. Agora ou todas as tardes (7) e noites (exceto quitas e segundas) ate o final do semestre, todos os dias tem horário de consultas. Se tiverem problemas pela pandemia, fico todos os dias a disposição para colaborar ate o final de fevereiro, podemos retificar nota ate março.

- Agendamos por Whatsapp ou E-Mail. Meu Whatsapp (4 vezes por dia): 019-988-627-438 ou e-mail (1 ou 2 vezes por dia): gasarrie@usp.br.  Se tiverem presa ligar por Whatsapp (Voip), de manha não atendo, rodo CD ou IA ou RA.

- Inclusive podemos fazer a prova optativa em janeiro ou fevereiro. Faremos uma 16/12/2021. Treinamento 7 dias antes, todos os dias das 20 às 22 horas.



- Construção da Nota:

Nota Final:

o  Exercícios peso 5

o  Participação peso 3 (se não tiver dados darei mais peso a Exercícios e Seminário)

o   Seminário peso 2

o   Com os exercícios obrigatórios e o seminário:

                                     => 7  Nota  <=10

o    Prova Optativa peso 2 nota extra, podem chegar a nota 12 com essa prova. Assunto, IA – Weka e CD - SAS, podem fazer prova em janeiro ou fevereiro.

- Agora todos aceleram e nos desaceleramos, Domenico De Masi, Se Divertir e Estudar enquanto a gente Trabalha - Para acompanhar a Era da IA, ter motivação, e ter QV (OMS - 6 Domínios). Não quero que relacionem IA-CD-RA com estresse, prova, prazos apertados, falta de sono etc. Nossas áreas são muito importantes para todos os egressos da ESALQ/USP, terão que estudar esses assuntos a vida toda.

Disciplina pós-graduação do Gabriel no próximo semestre, para evoluir mais em nossas áreas - LCE5736 - Quartas à tarde, das 14 às 18 horas, emitimos atestado de participação, com frequência e nota se demandarem - IA-CD-RA Abordagem Pratica. Site:

https://sites.google.com/view/lce5736-usp-sarries

- CD para Endossar ou Retificar IA: Robust Reg, ANOVA, R_ANOVA, MANOVA, RMANOVA (NPMANOVA) etc.,

            - Veremos MANOVA e ANOVA em SAS - Analise da Variância Multivariada, para endossar Machine Learning Não Supervisionado - Cluster Analysis e PCA-Biplot.

- Projeto PMV - já falamos semana passada

Convite para Treinamentos, nos próximos 12 meses, IA-CD&RA, sequencia dois em janeiro, um em fevereiro, março, abril etc. Também outros treinamentos, potencialmente 9 de cada um,  como SAS, SQL, Weka, R, Python, Java, C etc. Podem convidar amigos de fora da USP, participam dando e recebendo treinamentos alunos de graduação e pós-graduação, professores, profissionais do Brasil e exterior (12 países). Site de Treinamentos:

https://sites.google.com/view/ia-cd-treinamentos-usp-gabriel

            - Agora e janeiro de 2022, treinamento Basicão I em IA-CD-RA-H. Também em janeiro Básico II, fevereiro Intermediário I e assim até 29/9/2022, Avançado IV. Podem convidar amigos:

          - Vídeo 1 e 2 do Treinamento em IA-CD-RA e H – Básico I

                     - Reunião 30/10/2021:

                                      https://youtu.be/1mEe7oRM44Y

                     - Reunião 6/11/2021:

    https://youtu.be/JyqJQlZDlZU

                     - Reunião 13/11/2021: Tiraremos as duvidas de Python e iniciaremos R, porem repetiremos em janeiro. Falta eu colocar o ultimo vídeo.

            - Também Treinamentos de SQL, Python SAS e R. Programamos 9 treinamentos de cada assunto. Começaremos agora no verão.

- Supermercado São Vicente - SAS para Coordenador de CRM. Umas 20 lojas, 3 atacados e 17 varejos, Nova Odessa. Também SQL. Mario C. vamos mostrar exemplos de SQL em SAS. Montarei treinamento de SQL em Janeiro-Fevereiro, também Python, C, Java e SAS.


             - Exemplos de SQL em SAS

- Rodar Dinheiro Rede Neural 4 categorias

- Dados Gratuitos na Internet, ver postagem.

- IA abordada na disciplina: Todos os Tipos - Slides

- Curso de Inglês BBC - Eu 3 h/semana (Consult. e Coaching USA-Can.-China e aulas China)


- Livro ML UFSCAR

         http://www.rizbicki.ufscar.br/ame/

Dados Gratuitos na Internet

 Dados Gratuitos na Internet

https://www.kaggle.com/

Podemos fazer IC, TCC, PG Profissionalizante, Mestrado, Doutorado, Pós-doutorado com esses dados. Eu posso orientar, já orientei vários, Ex. Gabriel Ferreira - Mestrado IA e CD para Fraudes em Cartão de Credito.

Kaggle, uma subsidiária da Google LLC, é uma comunidade online de cientistas de dados e profissionais de aprendizado de máquina. O Kaggle permite que os usuários encontrem e publiquem conjuntos de dados, explorem e criem modelos em um ambiente de ciência de dados baseado na web; trabalhe com outros cientistas de dados e engenheiros de aprendizado de máquina e participe de competições para resolver desafios de ciência de dados.

 

O Kaggle começou em 2010 oferecendo competições de aprendizado de máquina e agora também oferece uma plataforma de dados públicos, uma bancada de trabalho baseada em nuvem para educação de ciência de dados e inteligência artificial. Sua equipe inicial principal foi Anthony Goldbloom e Jeremy Howard. Nicholas Gruen foi o presidente fundador, sucedido por Max Levchin. O patrimônio líquido em 2011 aumentou, avaliando a empresa em US $ 25 milhões. Em 8 de março de 2017, o Google anunciou que estava adquirindo o Kaggle.1 2



MANOVA - Endossando IA

   MANOVA - Endossando IA


Tipos de IA - Exemplos

















Dados Originais

Cat.

IMC

Corr

Kcal

ATLETA

20,2

60,7

3200

ATLETA

21,3

54,8

3100

ATLETA

19,3

49,6

2800

ATLETA

21,1

52,3

3300

SEMIAT

22,4

14,9

2600

SEMIAT

21,9

17,8

2700

SEMIAT

23,8

18,6

3200

SEMIAT

24,1

15,1

3300

SEDENT

27,3

2,5

2700

SEDENT

23,4

4,3

2300

SEDENT

25,2

2,3

2600

SEDENT

26,4

2,6

3200

PROFES

26,2

4,1

2600

PROFES

24,2

2,1

2700

PROFES

25,4

1,9

2650

PROFES

24,9

2,1

2700




Media Aritmética das Categorias



Categoria

IMC

Corrida

Kcal

ATLETA

20,48

54,35

3100

PROFES

25,18

2,55

2663

SEDENT

25,58

2,925

2700

SEMIAT

23,05

16,6

2950



ANOVA e Tukey - Saída Gráfica

(Melhor Robust ANOVA)


Programa SAS para ANOVA e Tukey:

Num próximo exemplo substituir somente o que está em fonte vermelha


data imc_dat;

input cat $ imc corr kcal;

cards;

AT 20.2 60.7 3200

AT 21.3 54.8 3100

AT 19.3 49.6 2800

AT 21.1 52.3 3300

SEM 22.4 14.9 2600

SEM 21.9 17.8 2700

SEM 23.8 18.6 3200

SEM 24.1 15.1 3300

SE  27.3 2.5 2700

SE  23.4 4.3 2300

SE  25.2 2.3 2600

SE  26.4 2.6 3200

PR 26.2 4.1 2600

PR 24.2 2.1 2700

PR 25.4 1.9 2650

;

proc anova;

 class cat;

 model imc corr kcal  = cat;

 means cat / tukey lines;

 run;










Programa SAS para Fazer Machine Learning Não Supervisionado: Cluster Analysis


 

Num próximo exemplo substituir somente o que está em fonte vermelha

data  pessoas;

input Categor $ IMC Corrida Kcal;

cards;

ATLETA 20.48 54.35 3100

PROFES 25.18 2.55 2663

SEDENT 25.58 2.925 2700

SEMIAT 23.05 16.6 2950

;

proc cluster data=pessoas outtree = arvore method = average;

var IMC Corrida Kcal;

id Categor;

run;

PROC TREE DATA = arvore;

RUN;

Resultado Gráfico de Cluster Analysis - Slides













Programa SAS para Fazer MANOVA

Para testar se as distancias multivariadas são significativas estatisticamente


Num próximo exemplo substituir somente o que está em fonte vermelha


data imc_dat;

input cat $ imc corr kcal;

cards;

AT 20.2 60.7 3200

AT 21.3 54.8 3100

AT 19.3 49.6 2800

AT 21.1 52.3 3300

SEM 22.4 14.9 2600

SEM 21.9 17.8 2700

SEM 23.8 18.6 3200

SEM 24.1 15.1 3300

SE  27.3 2.5 2700

SE  23.4 4.3 2300

SE  25.2 2.3 2600

SE  26.4 2.6 3200

PR 26.2 4.1 2600

PR 24.2 2.1 2700

PR 25.4 1.9 2650

;

proc print;

run;

proc glm;

 class cat;

 model imc corr kcal  = cat;

 contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;

 contrast " Professor Vs Sedentario" cat  0 1 -1 0;

 contrast " Atleta Vs Semiatleta" cat -1 0 0 1;

 manova h=_all_ / printe printh;

 contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;

 contrast " Professor Vs Sedentario" cat  0 1 -1 0;

 contrast " Atleta Vs Semiatleta" cat -1 0 0 1;

run;




Resultado SAS MANOVA
Arquivo para Download - HTML:



Resultado Final da Analise

Cluster Analysis e MANOVA


Slide:




Conclusão:

·       Não existe diferença estatisticamente significativa entre as categorias Professor e Sedentário ( p < 0,99 ). Assim os professores são sedentários em função das três variáveis preditoras estudadas (IMC, Corrida/Caminhada e Quilocalorias ingeridas por dia)

·       Existe diferença significativa entre os dois grupos (clusters), o primeiro integrado pelas categorias Professor e Sedentário e o Segundo integrado pelas categorias Atleta e Semiatleta ( p < 0,0001 ).

·       Existe diferença estatisticamente significativa entre as categorias do grupo dois, Atleta e Semiatleta ( p < 0,0001).













Analises Complementares

Elaboração de Contraste:


AT PR  SE SEM
1    -1    -1    1 Atleta e Semiatleta Vs Professor e Sedentario
0     1    -1    0 Professor Vs Sedentario
1   0  0  -1 Atleta Vs Semiatleta
3  -1 -1  -1  Atleta Vs Outras Categorias












/* 
contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
   dos contrastes 
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados 
tambem
*/









Correlação Residual MANOVA:


Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 11
imc
corr
kcal
imc
1.000000

0.017729
0.9564
0.697770
0.0116
corr
0.017729
0.9564
1.000000

0.132496
0.6814
kcal
0.697770
0.0116
0.132496
0.6814





Outro Exemplo de Contrastes, Ordem Alfabética:





- Análise Multivariada Exemplos: 
















Comparar resultados ANOVA com Kruskal-Wallis.


data imc_dat;
input cat $ imc corr kcal;
cards;
AT    20.2  60.7  3200
AT    21.3  54.8  3100
AT    19.3  49.6  2800
AT    21.1  52.3  3300
SEM   22.4  14.9  2600
SEM   21.9  17.8  2700
SEM   23.8  18.6  3200
SEM   24.1  15.1  3300
SE    27.3  2.5   2700
SE    23.4  4.3   2300
SE    25.2  2.3   2600
SE    26.4  2.6   3200
PR    26.2  4.1   2600
PR    24.2  2.1   2700
PR         25.4         1.9        2650
;
proc print;
run;
proc npar1way data=imc_dat wilcoxon dscf;
 class cat;
 var imc corr kcal = cat;
run;
Tem um erro nesse programa, onde esta? Compare com os slides apresentados antes do programa SAS (Dois slides de Kruskal Wallis com trechos de programa SAS).


 var imc corr kcal = cat; ==> ANOVA, GLM, MANOVA
 var imc corr kcal;          ==> Kruskal Wallis







Resultados de Kruskal Wallis

Arquivo Word para Download:




Resultados ANOVA dados brutos, transformados e da Estat. Robusta. Tese doutorado do Gabriel.




Machine Learning Não Supervisionado

Data Crunching e Cluster Analysis


Videoaulas


Videoaula 1

Introdução à Estatística Multivariada e à Inteligência Artificial

https://youtu.be/AQdRiLq9lss




Videoaula 2

Data Crunching - Pivot Tables - Pivot ou Tabela Dinâmica em Excel (Calculo da Matriz de Médias Aritméticas)

https://youtu.be/vhHHc7VxgBk




Videoaula 3

Visual Analytics ou Cluster Analysis ou Elaboração do Dendrograma em Linguagem SAS na Nuvem ( SAS on Demand - Free) 


https://youtu.be/jkpbgtRNZ40











- Pesquisar Data:
                      - Mining
                      - Crunching
                      - Analysis


  Tabela Dinâmica - Excel (Pivot Table ou Paivot ou "Pivot" forma de referenciar em empresas)

 e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 20.000 computadores de ultima geração de 2019) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.




Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big-Small Data) e Pesquisa Cientifica



Também é utilizado numa área da Inteligência Artificial denominada Visual Analytics, vejamos o seguinte exemplo, como poderíamos enxergar em dimensão 78?










No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:






                         
                           Tabela Dinâmica
                              em   Excel
                             ( Pivot Table )

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;