quarta-feira, 28 de agosto de 2019

Lembrar que marca ESALQ USP e para sempre!

Lembrar que marca Biologia ESALQ USP e para sempre!

Dar feed back para melhorar disciplinas e estágios e o seu curso como um todo. Se o curso não estiver OK em qualquer etapa da vida profissional, vocês terão essa marca, então serão prejudicados.
Reclamem, dem Sugestões, critiquem, elogiem o que está bem, para o curso ficar melhor.
Um curso ruim diminui o valor de sua marca!


A Marca é para Sempre!!!

Desenho Banco de Dados e IA-Machine Learning - Cluster PCA

Desenho Banco de Dados e IA-Machine Learning - Cluster PCA













quinta-feira, 22 de agosto de 2019

Exercícios (atualizado 22/8/2019)

Exercícios (atualizado 22/8/2019)

Exercícios


Enviar os exercícios para o e-mail da disciplina, coloque no Assunto:

        – Exercício Numero ...
        – Autor 


    E-Mail da Disciplina:


    gestao.estat.cert@gmail.com

    Exercício 1  Prático - Criar um exemplo de regressão e resolva. D.L.: 15/8/2019. (Seguir videoaulas)

    Exercício 1 Teórico - sistemas Mundiais de Gestão, 3 slides. D.L.: 15/8/2019.

    Exercício 2 Teórico - Elabore um texto comparando a estrutura de um documento cientifico e um relatório técnico (corporativo)
    D.L.: 22/8/2019.

    Exercício 2  Prático - Criar um exemplo de Teste T e resolva utilizando macros em Excel. D.L.: 5/9/2019. (Seguir videoaulas)

    Exercício 3  Prático - Criar um exemplo de ANOVA e resolva no SAS. D.L.: 5/9/2019. (Seguir videoaulas)

    Exercício 4  Prático - Criar um exemplo de Aprendizagem de Maquina (data mining) e Data Crunching e resolva utilizando Pivot Tables em Excel e SAS. D.L.: 12/9/2019. (Seguir videoaulas)

    Exercício 3 Teórico - Elabore uma apresentação, seis slides, sobre data crunching, data mining e data analysis.

    D.L.: 12/9/2019.


    Exercício 5  Prático - Criar um exemplo de MANOVA SAS. D.L.: 3/10/2019. 




    Data Crunching e Cluster Analysis (Aprendizado de Maquina não Supervisionado)

    Data Crunching e Cluster Analysis (Data Mining,  Aprendizado de Maquina não Supervisionado)


    Videoaulas


    Videoaula 1

    Introdução à Estatística Multivariada e à Inteligência Artificial

    https://youtu.be/AQdRiLq9lss




    Videoaula 2

    Data Crunching - Pivot Tables - Pivot ou Tabela Dinâmica em Excel (Calculo da Matriz de Médias Aritméticas)

    https://youtu.be/vhHHc7VxgBk




    Videoaula 3

    Visual Analytics ou Cluster Analysis ou Elaboração do Dendrograma em Linguagem SAS na Nuvem ( SAS on Demand - Free) 


    https://youtu.be/jkpbgtRNZ40











    - Pesquisar Data:
                          - Mining
                          - Crunching
                          - Analysis


      Tabela Dinâmica - Excel (Pivot Table ou Paivot ou "Pivot" forma de referenciar em empresas)

     e Cluster Analysis


    Estatística Multivariada – Cluster Analysis

    Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

    Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 20.000 computadores de ultima geração de 2019) enxerga de forma multivariada.

    Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

    Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

    Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

    O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.




    Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big-Small Data) e Pesquisa Cientifica



    Também é utilizado numa área da Inteligência Artificial denominada Visual Analytics, vejamos o seguinte exemplo, como poderíamos enxergar em dimensão 78?










    No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
    Exemplo para Download:



    Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:






                             
                               Tabela Dinâmica
                                  em   Excel
                                 ( Pivot Table )

    Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

    Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






    Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


     Tabela Dinâmica ou Pivot Table ou Pivot.


    Passo 1 – Marcar o banco de dados original

    Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






    Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





    Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





    Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



    Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

    Cluster Analysis do SAS. Como fazer para trocar 

    somatória para medias?:


    Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


    ·       Colocar o cursor na célula “soma de IMC

        ·   Pressionar o botão direito do mouse







      ·       Escolher a opção: “Configurações do Campo de Valor

      ·       Veja que está em “Soma”, clicar em “Média”. 





      Veja que agora temos Média de ICM para cada categoria.


      ·       Fazer mesma operação para Corr e Kcal.





      Fim do calculo das medias de cada categoria.


      Agora é somente copiar e colar no SAS.


      Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

      data  pessoas;
      input cat $ imc corr kcal;
      cards;
      DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
      ;
      proc cluster data=pessoas outtree = arvore method = average;
      var imc corr kcal;
      id cat;
      run;
      PROC TREE DATA = arvore;
      RUN;
















      segunda-feira, 19 de agosto de 2019

      Videoaulas do Programa SAS para ANOVA

      Videoaulas do Programa SAS para ANOVA



      12/4/2019





      Programas Análogos ao SAS





      Videoaulas do Programa SAS para ANOVA


      Primeira Videoaula - Rodando um Programa SAS para ANOVA:


      https://youtu.be/Z2K_WBG86OY


      Segunda Videoaula - Interpretando o Resultado de um Programa SAS para ANOVA

      https://youtu.be/1EebI4y72iA





      Entrando no SAS da Web

      Primeiro você tem que criar uma conta no SAS on Demand (gratuita)

      Depois você segue estes passos para entrar no SAS na Web:




      Ou isto 















      Tela do SAS on Demand na Internet







      OK Você já está no SAS da Internet!







      Programa SAS :

      data SUCOS;
      input suco $ NaOH;
      cards;
      Maca    8
      Maca    11
      Maca    10
      Maca    8
      Maca    9
      Uva 8
      Uva 6
      Uva 7
      Uva 9
      Laranja 5
      Laranja 4
      Laranja 5
      Manga   2
      Manga   1
      Manga   1
      ;
      proc ANOVA;
      class suco;
      model NaOH=suco;
      means suco/ tukey lines;
      run;







      Resultado da Análise:






      Dependent Variable: NaOH
      Source
      DF
      Sum of Squares
      Mean Square
      F Value
      Pr > F
      Model
      3
      129.8000000
      43.2666667
      36.24
      <.0001
      Error
      11
      13.1333333
      1.1939394


      Corrected Total
      14
      142.9333333





      O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
      No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula (ou Hipotese de Nulidade) ou Hipótese de Igualdade, ou seja que todos os sucos contem igual quantidade (concentração) de OHNa. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho, em favor de H1: Hipótese Alternativa, assim existe alguma diferença de concentração de OHNa entre os sucos.
      Assim os sucos tem diferenças na quantidade de NaOH.
      Mas onde estão as diferenças?
      Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.




      Box and wisker plot - Wikipedia











      Relatório do Teste de Tukey no 
      SAS Comercial









      Relatório de ANOVA (SAS):

      Resultados e Discussão
      O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro). Assim o experimento mostra diferenças altamente significativas (quando o p valor e < 0,01) (se estive-se o p valor entre 0,01 e 0,05, as diferenças seriam simplesmente significativas) e por ultimo se o p valor for > do que 0,05 então não se rejeita a hipótese de igualdade.
      O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg), por que as medias dos 2 sucos são precedidas pela letra "A". Esses dois sucos diferiram estatisticamente dos sucos de laranja (letra "B") e manga que apresentaram as menores medias aritméticas de Na OH (letra "C").
      Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).
      O texto em verde é somente para esclarecimentos, não deve ser colocado na tese.









       Estrutura Programa SAS






      Diferentes Cores de Letras Atribuídas pelo SAS



      Veja que você poderá mudar o que esta em fonte cor preta, as palavras em azul, são palavras reservadas do SAS, isso não poderá ser mudado. Tambem veja que o banco de dados, que seguramente você digitou no Excel esta com uma sobra cor amarelo-marrão.





       Fim Estrutura Programa SAS


      Como Gravar os 2 Arquivos Gerados pelo SAS
      1) O arquivo de programa SAS e dados tem exetencao ".sas"
      2) O arquivo de resultados tem extencao " .mht".
      Esse dois arquivos podem ser lidos pelo Word, clicando no nome do arquivo com o botão direito do mouse e escolhendo a opção "Abrir com" do Microsoft Explorer.


      Exercício na Aula

      • Digitar no SAS  para refletir em cada linha digitada. 
      • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, quarta geração) e na língua inglesa.

      quinta-feira, 15 de agosto de 2019

      Dados de Salários no Excel

      Macros Analíticas do Excel
      Teste T de Student – A segunda ferramenta de BI (Intel. De Negócios) mais utilizada pelo Economista.

      Queremos comparar medias salariais de 3 estados brasileiros, banco de dados:
      Numero
      Estado
      Salario
      11
      MS
      1700
      10
      MS
      1890
      4
      MS
      1890
      3
      MS
      1650
      12
      MS
      1950
      1
      MS
      1678
      9
      MS
      1789
      17
      RJ
      1870
      16
      RJ
      2030
      19
      RJ
      1910
      18
      RJ
      2200
      20
      RJ
      1890
      15
      RJ
      1990
      8
      SP
      1800
      6
      SP
      2150
      14
      SP
      2180
      7
      SP
      2320
      2
      SP
      1850
      5
      SP
      1950
      13
      SP
      2150


      Numero Estado Salario
      11 MS 1700
      10 MS 1890
      4 MS 1890
      3 MS 1650
      12 MS 1950
      1 MS 1678
      9 MS 1789
      17 RJ 1870
      16 RJ 2030
      19 RJ 1910
      18 RJ 2200
      20 RJ 1890
      15 RJ 1990
      8 SP 1800
      6 SP 2150
      14 SP 2180
      7 SP 2320
      2 SP 1850
      5 SP 1950
      13 SP 2150