sexta-feira, 29 de setembro de 2017

Como aprender inglês sozinho ou com os amigos? Grátis

Como aprender inglês sozinho ou com os amigos? Grátis
Duolingo
Youtube (Diminuir velocidade)
Vagalume (Tradução e Jogos
Lyrics Training
Sites de Bate Papo



Filmes com Legenda

segunda-feira, 25 de setembro de 2017

Aula 11 - Pivot Tables (Excel) e Cluster Analysis (SAS) - Tentar Autoaprendizagem!

Aula 11 - Pivot Tables (Excel) e Cluster Analysis (SAS)


 Tabela Dinâmica e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.

Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big Data) e Pesquisa Cientifica.

No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:




                      Tabela Dinâmica em Excel

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;













    Lista de Exercícios ate 25/9/2017

    Lista de Exercícios


    E-Mail para Exercícios e Seminários:



    gestao.estat.cert@gmail.com



    1.  Exercício GQT&CIQ 1
    2. Elabore um Slide Show com 8 slides sobre Sistemas Mundiais de Gestão.
           - De 1 a 3 pessoas
          - Dead Line (DL):  28/8/2017
          - Enviar esse exercício para o e-mail da disciplina, coloque no Assunto:
        – Exercício GQT&CIQ 1
        – Autor ou autores





    Exercício GQT&CIQ 2
    Crie um blog individual e anexe os exercícios da disciplina. Autoaprendizagem e aprendizagem horizontal (gestão da inovação - Estrategia do Oceano Azul), o Blogger do Google é legal .   DL : 4/9.

    Exercício GQT&CIQ 3:  

    1. Elabore um Slide Show com 8 slides sobre Certificação Internacional da QualidadeDL : 11/9.
         Exercício GQT&CIQ 4:  Contabilidade Gerencial ou Contabilidade de Custos. Elabore um estudo sobre custos fixos e variáveis de um carro Gol ou Palio ($R 40.000 novo), sendo que esse carro se encontra entre o primeiro e o segundo ano de uso. Supondo que roda no interior de São Paulo (estradas asfaltadas, boas) e que roda 27.000 km /ano. DL : 18/9.



    1. Exercício Inteligência e Computação 2:  
    Elabore um exemplo na área de BI (resolver problema de uma empresa) para aplicar ANOVA utilizando linguagem SAS. 
    - Dead Line (DL):  16/10/2017


    1. Exercício Inteligência e Computação 1:  
    Elabore um exemplo na área de BI (resolver problema de uma empresa) para aplicar Análise de Regressão em Excel. 

    - Dead Line (DL):  9/10/2017

    Aula 10 (2/10) - Dissecamos um programa SAS



    • Como Linkar um Arquivo no Blog?: Autoaprendizagem . Quem quiser apresenta.
      • Ana Beatriz de Salles R.;
    • Exemplo de Regressão Linear: 
      Gustavo Henrico Peretti


    • Alguém quer apresentar exercício de custo de carro? Exercício 4.

    • Como rodar o SAS on line, quem quiser apresenta:
      • Se todos OK exercício do SAS
        • CC Regressão em Excel

    • Tentar Autoaprendizagem em casa da  Aula 11.











        Introdução à Linguagem SAS ( a mais poderosa para Inteligencia de Negócios - BI )




        SAS - Importância para Empregabilidade e Competitividade










        Aplicação de Programa e Linguagem SAS - Principal Ferramenta de BI do Mundo:

        Oi Gente. Vamos iniciar o aprendizado em Linguagem SAS de programação. Trata-se de uma linguagem de quarta geração, ou seja de alto nível, mais próxima do usuário do que da maquina, por exemplo de primeira geração são Linguagem de Maquina e  Assembly, de segunda por exemplo Linguagem C, de Terceira seria por exemplo Visual Basic, Delphy, de quarta SAS, SPSS, R, etc.

        Tal vez algumas pessoas não irão se adaptar a trabalhar com uma linguagem de computação, tudo bem, não é imprescindível para se trabalhar com gestão e certificação, mas para quem gostar deverá ser um item importante de empregabilidade e competitividade.

        Por saber que não tudo mundo se adapta a trabalhar com linguagem de programação de computadores, não colocaremos exercícios desse item para todos, somente para os que quiserem trabalhar com essa ferramenta.
        Primeiro vou mostrar uma aplicação dessa ferramenta aplicada a um problema de rastreabilidade, um item importante para a Certificação Internacional da Qualidade (ISO, GlobalGAP, OHSAS, SA, FSC, etc.).
        Esse trabalho foi apresentado nesta semana na Coreia, eu e minha filha fizemos todas as analises estatísticas. Vou colocar uns slides para vocês verem como podemos aplicar Linguagem SAS na tomada de decisão.

        Nas áreas de Gestão da Qualidade Total e Certificação Int. de Qual. a tomada de decisão é baseada neste tipo de estatística, que se denomina Inferência Estatística Indutiva (colocarei um e-book simples e muito bem escrito no final de esta postagem, sobre o assunto). Isso já acontece desde a Segunda Guerra Mundial, ou seja não é nenhuma novidade.As grandes empresas, utilizam essas ferramentas cotidianamente,na gestão estratégica, tática e operacional.

        Aproveito agora para colocar a utilização dessas técnicas em pesquisa cientifica, por que fiquei umas 3 semanas com isso na cabeça e posso interagir com vocês tirando qualquer duvida, depois colocarei exemplos de gestão empresarial.

        Slides do Trabalho:



























        Vejam que todas as conclusões têm como base a Estatística, as analises foram realizadas no SAS e no R.





        Tomada de Decisão em Pesquisa e Inteligência Organizacional














          Introdução ao SAS:
           Programa SAS - Exemplo de Salários em 3 Estados
        Data Compara;
        Input Cidade Estado $ Salario;
        Cards;
        17 RJ 1870
        16 RJ 2030
        8 SP 1800
        11 MS 1700
        6 SP 2150
        19 RJ 1910
        10 MS 1890
        18 RJ 2200
        14 SP 2180
        4 MS 1890
        3 MS 1650
        20 RJ 1890
        12 MS 1950
        7 SP 2320
        15 RJ 1990
        2 SP 1850
        1 MS 1678
        9 MS 1789
        5 SP 1950
        13 SP 2150
        ;
        /*
        proc print data=Compara;
        run;
        Quando o programa esta em fonte
        cor verde, indica que é um
        comentario, nao será interpretado
        pelo SAS
        */
        proc anova data=Compara;
        Class Estado;
        Model Salario = Estado;
        Means Estado / tukey lines;

        run;


         Saída de Resultados do SAS:

         The SAS System

        Obs
        Cidade
        Estado
        Salario
        1
        17
        RJ
        1870
        2
        16
        RJ
        2030
        3
        8
        SP
        1800
        4
        11
        MS
        1700
        5
        6
        SP
        2150
        6
        19
        RJ
        1910
        7
        10
        MS
        1890
        8
        18
        RJ
        2200
        9
        14
        SP
        2180
        10
        4
        MS
        1890
        11
        3
        MS
        1650
        12
        20
        RJ
        1890
        13
        12
        MS
        1950
        14
        7
        SP
        2320
        15
        15
        RJ
        1990
        16
        2
        SP
        1850
        17
        1
        MS
        1678
        18
        9
        MS
        1789
        19
        5
        SP
        1950
        20
        13
        SP
        2150




        The SAS System

        The ANOVA Procedure
        Class Level Information
        Class
        Levels
        Values
        Estado
        3
        MS RJ SP

        Number of Observations Read
        20
        Number of Observations Used
        20




        The SAS System

        The ANOVA Procedure

        Dependent Variable: Salario
        Source
        DF
        Sum of Squares
        Mean Square
        F Value
        Pr > F
        Model
        2
        258846.6452
        129423.3226
        5.73
        0.0125
        Error
        17
        383829.9048
        22578.2297

        Margem de Erro 
        Corrected Total
        19
        642676.5500










        Se Margem de Erro < 0,05 então temos diferenças entre os salários dos estados, com
        P<  0,0125 ou Margem de Erro = 1,25% (Empresas) ou
        Margem de Confiança = ( 1- 0,0125 ) * 100 = 98,75%





        R-Square
        Coeff Var
        Root MSE
        Salario Mean
        0.402763
        7.738010
        150.2605
        1941.850

        Source
        DF
        Anova SS
        Mean Square
        F Value
        Pr > F
        Estado
        2
        258846.6452
        129423.3226
        5.73
        0.0125





        The SAS System

        The ANOVA Procedure






        The SAS System

        The ANOVA Procedure

        Tukey's Studentized Range (HSD) Test for Salario

        Note:
        This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.
        Alpha
        0.05
        Error Degrees of Freedom
        17
        Error Mean Square
        22578.23
        Critical Value of Studentized Range
        3.62796
        Minimum Significant Difference
        211.69
        Harmonic Mean of Cell Sizes
        6.631579

        Note:
        Cell sizes are not equal.
        Means with the same letter
        are not significantly different.
        Tukey Grouping
        Mean
        N
        Estado

        A
        2057.14
        7
        SP

        A



        B
        A
        1981.67
        6
        RJ
        B




        B

        1792.43
        7
        MS







        Dissecamos um programa SAS



        Data Compara;
        Outorgar um nome para o conjunto de dados, para o SAS armazenar e utilizar para diversas procedures analíticas(as procedures são subprogramas do SAS para efetuar analises no banco de dados introduzido).
        Alerta: toda linha de comando do SAS acaba com ponto e vírgula.

          
        Input Cidade Estado $  Salario;
                    comando Input define os campos (colunas) do banco de dados.
        A primeira coluna é Cidade, veja que as cidades estão referenciadas com um número, assim a primeira cidade recebera o número 17.
        A segunda coluna é Estado, o primeiro estado é RJ (Rio de Janeiro). Veja que a Variável (na área de TI- Tecnologia de Informação se denomina Campo) Estado é de natureza alfanumérica, ou seja tem letras, que podem também ser combinadas com números, assim a variável Estado deve ser seguida pelo cifrão, sinal monetário ($).
        A terceira coluna é salrio, uma variável numérica, então não é necessário e é incorreto colocar cifrão ($).



        Cards;

           Essa linha de comando indica que em seguida vem o banco de dados que normalmente é digitado no Excel (um banco de dados não relacional).
           O comando “cards” esfrega em nossa cara que o SAS é a principal ferramenta de BI (business intelligence)do Mundo desde a época em que os computadores não tinham teclado.


        17 RJ 1870
        16 RJ 2030
        8 SP 1800
        11 MS 1700
        6 SP 2150
        19 RJ 1910
        10 MS 1890
        18 RJ 2200
        14 SP 2180
        4 MS 1890
        3 MS 1650
        20 RJ 1890
        12 MS 1950
        7 SP 2320
        15 RJ 1990
        2 SP 1850
        1 MS 1678
        9 MS 1789
        5 SP 1950
        13 SP 2150
        Banco de dados, normalmente digitado ou lido de outro programa, por exemplo Excel, SQL, Access, Word, etc.
        ;
           Indica que acabou de ser digitado ou lido o banco de dados.
        /*
        proc print data=Compara;
        run;
        Quando o programa esta em fonte
        cor verde, indica que é um
        comentario, nao será interpretado
        pelo SAS
        */
           O que está em fonte verde, entre os caracteres /* e */ é somente um comentário que não será interpretado pelo SAS.
           Ate aqui trabalhamos na etapa Data Step : Etapa para Entrada de Dados.
           A parti de agora entra a etapa denominada Procedure Step.



        Proc print;
        Run;

        Aqui fechamos a aula.



        proc anova data=Compara;
        Class Estado;
        Model Salario = Estado;
        Means Estado / tukey lines;

        run;