segunda-feira, 27 de novembro de 2017

Contatos Futuros

Contatos Futuros
Dois blogs:
1.                     USP – Se4leçao Emprego Estagio e Venda Técnica (Empreendedorismo)
2.                     USP – Gestão Certificação Internacional – BI – Computação


Bancos de Dados Relacionais - Access e SQL

11/12/2017 e 12/12/2017 as14h - Bancos de Dados Relacionais - Access e SQL

Professor Eduardo Bonilla - TI/ESALQ/USP
Grande Experiencia de Mercado no Setor Produtivo. Softwares corporativos.
Grande experiencia teórico-pratica com bancos de dados e software para Web.
Aula on line por canal de Youtube.





Banco de dados relacional

Origem: Wikipédia, a enciclopédia livre.
Um banco de dados relacional é um banco de dados que modela os dados de uma forma que eles sejam percebidos pelo usuário como tabelas, ou mais formalmente relações.
O termo é aplicado aos próprios dados, quando organizados dessa forma, ou a um Sistema Gerenciador de Banco de Dados Relacional (SGBDR) – do inglês Relational database management system (RDBMS) – um programa de computador que implementa a abstração.




tructured Query Language, ou Linguagem de Consulta Estruturada ou SQL, é a linguagem de pesquisa declarativa padrão para banco de dados relacional (base de dados relacional). Muitas das características originais do SQL foram inspiradas na álgebra relacional.
SQL foi desenvolvido originalmente no início dos anos 70 nos laboratórios da IBM em San Jose, dentro do projeto System R, que tinha por objetivo demonstrar a viabilidade da implementação do modelo relacional proposto por E. F. Codd. O nome original da linguagem era SEQUEL, acrônimo para "Structured English Query Language" (Linguagem de Consulta Estruturada, em Inglês)[1], vindo daí o facto de, até hoje, a sigla, em inglês, ser comumente pronunciada "síquel" ao invés de "és-kiú-él", letra a letra. No entanto, em português, a pronúncia mais corrente é letra a letra: "ésse-quê-éle".
A linguagem é um grande padrão de banco de dados. Isto decorre da sua simplicidade e facilidade de uso. Ela se diferencia de outras linguagens de consulta a banco de dados no sentido em que uma consulta SQL especifica a forma do resultado e não o caminho para chegar a ele. Ela é uma linguagem declarativa em oposição a outras linguagens procedurais. Isto reduz o ciclo de aprendizado daqueles que se iniciam na linguagem.
Embora o SQL tenha sido originalmente criado pela IBM, rapidamente surgiram vários "dialectos" desenvolvidos por outros produtores. Essa expansão levou à necessidade de ser criado e adaptado um padrão para a linguagem. Esta tarefa foi realizada pela American National Standards Institute (ANSI) em 1986 e ISO em 1987.
O SQL foi revisto em 1992 e a esta versão foi dado o nome de SQL-92. Foi revisto novamente em 1999 e 2003 para se tornar SQL:1999 (SQL3) e SQL:2003, respectivamente. O SQL:1999 usa expressões regulares de emparelhamento, queriesrecursivas e gatilhos (triggers). Também foi feita uma adição controversa de tipos não-escalados e algumas características de orientação a objeto. O SQL:2003 introduz características relacionadas ao XML, sequências padronizadas e colunas com valores de auto-generalização (inclusive colunas-identidade).
Tal como dito anteriormente, embora padronizado pela ANSI e ISO, possui muitas variações e extensões produzidos pelos diferentes fabricantes de sistemas gerenciadores de bases de dados. Tipicamente a linguagem pode ser migrada de plataforma para plataforma sem mudanças estruturais principais.
Outra aproximação é permitir para código de idioma procedural ser embutido e interagir com o banco de dados. Por exemplo, o Oraclee outros incluem Java na base de dados, enquanto o PostgreSQL permite que funções sejam escritas em PerlTcl, ou C, entre outras linguagens.





Seleção p. Estágios - Empregos

Aula 22/11 - Ultima:
  • Thierry Discute Seleção p. Estágios:
    • Thierry Fuger Reis Couto
    • Áudio de Gabriel comentando a apresentação do Thierry, a partir do mapa mental elaborado pelo Gabriel na sua apresentação: 
  • Seminário
  • Atenção a data de curso on line por canal de Youtube sobre Bancos de Dados Relacionais:
  • Access/MS e SQL

segunda-feira, 13 de novembro de 2017

Regressão Múltipla




Regressão Múltipla

Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):


Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e anti-infarto. As 3 variáveis anteriores as relacionaremos com a variável de resposta: Índice de Massa Corporal (IMC)?
Veja o comando SAS para testar esse modelo:

model IMC = Kcal_d Corr_s Cha_Sol;


O Modelo Estatístico é:
Assim voces o acharao na literatura (Douglas Montgomery Introduction to Linear Regression Analysis)


IMC = Bo + B1 * Kcal + B2 * Corr_s  +  B* Cha_Sol  +                        Erro do Modelo


IMC é a: 
 variável dependente (efeito)

Kcal_d Corr_s Cha_Sol:    
                          são as variáveis independentes (causa)


data multipl;
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29  2780    0.5 28
31  2890    1   27
20  2000    10  25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;



Resultados:


The SAS System


The GLM Procedure
Number of Observations Read9
Number of Observations Used9




The SAS System


The GLM Procedure
Dependent Variable: IMC

SourceDFSum of SquaresMean SquareF ValuePr > F
Model3205.979516968.659839057.020.0003
Error56.02048311.2040966
Corrected Total8212.0000000


Aqui podemos ver que se rejeita a Hipótese:

Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa  -->  efeito) com (1-0,0003) * 100 =  99,97 % de confiança rejeita-se Ho. Então existe alguma relação causas efeito.

Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.



R-SquareCoeff VarRoot MSEIMC Mean
0.9720574.8485611.13335123.37500


SourceDFType I SSMean SquareF ValuePr > F
Kcal_d1169.2880791169.2880791131.790.0003
Corr_s18.47903478.47903476.600.0620
Cha_Sol10.96994620.96994620.760.4339


SourceDFType III SSMean SquareF ValuePr > F
Kcal_d143.6836446343.6836446334.010.0043
Corr_s18.653658428.653658426.740.0603
Cha_Sol10.969946180.969946180.760.4339

Sempre na Regressão Múltipla Temos que utilizar Soma de Quadrados Tipo III. Também quando tivermos parcela perdida e ANOVA e MANOVA, temos que utilizar Soma de Quadrados Tipo III.


ParameterEstimateStandard Errort ValuePr > |t|
Intercept0.11690925155.301741860.020.9835
Kcal_d0.01161837450.001992285.830.0043
Corr_s-.12291356000.04735485-2.600.0603
Cha_Sol-.10674221160.12283635-0.870.4339




Podemos ver que a estimativa dos parâmetros 
Bo, B1, B e   B foi:


Parameter
Estimate
Bo = Intercept
0.1169092515
B1 = Kcal_d
0.0116183745
B2 = Corr_s
-.1229135600
B3 = Cha_Sol
-.1067422116


Podemos observar que:
             B> 0
                          B <0 
                 B <0
            assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma: 
             Bpositivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC
             Bnegativamente    ou seja quando aumenta corrida diminuí o IMC  
              B3  negativamente    ou seja quando aumentam as xícaras de chá por sema diminui o IMC 


Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:

Parameter
Estimate
Pr > |t|
Bo = Intercept
0.1169092515
0.9835
B1 = Kcal_d
0.0116183745
0.0043
B2 = Corr_s
-.1229135600
0.0603
B3 = Cha_Sol
-.1067422116
0.4339


Assim:
            O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
            O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d)  foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
            O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_snão foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significânciarejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
                      - Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
                      - Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais, 
                      - Recomendação das normas ISO, minimo 9 graus de liberdade do resíduodeveríamos ter 13 pontos amostrais.
    
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável  Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.

                  O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.

Temos um problema de Tamanho Amostral, isso impacta na significância da Variável Independente Corrida por Semana.
Assim utilizamos o Algoritmo de Cochran, para pesquisarmos o Tamanho Ótimo da Amostra.
Observamos que para uma população de tamanho N=25, o Tamanho Ótimo da Amostra é: 23 (por que a variação é muito grande, CV%= 100,3 %).
Assim deveríamos aumentar o tamanho da amostra para chegarmos em n = 23, deveríamos tomar dados de 23 - 8 = 15 pessoas mais.
Assim muito provavelmente a variável Corrida por Semana passara a ser estatisticamente significativa. 


Obs
IMC
Kcal_d
Corr_s
Cha_Sol
1
28
2500
1
20
2
19
2100
34
19
3
22
2300
12
18
4
29
2600

22
5
20
2200
17
25
6
18
2100
32
25
7
29
2780
0,5
28
8
31
2890
1
27
9
20
2000
10
25


Media=
13,4375



Desvio=
13,47335



CV%=
100,2668






Tamanho Otimo





da Amostra:









Pop. Infinita = 

401,7877


Pop. Finita=

23,53557


Macros Analíticas do Excel - Teste T Principal Ferramenta de BI para Tomar Decisão .

Macros Analíticas do Excel
Teste T de Student – A segunda ou primeira ferramenta de BI (Intel. De Negócios) mais utilizada pelo gestor

Data Compara;
Input Cidade Estado $ Salario;
Cards;
17 RJ 1870
16 RJ 2030
8 SP 1800
11 MS 1700
6 SP 2150
19 RJ 1910
10 MS 1890
18 RJ 2200
14 SP 2180
4 MS 1890
3 MS 1650
20 RJ 1890
12 MS 1950
7 SP 2320
15 RJ 1990
2 SP 1850
1 MS 1678
9 MS 1789
5 SP 1950
13 SP 2150
;
/*
proc print data=Compara;
run;
Quando o programa esta em fonte
cor verde, indica que é um
comentario, nao será interpretado
pelo SAS
*/
proc anova data=Compara;
Class Estado;
Model Salario = Estado;
Means Estado / tukey lines;

run;








Queremos comparar medias salariais de 3 estados brasileiros, banco de dados:
Numero
Estado
Salario
11
MS
1700
10
MS
1890
4
MS
1890
3
MS
1650
12
MS
1950
1
MS
1678
9
MS
1789
17
RJ
1870
16
RJ
2030
19
RJ
1910
18
RJ
2200
20
RJ
1890
15
RJ
1990
8
SP
1800
6
SP
2150
14
SP
2180
7
SP
2320
2
SP
1850
5
SP
1950
13
SP
2150



Ativando Macros Analíticas:

https://www.youtube.com/watch?v=nOCjtZ54v-I




Comparação SP Vs. MS
Teste-t: duas amostras presumindo variâncias diferentes












Salario MS
Salario SP



Média
1792
2057



Variância
14301
36990



Observações
7
7



Hipótese da diferença de média
0




gl
10




Stat t
-3,092469414




P(T<=t) uni-caudal
0,005697959
Margem de Erro COM Inf. Previa Confiavel



t crítico uni-caudal
1,812461123




P(T<=t) bi-caudal
0,011395918
Margem de Erro SEM Inf. Previa



t crítico bi-caudal
2,228138852





Comparação SP Vs. RJ
Teste-t: duas amostras presumindo variâncias equivalentes






RJ
SP
Média
1982
2057
Variância
15217
36990
Observações
6
7
Variância agrupada
27093,29004

Hipótese da diferença de média
0

gl
11

Stat t
-0,824198971

P(T<=t) uni-caudal
0,213668226

t crítico uni-caudal
1,795884819

P(T<=t) bi-caudal
0,427336452

t crítico bi-caudal
2,20098516