quinta-feira, 22 de agosto de 2024

Machine Learning Supervisionado para Predição - - Introdução: Regressão Linear Simples

 Machine Learning Supervisionado para Predição -  - Introdução: Regressão Linear Simples


 Exemplo: Propaganda - Vendas 

X

Y

30

430

21

335

35

520

42

490

37

470

2

210

8

195

17

270

35

400

25

480






Programa SAS para Regressão


data regre;
input X Y;
cards;
30 430
21 335
35 520
42 490
37 470
2 210
8 195
17 270
35 400
25 480
;
/* Modelo
    Y = X + Erro
    Y = a + b X + Erro
*/    
proc reg;
model Y = X;
run;






Resolvendo no SAS com Ciência de Dados Robusta - Programa e Dados com Outlier

data propaganda;
input X Y;
cards;
30 430
21 335
35 520
42 490
37 470
2 210
8 195
17 270
35 400
25 480
3 800     (===> Outlier) não colocar isto no programa SAS
;
proc print;
run;
proc robustreg;
model Y=X;
run;






Coeficiente Angular ou Coeficiente de Regressão = 8,3
Quanto aumenta a Venda (Y) quando incremento uma unidade em Propaganda (X)

 

 

Coeficiente Linear = 170,78

Indica quanto venderei em cada unidade de negócio se não fizer propaganda (X=0) 



     Coeficiente de Determinação ou R Quadrado 

Se Coef. Determinação:
0-0,2 = Muito Ruim o Modelo
0,2-0,4 = Ruim
0,4-0,6 = Regular (nem bom nem ruim)
0,6-0,8 = Bom
0,8 - 1 = Muito Bom


coeficiente de determinação, também chamado de , é uma medida de ajustamento de um modelo estatístico linear generalizado, como a Regressão linear, em relação aos valores observados. O R² varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Quanto maior o R², mais explicativo é modelo, melhor ele se ajusta à amostra.
Por exemplo, se o R² de um modelo é 0,8234, isto significa que 82,34% da variável dependente (Y) consegue ser explicada pelos regressores (X) presentes no modelo. Fonte Wikipedia.



Regressão Linear é um dos modelos mais atrativos devido a sua representação entendível, no caso da regressão linear simples sua utilização é mais para aprendizado, já que na prática ela não é muito aplicada, visto que, em muitos casos a gama de variáveis de entradas é maior, fazendo-se uso da Regressão Linear Multivariável, ao qual não adentraremos nesse post. O modelo de representação da regressão linear simples é a tradicional equação conhecida como equação da reta ou em inglês slope-intercept form, usaremos a notação mais utilizada em exemplos de Machine Learning e não da matemática, mas você pode saber mais sobre a própria equação neste link.
Temos o y a variável dependente que representa a predição, as letras gregas β (Beta), também conhecidos como coeficientes, que são a representação das variáveis que o algoritmo irá utilizar para “aprender” a produzir as previsões mais precisas e o x a variável independente que representa o dado de entrada. As letras gregas β também são conhecidas como inclinação e interceptação ou em inglês intercept-slope.

Função de custo


Função de custo, no inglês cost function ou ainda ordinary least squares é uma função utilizada para medir o quão errado o modelo está, os chamados resíduos. Isto é, consiste no cálculo da distância de cada ponto (distância essa entre as variáveis x e y) em relação a reta de regressão, esse valor é elevado ao quadrado e somado, o total é a quantidade média de erro do modelo.

Nenhum comentário:

Postar um comentário