Machine Learning Supervisionado para Predição - - Introdução: Regressão Linear Simples

Exemplo: Propaganda - Vendas

X	Y
30	430
21	335
35	520
42	490
37	470
2	210
8	195
17	270
35	400
25	480

Programa SAS para Regressão

data regre;

input X Y;

cards;

30 430

21 335

35 520

42 490

37 470

2 210

8 195

17 270

35 400

25 480

;

/* Modelo

Y = X + Erro

Y = a + b X + Erro

proc reg;

model Y = X;

run;

Resolvendo no SAS com Ciência de Dados Robusta - Programa e Dados com Outlier

data propaganda;
input X Y;
cards;
30 430
21 335
35 520
42 490
37 470
2 210
8 195
17 270
35 400
25 480
3 800 (===> Outlier) não colocar isto no programa SAS
;
proc print;
run;
proc robustreg;
model Y=X;
run;

Coeficiente Angular ou Coeficiente de Regressão = 8,3

Quanto aumenta a Venda (Y) quando incremento uma unidade em Propaganda (X)

Coeficiente Linear = 170,78

Indica quanto venderei em cada unidade de negócio se não fizer propaganda (X=0)

Coeficiente de Determinação ou R Quadrado =

Se Coef. Determinação:
0-0,2 = Muito Ruim o Modelo
0,2-0,4 = Ruim
0,4-0,6 = Regular (nem bom nem ruim)
0,6-0,8 = Bom
0,8 - 1 = Muito Bom

O coeficiente de determinação, também chamado de R², é uma medida de ajustamento de um modelo estatístico linear generalizado, como a Regressão linear, em relação aos valores observados. O R² varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Quanto maior o R², mais explicativo é modelo, melhor ele se ajusta à amostra.

Por exemplo, se o R² de um modelo é 0,8234, isto significa que 82,34% da variável dependente (Y) consegue ser explicada pelos regressores (X) presentes no modelo. Fonte Wikipedia.

https://www.escolaedti.com.br/o-que-e-regressao-linear-entenda-aqui/

Regressão Linear é um dos modelos mais atrativos devido a sua representação entendível, no caso da regressão linear simples sua utilização é mais para aprendizado, já que na prática ela não é muito aplicada, visto que, em muitos casos a gama de variáveis de entradas é maior, fazendo-se uso da Regressão Linear Multivariável, ao qual não adentraremos nesse post. O modelo de representação da regressão linear simples é a tradicional equação conhecida como equação da reta ou em inglês slope-intercept form, usaremos a notação mais utilizada em exemplos de Machine Learning e não da matemática, mas você pode saber mais sobre a própria equação neste link.

Temos o y a variável dependente que representa a predição, as letras gregas β (Beta), também conhecidos como coeficientes, que são a representação das variáveis que o algoritmo irá utilizar para “aprender” a produzir as previsões mais precisas e o x a variável independente que representa o dado de entrada. As letras gregas β também são conhecidas como inclinação e interceptação ou em inglês intercept-slope.

Função de custo

Função de custo, no inglês cost function ou ainda ordinary least squares é uma função utilizada para medir o quão errado o modelo está, os chamados resíduos. Isto é, consiste no cálculo da distância de cada ponto (distância essa entre as variáveis x e y) em relação a reta de regressão, esse valor é elevado ao quadrado e somado, o total é a quantidade média de erro do modelo.

LCE_1270_Gestão Certificação e Estatística - 2o SEMESTRE

quinta-feira, 22 de agosto de 2024

Machine Learning Supervisionado para Predição - - Introdução: Regressão Linear Simples

Função de custo

Nenhum comentário:

Postar um comentário