LCE_1270_Gestão Certificação e Estatística

Explicação do Algoritmo Random Forest pela IA Gemini

random forest como é esse algoritmo forneca um exemplo didatico

O Random Forest, ou "Floresta Aleatória", é um dos algoritmos de aprendizado de máquina mais populares e poderosos para tarefas de classificação e regressão. Como o próprio nome sugere, ele funciona criando uma "floresta" de árvores de decisão.

A principal ideia é que, em vez de confiar em apenas uma árvore de decisão para fazer previsões, o Random Forest utiliza um conjunto de árvores. Cada uma dessas árvores é treinada de forma independente, e o resultado final é uma combinação das previsões de todas elas. Pense nisso como uma votação: o palpite final é a média (para regressão) ou a maioria dos votos (para classificação) das árvores individuais.

Como Funciona?

O Random Forest constrói suas árvores de maneira aleatória em dois níveis:

1. Amostras Aleatórias de Dados (Bagging): Para construir cada árvore, o algoritmo não usa todo o conjunto de dados. Em vez disso, ele retira uma amostra aleatória com reposição dos dados originais. Isso garante que cada árvore seja treinada com um conjunto de dados ligeiramente diferente.

2. Amostras Aleatórias de Atributos: Em cada "nó" de uma árvore, o algoritmo não considera todos os atributos disponíveis para tomar uma decisão. Ele seleciona um subconjunto aleatório de atributos. Isso força as árvores a serem mais diversas e a não dependerem excessivamente de um único atributo muito forte.

O resultado dessa aleatoriedade é uma floresta de árvores que são diferentes entre si. Juntas, elas conseguem reduzir o risco de overfitting, que é quando um modelo se torna muito específico para os dados de treino e perde a capacidade de generalizar para novos dados.

________________________________________

Exemplo Didático: Classificar um Novo Fruto

Imagine que você quer construir um algoritmo para classificar se um novo fruto é uma maçã ou uma laranja. Você tem dados de frutos já conhecidos, com atributos como:

• Cor: Vermelho, Verde, Laranja

• Formato: Redondo, Oval

• Textura da casca: Lisa, Áspera

• Peso: Gramas

• Tamanho: Pequeno, Médio, Grande

Floresta com 3 Árvores:

1. Árvore 1:

o Treinada com uma amostra aleatória dos seus dados.

o Em vez de usar todos os atributos, ela só considera Peso e Cor para tomar decisões.

o Resultado da Árvore 1: O fruto é uma maçã.

2. Árvore 2:

o Treinada com outra amostra aleatória dos seus dados.

o Ela só considera os atributos Formato e Tamanho.

o Resultado da Árvore 2: O fruto é uma maçã.

3. Árvore 3:

o Treinada com uma terceira amostra aleatória dos seus dados.

o Ela considera os atributos Textura da casca e Cor.

o Resultado da Árvore 3: O fruto é uma laranja.

Votação e Decisão Final:

Quando o seu novo fruto chega, ele passa por cada uma dessas três árvores.

• Árvore 1 "vota" em maçã.

• Árvore 2 "vota" em maçã.

• Árvore 3 "vota" em laranja.

Como a maioria das árvores (2 de 3) "votou" em maçã, o Random Forest determina que o fruto é, com maior probabilidade, uma maçã.

Esse processo de votação agrega o conhecimento de várias árvores diferentes, o que geralmente leva a uma previsão mais robusta e precisa do que a previsão de uma única árvore de decisão. É por isso que o Random Forest é tão eficaz.

Aula 28/8/2025

Pauta:

- Rodar exercicios praticos 4 e 5, resolver no Editor, Gabriel como se fosse aluno. Postar na lista de exercicios.

- Exercicio pratico 6 enunciar.

Exercícios

Enviar por Favor para o E-mail da Disciplina:

gestao.estat.cert@gmail.com

Colocar o número do exercício e o nome do autor ou autores (máximo 3) no assunto do e-mail.

Exercícios Teóricos

- Exercício Teórico 1 – Elabore 7 slides sobre os assuntos

abordados nesta primeira aula. Ver postagem de Slides.

Qualquer coisa que tenha te interessado.

Assuntos

- IA

- CD

- Robótica

- Machine learning

- S Toyota de Gestão 4.0 = Sistema Porsche

- Rede Neural

Dead Line: 28/8/2025

- Exercício Teórico 2 – Elabore de 4 a 8 slides sobre tipos de IA Indutiva (Machine Learning).

Dead Line: 4/9/2025

Exercícios Práticos

Exercício Prático 1 - Regressão Linear Simples em Excel ou LOffice Calc. Sem outlier.

Machine Learning Supervisionado para Predição, Introdução: Regressão Linear Simples

Exemplo: X: Propaganda - Y: Vendas

X	Y
30	4??
21	3??
35	520
42	490
37	470
2	210
8	195
17	270
35	400
25	480

Coloque seus últimos 2 dígitos do numero USP no lugar dos sinais de interrogação.

Elabore um relatório com os resultados, numa linguagem não acadêmica, como se estivesse relatando os resultados para a Dona Luiza, que não sabe estatística mas sabe muito de gestão de negócios.

Dead Line: 19/8/2025

Exercício Prático 2 - Regressão Linear Simples em Excel ou LOffice Calc. Com outlier.

Machine Learning Supervisionado para Predição, Introdução: Regressão Linear Simples

Exemplo: Propaganda - Vendas

X	Y
30	4??
21	3??
35	520
42	490
37	470
2	210
8	195
17	270
35	400
25	480

3 800 (===> Outlier)

Coloque seus últimos 2 dígitos do numero USP no lugar dos sinais de interrogação.

Dead Line: 19/8/2025

Exercício Prático 3 - Regressão Linear Simples em SAS. Com e sem outlier.

Machine Learning Supervisionado para Predição, Introdução: Regressão Linear Simples

Exemplo: Propaganda - Vendas

X	Y
30	4??
21	3??
35	520
42	490
37	470
2	210
8	195
17	270
35	400
25	480

3 800 (===> Outlier)

Coloque seus últimos 2 dígitos do numero USP no lugar dos sinais de interrogação.

Programa SAS para Regressão Robusta

data propag;

input X Y;

cards;

DADOS DO EXCEL DO BLOG

;

proc print;

run;

/* Y: Vendas e X:Propaganda */

proc robustreg;

model Y = X;

run;

Dead Line: 26/8/2025

Resultados e D.

A analise com proc reg no sas, deu resultado errado, aconteceria mesma coisa no Excel e L.O. Calq. Assim nunca devemos utilizar prog reg ou as analises do Excel o LOCalq.

Com essa análise errada falaríamos para a CEO do Mag. Luiza (Dona Luiza) que a propaganda não está funcionando.

Agora analisando os dados com a procedure Robustreg, concluímos que a propaganda influencia a venda com 99,99% de confiança.

Programa SAS feito durante a aula:

data regre;

input X Y;

datalines;

30 459

21 359

35 520

42 490

37 470

2 210

8 195

17 270

35 400

25 480

3 800

;

proc print; run;

/* Ciencia de Dados Robusta é a unica forma de tomada

de d. na ciencia e tecnologia moderna */

proc robustreg;

model Y = X;

run;

Exercício Prático 4

Vamos analisar a Satisfação de Clientes (Y), por exemplo do Mazine Luisa, essa satisfação será nossa variável resposta ou efeito.

Temos 5 variáveis preditoras, ou independentes ou causa, X1, X2, X3, X4 e X5.

Queremos saber quais variáveis preditoras impactam a satisfação do cliente e quantificar esse impacto.

Resolva no SAS com e sem outlier.

Troque os sinais de interrogação pelos últimos dois

dígitos do seu número USP.

Banco de Dados

Bu_Unit	Sales	Price	Qu_level	Claims	NPS	Satisfac
1	65,98	97,80	96,77	13,58	98,90	97,83
2	15,84	98,90	98,39	12,35	97,80	98,91
3	8,89	100,00	100,00	11,11	100,00	100,00
4	12,46	98,90	95,16	12,35	96,70	96,74
5	80,67	21,98	19,35	100,00	2,20	21,????
6	32,17	23,08	22,58	97,53	3,30	23,91
7	23,45	24,18	24,19	96,30	2,75	25,00
8	89,96	24,18	19,35	95,06	2,20	26,09
9	31,43	64,84	56,45	50,62	65,93	65,22
10	11,23	65,93	51,61	49,38	71,43	66,30
11	77,46	70,33	53,23	46,91	63,74	68,48
12	23,90	68,13	51,61	45,68	61,54	67,39
13	7,40	86,81	80,65	25,93	90,11	86,96
14	0,29	87,91	79,03	24,69	85,71	85,87
15	83,42	87,91	77,42	22,22	90,11	88,04
16	100,00	86,81	75,81	25,93	84,62	84,78
17	15,84	98,90	98,39	12,35	97,80	28,91

Conventional and Robust Data Science for SML to Prediction or Regression

SAS Program

Data Customer;

Input Bu_Unit Sales Price Qu_level Claims NPS Satisfac;

Cards;

DADOS DO EXCEL OU LIBRE OFFICE CALC

;

proc print; run;

/* Input Bu_Unit Sales Price Qu_level Claims NPS Satisfac; */

proc reg;

model Satisfac = Sales Price Qu_level Claims NPS;

Run;

proc robustreg;

model Satisfac = Sales Price Qu_level Claims NPS / diagnostic;

Run;

Arquivo de Resultado e Discussao do Exercicio 4

Ex. Pratico 5 -

Visualização 6d com IAI Não S para Redução de Dimensão: PCA com Biplot

Rodar PCA com os dados da regressão múltipla

data pca_reg;

input Sales Price Qu_level Claims NPS Satisfac;

cards;

65.98 97.8 96.77 13.58 98.9 97.83

15.84 98.9 98.39 12.35 97.8 98.59

8.89 100 100 11.11 100 100

12.46 98.9 95.16 12.35 96.7 96.74

80.67 21.98 19.35 100 2.2 21.59

32.17 23.08 22.58 97.53 3.3 23.91

23.45 24.18 24.19 96.3 2.75 25

89.96 24.18 19.35 95.06 2.2 26.09

31.43 64.84 56.45 50.62 65.93 65.22

11.23 65.93 51.61 49.38 71.43 66.3

77.46 70.33 53.23 46.91 63.74 68.48

23.9 68.13 51.61 45.68 61.54 67.39

7.4 86.81 80.65 25.93 90.11 86.96

0.29 87.91 79.03 24.69 85.71 85.87

83.42 87.91 77.42 22.22 90.11 88.04

100 86.81 75.81 25.93 84.62 84.78

15.84 98.9 98.39 12.35 97.8 28.91

;

proc print; run;

proc prinqual plots=(MDPref);

transform identity(Sales Price Qu_level Claims NPS Satisfac);

ods select MDPrefPlot;

run;

Ex. Pratico 6 - IAI Não S para Agrupamentos e Distancias Multivariadas.

DL: 25/9/2025

Ex. Pratico 7 - - Alunos procuram exemplo de repressão múltipla, e IAI Não Superv. para Redução de Dimenssão. IBGE, IA, Kaggle, outros repositórios.

Resolver e fazer relatório.

LCE_1270_Gestão Certificação e Estatística - 2o SEMESTRE

quinta-feira, 28 de agosto de 2025

Explicação do Algoritmo Random Forest pela IA Gemini

Aula 28/8/2025

Exercícios