LCE_1270_Gestão Certificação e Estatística - 2o SEMESTRE: Exercicio Teórico 3 - IA Supervisionada para Classificação, a matriz de confusão

Exercicio Teórico 3 - IA Supervisionada para Classificação, a matriz de confusão

Na área de Inteligência Artificial Supervisionada para Classificação, a matriz de confusão é uma ferramenta essencial para avaliar o desempenho de um modelo. Ela é uma tabela que resume os resultados de um modelo de classificação, comparando as classes preditas com as classes reais. A partir dela, é possível calcular diversos parâmetros importantes que fornecem uma visão detalhada sobre o desempenho do modelo.

Parâmetros da Matriz de Confusão

A matriz de confusão mais comum para um problema de classificação binária (duas classes) é representada da seguinte forma:

	Classe Predita Positiva	Classe Predita Negativa
Classe Real Positiva	Verdadeiro Positivo (VP)	Falso Negativo (FN)
Classe Real Negativa	Falso Positivo (FP)	Verdadeiro Negativo (VN)

Exportar a Hojas de cálculo

A partir desses quatro valores, são calculados os seguintes parâmetros:

Verdadeiro Positivo (VP): O número de instâncias que o modelo classificou corretamente como positivas.
Verdadeiro Negativo (VN): O número de instâncias que o modelo classificou corretamente como negativas.
Falso Positivo (FP): O número de instâncias que o modelo classificou incorretamente como positivas, quando na verdade eram negativas. Também conhecido como erro do Tipo I.
Falso Negativo (FN): O número de instâncias que o modelo classificou incorretamente como negativas, quando na verdade eram positivas. Também conhecido como erro do Tipo II.

A partir desses valores, podemos calcular métricas de desempenho mais sofisticadas:

Acurácia (Accuracy): Mede a proporção de classificações corretas (tanto positivas quanto negativas) em relação ao total de classificações. É uma métrica geral, mas pode ser enganosa em dados desbalanceados. Acuraˊcia=VP+VN+FP+FNVP+VN
Precisão (Precision): Mede a capacidade do modelo de não classificar incorretamente uma instância negativa como positiva. Em outras palavras, de todas as instâncias que o modelo previu como positivas, quantas realmente eram positivas. É útil quando o custo de um Falso Positivo é alto. Precisa~o=VP+FPVP
Revocação (Recall) ou Sensibilidade (Sensitivity): Mede a capacidade do modelo de encontrar todas as instâncias positivas. De todas as instâncias que realmente eram positivas, quantas o modelo identificou corretamente. É útil quando o custo de um Falso Negativo é alto. Revocac\ca~o=VP+FNVP
Pontuação F1 (F1-Score): É a média harmônica da precisão e da revocação. É útil quando há um desequilíbrio entre essas duas métricas, fornecendo um único valor que equilibra ambas. Pontuac\ca~oF1=2×Precisa~o+Revocac\ca~oPrecisa~o×Revocac\ca~o

Exemplo Prático

Imagine que um modelo de IA foi treinado para detectar se um e-mail é spam (classe positiva) ou não é spam (classe negativa). O modelo foi testado com 1000 e-mails, e a matriz de confusão gerada foi a seguinte:

	Predito Spam	Predito Não Spam
Real Spam	VP = 90	FN = 10
Real Não Spam	FP = 20	VN = 880

Exportar a Hojas de cálculo

Agora, vamos calcular os parâmetros:

Verdadeiro Positivo (VP): 90 (o modelo classificou corretamente 90 e-mails como spam).
Verdadeiro Negativo (VN): 880 (o modelo classificou corretamente 880 e-mails como não spam).
Falso Positivo (FP): 20 (o modelo classificou incorretamente 20 e-mails como spam, quando na verdade não eram).
Falso Negativo (FN): 10 (o modelo classificou incorretamente 10 e-mails como não spam, quando na verdade eram spam).

A partir desses valores, podemos calcular as métricas de desempenho:

Acurácia: Acuraˊcia=90+880+20+1090+880=1000970=0.97 (ou 97%) O modelo acertou a classificação de 97% dos e-mails.
Precisão: Precisa~o=90+2090=11090≈0.818 (ou 81.8%) Das 110 vezes que o modelo previu "spam", ele acertou 90.
Revocação: Revocac\ca~o=90+1090=10090=0.90 (ou 90%) Dos 100 e-mails que realmente eram spam, o modelo conseguiu identificar 90.
Pontuação F1: Pontuac\ca~oF1=2×0.818+0.900.818×0.90≈0.857 (ou 85.7%) Este valor representa um bom equilíbrio entre a precisão e a revocação do modelo.

Ao analisar esses parâmetros, você pode determinar o quão bem o seu modelo está funcionando e quais tipos de erros ele está cometendo. Se o custo de um falso negativo (não detectar um spam importante) for muito alto, você pode preferir um modelo com maior revocação. Se o custo de um falso positivo (classificar um e-mail importante como spam) for mais alto, você pode focar em um modelo com maior precisão.

LCE_1270_Gestão Certificação e Estatística - 2o SEMESTRE

quinta-feira, 18 de setembro de 2025

Exercicio Teórico 3 - IA Supervisionada para Classificação, a matriz de confusão

Nenhum comentário:

Postar um comentário