Árvore de Decisão com R


Hoje decidi abordar um tema comumente utilizado para tomadas de decisão, com a Linguagem R.
Utilizei o pacote "party" muito eficaz para a criação de árvores de decisão com R
O objetivo deste artigo é mostrar o conceito e formas de utilização e criação de uma árvore de decisão, quais suas vantagens e aplicações.

Conceito

Árvore de decisão é um gráfico para representar opções e seus resultados na forma de uma árvore.
Os nós no gráfico representam um evento ou escolha e as bordas do gráfico representam as regras ou
condições de decisão. É usado principalmente em aplicativos Machine Learning e Data Mining usando R.

Exemplos de uso de árvores de decisão são: prever um email como spam ou não spam, prever se um tumor é canceroso ou prever um empréstimo como um risco de crédito bom ou ruim, com base nos fatores de cada um deles.
Geralmente, um modelo é criado com dados observados também chamados de dados de treinamento. Em seguida, um conjunto de dados de validação é usado para verificar e melhorar o modelo.
R possui pacotes que são usados para criar e visualizar árvores de decisão. Para um novo conjunto de variáveis preditivas, usamos esse modelo para chegar a uma decisão sobre a categoria (sim / não, spam / não spam) dos dados.

 O pacote R "party" é usado para criar árvores de decisão.

Instalação do pacote "party" no R

Use o comando abaixo no console do R para instalar o pacote. Você também precisa instalar os pacotes dependentes, se houver.


O pacote "party" possui a função ctree() que é usada para criar e analisar a árvore de decisões.

Sintaxe

A sintaxe básica para criar uma árvore de decisão em R é :

ctree(formula, data)

A seguir, é apresentada a descrição dos parâmetros usados:
  • formula é uma fórmula que descreve as variáveis preditoras e de resposta.
  • data é o nome do conjunto de dados usado.

Dados de Entrada


Usarei o conjunto de dados incorporado no R chamado "readingSkills" para criar uma árvore de decisão.
Ele descreve a pontuação das habilidades de leitura de alguém, se conhecermos as variáveis "age", "shoesize", "score" e se a pessoa é um falante nativo ou não.

Aqui estão os dados de amostra:

Carregue o pacote de festa. Carregará automaticamente outro pacotes dependentes.

Imprima alguns registros do conjunto de dados readingSkills.


O resultado será o seguinte:



Quando executamos o código acima, ele produz o seguinte resultado e gráfico:

EXEMPLO

Usaremos a função ctree() para criar a árvore de decisão e ver seu gráfico.

 Crie o quadro de dados de entrada.


Dê um nome para o gráfico


Crie a árvore:


Plote a árvore


O resultado da plotagem será salva num arquivo .png, e ficará desta forma:



Salve o arquivo

Conclusão

A partir da árvore de decisão mostrada acima, podemos concluir que qualquer pessoa cuja pontuação de habilidades de leitura seja inferior a 38,3 e a idade seja superior a 6 anos não é um falante nativo.

Espero que este artigo seja útil para esclarecer melhor o conceito de árvores de decisão, utilizando esta poderosa linguagem que é o R

Não esqueçam de comentar vossa opinião no artigo!

Espero que gostem. Abraços e bons estudos!!

O código completo pode ser encontrado no meu Git:
https://github.com/NelsonZyon/Data-Science/blob/master/Tutorial_Arvore_Decisao_R.R

Comentários

Postagens mais visitadas deste blog

Tutorial de Machine Learning com Python - Iniciantes - Parte 1

Regressão Múltipla com R

Tutorial de Machine Learning com Python - Iniciantes - Parte 2