Informações do modelo

Desenvolvemos um modelo baseado em Aprendizado de Máquina (ou Machine Learning, subárea da Inteligência Artificial) para estimar o valor do dano moral (predição) em processos judiciais relacionados a problemas com o serviço de transporte aéreo — como atrasos e cancelamentos de voos, extravio de bagagem, entre outros. O objetivo é que esse valor estimado auxilie as partes envolvidas no conflito (consumidores e companhias aéreas) a alcançarem um acordo, ou seja, a tomarem uma decisão baseada em dados.

A abordagem de Aprendizado de Máquina permite que um sistema aprenda a reconhecer padrões nos dados e faça previsões ou tome decisões sem ser explicitamente programado para isso. Assim, o modelo recebe um conjunto de exemplos (por exemplo, casos judiciais com os respectivos valores de indenização) e, a partir deles, aprende quais características influenciam o resultado. Depois de treinado, ele pode analisar novos casos e prever um valor provável com base no que aprendeu.

Adiante, descrevemos o fluxo de desenvolvimento do modelo no Projeto Concil-IA:

Base de Dados

Coletamos uma amostra de aproximadamente 1.850 sentenças do Juizado Especial Cível lotado na Universidade Federal de Santa Catarina (JEC/UFSC), publicadas entre 08/02/2011 e 22/05/2024. A coleta foi feita nos sistemas de processo eletrônico utilizados no período (“eSAJ” e “eproc”), utilizando os termos de busca “voo” ou “transporte aéreo”.

Preparação dos Dados

Antes de treinar o modelo, os dados passaram por um processo rigoroso de preparação. Utilizamos técnicas de mineração de dados para identificar os fatores que influenciam a ocorrência e o valor do dano moral — os mesmos itens que o usuário preenche no formulário (por exemplo, extravio de bagagem, atraso, cancelamento ou alteração de voo, entre outros).

Com isso, transformamos sentenças judiciais — que são dados não estruturados — em dados estruturados. Nesse formato, cada fator da sentença é representado por:

  • Variáveis categóricas binárias: como “houve extravio definitivo” (1 para sim, 0 para não);
  • Variáveis numéricas categorizadas em faixas: por exemplo, tempo de atraso ou extravio, organizados em faixas com base na frequência observada e nas estimativas de valor reconhecidas pelos juízes.

Essas faixas foram definidas com base em um método estatístico conhecido como quartis, que divide um conjunto de dados em quatro partes iguais e ajuda a identificar distribuições, medianas e valores extremos (chamados de outliers).

O valor da indenização por dano moral também é uma variável numérica que, neste caso, representa a nossa variável-alvo — ou seja, aquela que pretendemos predizer.

Além disso, realizamos diversos filtros e ajustes:

  • Remoção dos casos improcedentes, ou seja, com valor de dano moral igual a R$ 0,00 (como quando é verificada a culpa exclusiva do consumidor ou o fechamento do aeroporto);
  • Remoção de casos com informações incompletas ou incompatíveis com a área temática;
  • Remoção de outliers, identificados com base nos quartis, para evitar que valores muito fora do padrão distorcessem o aprendizado do modelo.

Essa preparação visa garantir que o modelo aprenda com dados representativos e de qualidade.

Como o Modelo é Treinado

Utilizamos o algoritmo árvore de decisão, que funciona como um jogo de perguntas e respostas: ele analisa as características de cada caso (tempo de atraso, assistência prestada, extravio, etc.) e segue um caminho lógico até prever o valor da indenização.

Para avaliar o desempenho do modelo, dividimos a base de dados em:

  • 80% para treino, onde o modelo aprende;
  • 20% para teste, onde o modelo é avaliado com casos novos.

Essa divisão foi feita de forma estratificada, garantindo que diferentes faixas de valor de indenização estejam bem representadas em ambos os conjuntos. Também aplicamos uma técnica chamada oversampling, que replica casos menos frequentes para equilibrar a base e evitar que o modelo ignore essas situações.

Como Medimos o Desempenho do Modelo

A métrica usada para avaliar a precisão do modelo é o MAE (Mean Absolute Error, ou Erro Médio Absoluto). Ela calcula, em média, quanto o valor previsto pelo modelo se distancia do valor real. Para cada caso, é feita a diferença entre o valor previsto e o valor verdadeiro, sempre em valor absoluto — ou seja, desconsiderando se o erro foi para mais ou para menos. Isso é importante porque evita que erros negativos cancelem os positivos, o que poderia mascarar o desempenho real do modelo. Depois, somamos todas essas diferenças e dividimos pelo número total de casos. Quanto menor o MAE, melhor está o desempenho do modelo.

O MAE atual do modelo é de R$ 1.672,10. É com base nesse valor que definimos a faixa de estimativa apresentada ao usuário.

Explicação das Predições do Modelo

Além de prever o valor do dano moral, é importante entender por que o modelo chegou a determinada estimativa. Para isso, utilizamos a técnica SHAP (SHapley Additive exPlanations).

O SHAP funciona como um raio-X da decisão do modelo. Ele analisa cada previsão e mostra quanto cada variável influenciou o valor final — positiva ou negativamente. Isso ajuda a responder perguntas como:

  • Quais fatores mais influenciaram a previsão?
  • Por que o modelo previu um valor mais alto ou mais baixo neste caso?

Por exemplo, em um caso, o tempo de extravio da bagagem pode ter sido o principal motivo para um valor elevado. Em outro, o fato de não haver assistência da companhia aérea pode ter sido mais relevante.

Essas explicações são apresentadas em gráficos intuitivos e tornam o modelo mais transparente e confiável, especialmente em um contexto sensível como o das decisões judiciais.

Limitações do Modelo

Embora o modelo apresente bons resultados em geral, ele pode apresentar comportamentos inesperados em certos casos. Isso costuma ocorrer em situações com combinações raras de fatores, nas quais o modelo tem pouca base para comparar. Além disso, como qualquer sistema baseado em decisões anteriores, ele reflete os padrões históricos, que podem incluir variações entre juízes do JEC/UFSC ao longo do tempo. Por isso, o modelo deve ser visto como uma ferramenta de apoio à tomada de decisão — útil para oferecer uma estimativa inicial —, mas não substitui a análise jurídica humana.