Limpeza e transformação de dados
A primeira etapa é a limpeza e transformação dos dados, onde o pesquisador identifica problemas de qualidade, como valores nulos, e os substitui por “desconhecido”. Em seguida, os dados são preparados para a análise exploratória.
Análise exploratória
A análise exploratória é realizada criando um dashboard para visualizar os dados, revelando insights importantes, como:
* Distribuição de doadores por etnia, com foco em matrizes de antígenos leucocitários humanos (HLA) raras
* Distribuição de idades, com a maioria dos doadores com mais de 31 anos
* Distribuição geográfica dos doadores em todo o mundo
* Número de doadores contatados para recommitment
Esses insights levam o pesquisador a solicitar uma campanha de marketing para educar a população sobre a importância de doar células-tronco, com foco em doadores jovens e etnias sub-representadas.
Construção de modelo de Machine Learning
Em seguida, o data scientist constrói um modelo de Machine Learning para predizer a disponibilidade dos doadores de células-tronco. O modelo é treinado com dados limpos e transformados, e o algoritmo de machine learning é escolhido automaticamente pela interface de usuário do Oracle Machine Learning. Os resultados mostram que o modelo de random forest apresenta o melhor desempenho.
Análise de resultados
A análise dos resultados revela que a idade do doador, o pedido de transplante, a distância do centro de doação e outras características têm um impacto significativo na previsão. O modelo é então implantado em produção e registrado no Oracle Analytics Cloud, tornando-o disponível para uso em fluxos de dados.
Aplcação prática
Finalmente, o modelo é utilizado para construir um dashboard que permite ao pesquisador:
* Identificar doadores compatíveis para um paciente e prever a probabilidade de disponibilidade
* Contatar doadores com alta probabilidade de disponibilidade primeiro, reduzindo o tempo até o transplante
* Analisar a distribuição das respostas previstas, mostrando que 3% dos doadores respondem positivamente a um pedido de doação
* Identificar tendências na disponibilidade dos doadores, como doadores masculinos e jovens tendo maior probabilidade de doar
* Filtrar doadores que provavelmente diriam não e contatá-los para verificar sua disposição atual de doar
* Identificar doadores com tipos de tecido raro de HLA, que podem ser difíceis de encontrar para certos pacientes
* Direcionar grupos étnicos específicos para aumentar o número de doadores registrados e garantir que todos os pacientes tenham uma chance igual de encontrar um doador compatível rapidamente.
Em resumo, a Oracle Analytics Cloud proporciona uma solução completa para a análise de dados de doadores de células-tronco, desde a limpeza e transformação dos dados até a predição da disponibilidade dos doadores. Essa abordagem pode melhorar significativamente o processo de seleção de doadores e reduzir o tempo até o transplante, beneficiando os pacientes que precisam de transplantes de células-tronco.