A análise de dados é um passo fundamental no processo de ciência de dados, e a qualidade dos dados é crucial para obter resultados precisos. Neste artigo, vamos apresentar como a Oracle Analytics Cloud pode ser utilizada para melhorar a análise de dados de doadores de células-tronco, desde a limpeza dos dados até a predição da disponibilidade dos doadores.

Limpeza e transformação de dados

A primeira etapa é a limpeza e transformação dos dados, onde o pesquisador identifica problemas de qualidade, como valores nulos, e os substitui por “desconhecido”. Em seguida, os dados são preparados para a análise exploratória.

Análise exploratória

A análise exploratória é realizada criando um dashboard para visualizar os dados, revelando insights importantes, como:

* Distribuição de doadores por etnia, com foco em matrizes de antígenos leucocitários humanos (HLA) raras
* Distribuição de idades, com a maioria dos doadores com mais de 31 anos
* Distribuição geográfica dos doadores em todo o mundo
* Número de doadores contatados para recommitment

Esses insights levam o pesquisador a solicitar uma campanha de marketing para educar a população sobre a importância de doar células-tronco, com foco em doadores jovens e etnias sub-representadas.

Construção de modelo de Machine Learning

Em seguida, o data scientist constrói um modelo de Machine Learning para predizer a disponibilidade dos doadores de células-tronco. O modelo é treinado com dados limpos e transformados, e o algoritmo de machine learning é escolhido automaticamente pela interface de usuário do Oracle Machine Learning. Os resultados mostram que o modelo de random forest apresenta o melhor desempenho.

Análise de resultados

A análise dos resultados revela que a idade do doador, o pedido de transplante, a distância do centro de doação e outras características têm um impacto significativo na previsão. O modelo é então implantado em produção e registrado no Oracle Analytics Cloud, tornando-o disponível para uso em fluxos de dados.

Aplcação prática

Finalmente, o modelo é utilizado para construir um dashboard que permite ao pesquisador:

* Identificar doadores compatíveis para um paciente e prever a probabilidade de disponibilidade
* Contatar doadores com alta probabilidade de disponibilidade primeiro, reduzindo o tempo até o transplante
* Analisar a distribuição das respostas previstas, mostrando que 3% dos doadores respondem positivamente a um pedido de doação
* Identificar tendências na disponibilidade dos doadores, como doadores masculinos e jovens tendo maior probabilidade de doar
* Filtrar doadores que provavelmente diriam não e contatá-los para verificar sua disposição atual de doar
* Identificar doadores com tipos de tecido raro de HLA, que podem ser difíceis de encontrar para certos pacientes
* Direcionar grupos étnicos específicos para aumentar o número de doadores registrados e garantir que todos os pacientes tenham uma chance igual de encontrar um doador compatível rapidamente.

Em resumo, a Oracle Analytics Cloud proporciona uma solução completa para a análise de dados de doadores de células-tronco, desde a limpeza e transformação dos dados até a predição da disponibilidade dos doadores. Essa abordagem pode melhorar significativamente o processo de seleção de doadores e reduzir o tempo até o transplante, beneficiando os pacientes que precisam de transplantes de células-tronco.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *