Dados do Trabalho


Título

Desvendando as Origens: Desenvolvimento de um classificador de expressão gênica para identificação do sítio primário de metástases de origem primária desconhecida

Introdução

O câncer de origem primária desconhecida (CUP) é um grupo de cânceres definido pela presença de doença metastática de um local de origem não identificado. O CUP representa cerca de 3-5% de todos os diagnósticos de câncer no mundo, e no Brasil são projetados aproximadamente 21.000 novos casos para o triênio de 2023-2025. A identificação do sítio primário de metástase do CUP contribui para um prognóstico mais assertivo e tratamentos específicos melhorando a qualidade de vida do paciente. Abordagens moleculares que identifiquem o tecido de origem são uma alternativa diagnóstica para os casos de CUP.

Objetivo

O objetivo do presente estudo foi realizar o desenvolvimento e validação in silico de um classificador de expressão gênica para identificar sítio primário para cânceres metastáticos.

Métodos

Para o presente estudo, foi compilada uma base de dados de referência (RefBD) para expressão gênica com cerca de 23.000 genes, composta por 6.789 amostras de cânceres conhecidos provenientes de 94 estudos diferentes de microarray, que foram distribuídas em 25 superclasses histológicas de câncer, compreendendo 63 subclasses. Para o desenvolvimento do classificador de expressão gênica, as amostras foram segmentadas em dois conjuntos: treino, com 4.752 amostras (70%) e teste, com 2.037 amostras (30%). Por meio de análises estatísticas do conjunto de treino, foram obtidos 48 genes preditores (5 normalizadores e 43 discriminadores) com alta significância e posteriormente utilizados para a criação de um modelo de aprendizado de máquina por meio de redes neurais artificiais para identificar perfis de expressão específicos e classificar a superclasse de origem das amostras de câncer. Ao final, o classificador foi aplicado e avaliado no conjunto de testes.

Resultados

Para cada amostra tumoral, o classificador de expressão gênica gera uma probabilidade associada a cada uma das 25 superclasses, sendo que a superclasse com a maior probabilidade é atribuída como a classe correta de identificação do sítio de origem daquela amostra. Durante a fase de treinamento, o classificador identificou corretamente 92% das amostras (4.372 de 4.752 amostras). Quando submetido ao conjunto de teste, o classificador identificou corretamente 1.752 amostras de 2.037, apresentando sensibilidade de 86% e precisão de 89%

Conclusões

O classificador de expressão gênica desenvolvido e testado in silico para a identificação da superclasse de origem de amostras de câncer teve alta performance, demonstrando potencial de classificação do sítio primário de metástases de amostras de CUP. Com isso, é possível obter um diagnóstico preciso para auxiliar no direcionamento de tratamentos específicos, melhorando o prognóstico dos pacientes.

Palavras-chave

Câncer de origem primária desconhecida; Aprendizado de máquina; Redes neurais

Financiador do resumo

FAPESP Processo: 2021/12151-0

Área

Pesquisa básica / translacional

Autores

MIRIANE DE OLIVEIRA, Diego Nogueira Vilela, Andrei Félix De Oliveira, Nathalia Campos Rodrigues, Bruna Frizzo Rabelo, Isabela Fernandes Martins, Bruno Mari Fredi, Gustavo Ramos Teixeira, Flavio Mavignier Cárcano, Bruna Moretto Rodrigues, Marcos Tadeu Dos Santos