ENG
Title: Use of Meta-Learning for Recommending Algorithms for Gene Expression Data Analysis
Abstract: Cancer is one of the main causes of death today. Understanding its internal mechanisms and designing computational models capable of improving its diagnosis will have substantial benefits. New sequencing technologies, based on RNA-Seq, have made available a large amount of data that can be used for cancer diagnosis. As the manual analysis of these data is unfeasible, machine learning algorithms have been used successfully. However, each machine learning algorithm has an inductive bias, making it better suited to a given subset of problems. This project studies the use of strategies that improve the selection of classification algorithms for machine learning in the context of data classification. We investigate the potential of using meta-learning to associate characteristics present in a dataset with the most appropriate classification techniques to deal with them in identifying tumors through gene expression, using RNA-Seq and Microarray technology.
Authors: Edesio Alcobaça e André Carvalho
PT
Título: Sistema de meta-aprendizado para recomendação de algoritmos para análise de dados de expressão gênica
Resumo: Câncer é uma das principais causas de morte na atualidade. O entendimento de seus mecanismos internos e o projeto de modelos computacionais capazes de melhorar o seu diagnóstico terão fortes benefícios para a humanidade. Novas tecnologias de sequenciamento, baseadas em RNA-Seq, disponibilizaram uma grande quantidade de dados, que podem ser usados para melhorar o diagnóstico de câncer. Como a análise manual desses dados é inviável, algoritmos de aprendizado de máquina têm sido empregados de forma bem sucedida. Contudo, cada algoritmo de aprendizado de máquina possui um viés indutivo, que faz com que melhor se adeque a conjuntos de dados com um padrão de conformação. Este trabalho investigou o potencial do uso de meta-aprendizado para associar características presentes em um conjunto de dados aos algoritmos de aprendizado de máquina mais adequadas, a fim de extrair modelos com elevada capacidade preditiva desses dados. Mais especificamente, este trabalho buscou recomendar os melhores algoritmos de classificação para serem aplicados a conjuntos dados de expressão gênica. Nesses casos, os algoritmos de classificação induzem modelos preditivos para identificação de tumores por meio de expressão gênica. São utilizados dados de expressão gênica extraídos por uma dentre três tecnologias: RNA-Seq, miRNA-Seq e microarrays.
Autores: Edesio Alcobaça e André Carvalho
Suporte: Fundação de Amparo à Pesquisa do Estado de São Paulo - FAPESP
Para executar os códigos acesse o makefile em 'src/Makefile'