L’analyse de données est essentielle pour l’industrie médico-pharmaceutique, tant au niveau de la recherche que du suivi patient. Dans un futur proche, l’implantation d’objets connectés à même le corps humain fournira une source inépuisable de données.
La gestion du big data sera donc au coeur du monde médical de demain et permettra des avancées exceptionnelles… sous réserve que l’on puisse traiter de telle données.
Jean, biostatisticien
Quelle est votre poste ?
Je suis biostatisticien et travaille au service recherche et développement, c’est-à-dire la première étape du médicament.
Quelle usage avez-vous des statistiques ?
Concrètement, les données que j’analyse sont des molécules (lipides, protéines), des séquences ADN et ARN messager.
J’utilise les statistiques pour deux usages : le screen des molécules sur différents modèles et la transcriptomique, qui est l’étude des ARN messager, avec soit du séquençage, soit des arrêts. Nous générons énormément de données, notamment avec la transcriptomique qui nécessite une grande puissance de calcul.
Quels sont les problèmes auxquels vous êtes confrontés ?
J’ai deux problèmes majeurs, tous deux liées à la masse importante de données que nous traitons. Tout d’abord, la transcriptomique peut donner des tableaux de 2000 lignes pour un million de colonnes, c’est du vrai big data ! La phase de nettoyage des données me prend beaucoup trop de temps (environ 50% du traitement global de chaque étude). Ensuite, j’ai des soucis de data mining. Dès qu’il s’agit d’analyser plusieurs études (voire l’ensemble des études), la puissance est insuffisante. Je dois faire les calculs avec un échantillon aléatoire. Cette solution est forcément moins efficace et moins viable qu’en utilisant toutes les données.
Pour pouvoir gérer des masses de données aussi importantes que celles de Jean, R++ travaille en “out-of-core”. Cette méthode découpe les calculs en bloc, puis parallélise les calculs et le temps de chargement :
Lors de nos expériences (Proof of Concept), nous avons pu traiter sur un ordinateur portable le même volume de données que celui adressable par Neptune, le supercalculateur du CERFACS !