R++ est un logiciel d’analyse statistique haute performance. Simple, rapide, efficace. Pour mettre les statistiques à la portée de tous.

 

L’analyse statistique dans l’industrie pharmaceutique

Le marché médico-pharmaceutique

L’analyse de données est essentielle pour l’industrie médico-pharmaceutique, tant au niveau de la recherche que du suivi patient. Dans un futur proche, l’implantation d’objets connectés à même le corps humain fournira une source inépuisable de données.

La gestion du big data sera donc au coeur du monde médical de demain et permettra des avancées exceptionnelles… sous réserve que l’on puisse traiter de telle données.

Nos Témoignages

Jean, biostatisticien

Quelle est votre poste ?

Je suis biostatisticien et travaille au service recherche et développement, c’est-à-dire la première étape du médicament.

Quelle usage avez-vous des statistiques ?

Concrètement, les données que j’analyse sont des molécules (lipides, protéines), des séquences ADN et ARN messager.
J’utilise les statistiques pour deux usages : le screen des molécules sur différents modèles et la transcriptomique, qui est l’étude des ARN messager, avec soit du séquençage, soit des arrêts. Nous générons énormément de données, notamment avec la transcriptomique qui nécessite une grande puissance de calcul.

Quels sont les problèmes auxquels vous êtes confrontés ?

J’ai deux problèmes majeurs, tous deux liées à la masse importante de données que nous traitons. Tout d’abord, la transcriptomique peut donner des tableaux de 2000 lignes pour un million de colonnes, c’est du vrai big data ! La phase de nettoyage des données me prend  beaucoup trop de temps (environ 50% du traitement global de chaque étude). Ensuite, j’ai des soucis de data mining. Dès qu’il s’agit d’analyser plusieurs études (voire l’ensemble des études), la puissance est insuffisante. Je dois faire les calculs avec un échantillon aléatoire. Cette solution est forcément moins efficace et moins viable qu’en utilisant toutes les données.

“Le nettoyage des données prend quand même beaucoup de temps au départ : facilement la moitié du temps et pourtant on a un infocentre qui est assez performant. Je dirais 50% de préparation des données, 35% d’analyse et 15% d’export. Et quand c’est du big data, c’est encore plus.

R++, Plus rapide, plus puissant

L’IHM de R++ réduit par 4 le temps de data management.

  • L’option “Graphes en un clic” permet de visualiser en un coup d’oeil pour chaque colonne le graphe correspondant à la nature de la variable. Ainsi, les valeurs aberrantes et erreurs de modalités de l’ensemble du fichier sont toutes immédiatement détectables
  • Le typeur repère les erreurs de types que l’on peut ensuite corriger en quelques secondes
  • L’éditeur de modalités permet de fusionner les modalités (en cas de faute d’orthographe par exemple) ou de modifier leur ordre
  • L’ajout de colonne permet différentes méthodes de discrétisation de variables (dont le célèbre k-means) à portée de clics.

R++ intègre la méthode out-of-core

Pour pouvoir gérer des masses de données aussi importantes que celles de Jean, R++ travaille en “out-of-core”. Cette méthode découpe les calculs en bloc, puis parallélise les calculs et le temps de chargement  :

  • Un premier bloc est chargé en mémoire.
  • Puis simultanément, le premier bloc est traité par le processeur pendant que le deuxième bloc est chargé en mémoire.
  • Puis le deuxième est traité pendant que le troisième est chargé
  • Et ainsi de suite…

Lors de nos expériences (Proof of Concept), nous avons pu traiter sur un ordinateur portable le même volume de données que celui adressable par Neptune, le supercalculateur du CERFACS !

Souhaitez-vous essayer notre logiciel d’analyse de données haute performance

gratuitement et sans engagement

pendant 14 jours ?