Le métier de la Data Science (science des données) est un métier interdisciplinaire dont on parle de plus en plus ces dernières années, mais dont le périmètre reste parfois obscur.
Le "Data Scientist" (scientifique des données) est parfois confondu avec le "Data Analyst" (analyste de données). Certains professionnels du secteur ont parfois même des difficultés à définir leur métier. Auparavant, ces professionnels étaient d’ailleurs plutôt appelés des statisticiens.
Qu'est-ce qui distingue alors un Data Scientist et en quoi consiste précisément son rôle ?
Alors qu'un Data Analyst interprète les données pour produire des rapports qui répondent à des questions factuelles, un Data Scientist approfondit ces questions sous l’angle prédictif pour éclairer la prise de décision.
Voici un exemple de problématique par métier :
- Data Analyst : quelle a été la charge de travail du personnel au cours des 12 derniers mois et quelles ont été les causes des éventuelles surcharges ?
- Data Scientist : à partir de la charge de travail du personnel des 12 derniers mois - et des causes des éventuelles surcharges - quelle sera cette charge pour le mois à venir et quelles pourraient être les causes d’une potentielle surcharge ?
L’analyste fournit une interprétation de ses découvertes et propose, le cas échéant, des axes d’amélioration, même si la récurrence des observations n'est pas garantie. Le Data Scientist élabore, quant à lui, des prévisions sur les événements futurs et pourquoi ils peuvent se produire, permettant ainsi de mieux les anticiper et prendre des décisions éclairées.
Les 5 étapes de création d’un algorithme de prévisions
Pour établir ces prévisions, le Data Scientist suit généralement un processus en 5 étapes.
Dans le cas de la solution Predict d’OPTACARE, les données sont traitées, analysées selon la matrice suivante :
1. La collecte des données. Après présentation du projet, les data scientists collectent auprès des établissements de santé les jeux de données anonymisées concernant les arrivées des patients. Pour les trier et en faire une analyse fine, un historique d’au moins 5 ans est requis. Ces jeux de données doivent impérativement provenir de logiciels dont les données sont mises à jour régulièrement pour être analysées quotidiennement, après le déploiement de la solution.
2. L’analyse de la problématique et des données. Elles sont analysées dans leur ensemble et par jour. Ces data concernent par exemple : le nombre de patients arrivés aux urgences, le nombre de patients pris en charge en ambulatoire et en hospitalisation, leur répartition par tranche d’âge, etc… Ce traitement des données permet d’identifier des tendances, comme par exemple l’augmentation des admissions tous les 1er janvier. Chaque anomalie ou événement atypique est consigné.
3. L’analyse du métier étudié. Le Data Scientist s’imprègne de l’activité de son interlocuteur pour identifier des modèles prédictifs pertinents. Une approche du fonctionnement et de la structure de l'organisation cliente est essentielle. Des réunions sont organisées avec différents professionnels des établissements pour évaluer les observations faites et examiner également les éventuelles contraintes liées aux logiciels déjà en place et approfondir la connaissance des métiers concernés. Ces échanges permettent d'enrichir l'analyse avec des perspectives pratiques, par exemple, en comprenant mieux le fonctionnement d'un établissement psychiatrique.
4. La transformation des données. Une fois toutes les informations recueillies, les données sont traitées et transformées, en décomposant par exemple les dates en année, mois, jour et en balisant les jours fériés et vacances scolaires. Cette étape assure une utilisation optimale des données et minimise les erreurs potentielles dans l'algorithme de prévisions, en ajustant et en formatant les données pour une analyse précise.
5. La création de l’algorithme. A cette étape, des modèles mathématiques existants sont utilisés et complétés des derniers travaux de recherche du domaine pour renforcer leur performance. Le processus est itératif et peut nécessiter de revenir aux étapes précédentes pour s’adapter aux différents modèles sélectionnés. Chaque modèle est testé indépendamment et sur diverses périodes pour retenir celui générant les résultats les plus performants.
OPTACARE est engagée dans une démarche R&D et d’amélioration continue afin de proposer les modèles et les prévisions les plus fiables.
L’éthique en Data Science : un devoir indispensable
Le Data Scientist évolue dans un cadre éthique strict. Elle englobe un ensemble de principes et de valeurs qui guident sa conduite dans la collecte, le traitement, l'analyse et l'utilisation des données.
En raison de la nature souvent sensible des données et de leur impact potentiel sur la vie privée, l'éthique revêt une importance cruciale dans le domaine de la Data Science.
Voici quelques principes éthiques auxquels un professionnel est tenu de se conformer :
- Respect de la vie privée : le Data Scientist doit prendre des mesures pour protéger la vie privée des individus dont les données sont utilisées dans leurs analyses. Cela inclut l'anonymisation des données, lorsque cela est possible, et le respect des réglementations en vigueur, telles que le Règlement Général sur la Protection des Données (RGPD) en Europe.
- Transparence : il doit communiquer de manière transparente sur la manière dont les données sont collectées, traitées et utilisées. Cela implique de documenter les méthodes utilisées, de partager les sources de données, et d'expliquer les choix et les limites du modèle.
- Consentement éclairé : Lorsque cela est applicable, obtenir le consentement éclairé des individus dont les données sont utilisées est impératif. Les personnes doivent être informées de la manière dont leurs données sont utilisées et avoir la possibilité d’y consentir ou de s’y opposer.
- Équité : le Data Scientist doit garantir l'équité dans ses analyses. C’est à dire, éviter les biais dans les données et les modèles, en s'assurant que les résultats ne discriminent pas certains groupes de personnes.
- Sécurité des données : la protection des données contre l'accès non autorisé est une préoccupation majeure et il est primordial de mettre en place des mesures de sécurité robustes pour prévenir les atteintes à la sécurité et garantir la confidentialité des données.
- Responsabilité : le Data Scientist est responsable des conséquences de ses résultats. Il doit prendre en compte les implications éthiques de ses travaux et être prêt à assumer la responsabilité des résultats, en particulier s'ils ont un impact sur les individus ou la société.
- Utilité sociale : Le Data Scientist doit mobiliser ses compétences dans l’intérêt de la société. Cela peut impliquer de contribuer à des projets qui ont un impact positif sur la santé, l'éducation, l'environnement, etc...
Ces principes éthiques peuvent varier en fonction du contexte, de l'industrie et des réglementations locales.
Les experts OPTACARE en Data Science sont en permanence formés sur les meilleures pratiques pour s’adapter aux évolutions dans le domaine de l'éthique des données.
[1] Predict est un outil puissant, capable d'anticiper les flux de patients et leur temps d'attente. Il permet, grâce à l’IA, de capitaliser sur les données de santé à travers un historique, pour améliorer la prise en charge aux Urgences et ainsi :
- Anticiper les besoins en lits (BJML)
- Prendre les décisions les plus pertinentes en temps réel
- Mieux intégrer les soins non-programmés aux parcours des soins programmés dans les services aval.
En savoir plus sur PREDICT
◾Prévisions des flux de patients
◾Estimation des temps d'attente
◾Anticipation du BJML