Démystifier les données : guide à l’intention des plaideurs de contentieux pour comprendre l’analyse des données
Démystifier les données : guide à l’intention des plaideurs de contentieux pour comprendre l’analyse des données
L’analyse des données s’est infiltrée dans le monde juridique et nous avons défini un plan directeur d’analyse des données applicable aux produits livrables utilisés dans le cadre d’un litige.
« Monsieur le juge, nous aimerions demander plus de temps. » Plus de temps.
L’inquiétude teintée d’embarras irradie vos membres pendant que vous attendez la réponse du juge et de l’avocat de la partie adverse. Vous pensiez être prêt : le calendrier était défini, l’équipe était réunie et les experts recrutés. Mais vous avez commencé à recevoir les données. Au départ, des fichiers PDF de quelques kilo-octets par courrier électronique, puis des fichiers Excel de plusieurs mégaoctets via SFTP.[1] Puis vous avez reçu les disques durs pleins de téraoctets de fichiers appelés « Fichiers plats ». Des « fichiers plats » contenant des problèmes de « séparateur », d’après ce qu’on vous a dit. Avant même de vous en rendre compte, les rapports d’experts étaient en retard et vous n’avez même pas pu ouvrir les données de votre client jusqu’à la semaine dernière. Et vous voilà donc ici, le cœur battant, dans l’attente d’une réponse.
L’analyse des données est la technologie du futur, comme vous l’avez probablement entendu dire.[2] Theo Epstein, directeur général des Chicago Cubs, a utilisé l’analyse des données pour révolutionner le baseball et briser la malédiction des Bambino et du Billy Goat pour mener les Red Sox et les Cubs de Boston aux World Series.[3] Aujourd’hui, l’analyse des données s’est infiltrée dans le monde du droit et des contentieux. Mais de quoi s’agit-il et comment cette technologie peut-elle être utilisée dans un cadre juridique ?
Lors de la conception d’une stratégie gagnante pour la gestion d’un litige, les avocats et les équipes juridiques des entreprises utilisent des informations pour étayer ou réfuter les allégations. Une énorme quantité d’informations est générée chaque jour par les entreprises et les individus sous la forme de données structurées et non structurées.[4] Du fait de leur volume considérable, il n’est souvent pas facile de comprendre le sens des données. C’est là que l’analyse des données devient importante. L’analyse de données utilise des techniques informatiques pour diviser les données en petites informations faciles à assimiler et à comprendre.[5] Ces informations, que les experts en analyse de données peuvent rassembler et interpréter, peuvent être utilisées dans n’importe quel scénario impliquant la production de grandes quantités de données. Les résultats peuvent être utilisés pour un rapport d’expert, une note juridique ou tout autre produit livrable utilisé dans le cadre d’un litige ou d’une enquête.
Le processus de conversion des données brutes en informations utiles est ce que nous appellerons le « plan directeur d’analyse des données » (le « plan directeur »). Le plan directeur suit six étapes qui, bien que nous les présentions dans l’ordre chronologique, sont en réalité souvent itératives ou exécutées simultanément. C’est la nature de ce processus, en particulier dans le contexte d’un litige où les données sont mises à jour, remplacées ou jugées non pertinentes au fur et à mesure que l’affaire évolue. Il est donc essentiel que des experts en analyse des données soient recrutés longtemps à l’avance et qu’il y ait une communication permanente entre le client, les propriétaires des données, les avocats et les experts.
Plan directeur d’analyse des données
Les six étapes du plan directeur d’analyse des données peuvent être divisées en deux parties. Pour mieux imaginer ces deux parties, on peut établir une analogie avec le processus de peinture d’une maison. La première partie correspond aux tâches fastidieuses: choisir la couleur, poser les toiles de protection, laver les murs, recouvrir les bords, etc. La seconde partie consiste à tirer parti de cette préparation ; c’est la phase la plus facile et la plus enrichissante lorsque vous pouvez enfin commencer à peindre. Lors de l’analyse de données, le travail difficile consiste à définir les objectifs de vos données, à extraire les données et à les valider. La deuxième partie, qui correspond à la phase de la peinture, consiste à demander aux experts en analyse de données d’effectuer l’analyse, de créer le modèle et de rendre compte de leurs résultats.
Chaque étape décrite ici sera suivie d’un exemple d’étude de cas hypothétique. L’étude de cas est un amalgame de cas réels traités par des praticiens expérimentés en analyse judiciaire des données de Stout.
INFORMATIONS GÉNÉRALES RELATIVES À L’ÉTUDE DE CAS
Docs R Us était un prestataire médical qui proposait aux patients un traitement physique par le biais d’un contrat souscrit auprès d’une grande compagnie d’assurance santé. Dans le cadre de ce contrat, les patients pouvaient se rendre dans une clinique Docs R Us pour y recevoir un traitement physique. Docs R Us envoyait ensuite une facture à la compagnie d’assurance pour les services fournis. La compagnie d’assurance payait ensuite Docs R Us sur la base des tarifs contractuels spécifiés. Après plusieurs années, Docs R Us a commencé à suspecter que l’entreprise n’était pas rémunérée aux tarifs contractuels et a donc engagé une action en justice. Docs R Us a engagé une équipe d’experts en analyse judiciaire des données pour déterminer si l’entreprise était sous-payée et, dans l’affirmative, dans quelle mesure.
Partie 1
DÉFINITION
Au cours de la première étape du plan directeur, vous devez définir vos objectifs et vos besoins. Il convient de définir ces objectifs et ces besoins à l’aide des Trois Q : « Quoi ? », « Quand ? » et « Qui ? » « Quoi ? » implique d’identifier les données dont vous avez besoin. Selon le problème, cela peut signifier des données comptables, opérationnelles ou marketing. Il convient de recueillir autant de données que possible au début de l’affaire afin que vos experts puissent se familiariser avec les données disponibles. Vous devez ensuite identifier le « Quand ? », qui définit la période de temps qui vous intéresse. Pour cela, vous pouvez notamment définir la période des dommages ou tout délai de prescription pouvant exister. Enfin, le « Qui ? » identifie les parties et les parties prenantes affectées par l’événement analysé. Cela peut impliquer l’identification des références des produits concernés dans le cas d’un litige lié à un rappel de produits ou des titulaires d’une police d’assurance participant à un recours collectif.
Étude de cas
Les trois Q pour Docs R Us : dans notre étude de cas, l’objectif est de déterminer si Docs R Us était sous-payé et dans quelle mesure. Le « Quoi ? » inclut les données de facturation et de paiement, ainsi que les informations relatives aux tarifs contractuels. Pour répondre au « Quand ? », le contrat conclu par Docs R Us avec la compagnie d’assurance a pris effet en janvier 2005 et a pris fin en décembre 2015. Toutefois, le règles du délai de prescription ont limité la période des dommages de mars 2010 à décembre 2015, définissant ainsi la période des données à demander. Enfin, pour répondre à « Qui ? », les données de Docs R Us incluaient les patients non couverts par la compagnie d’assurance, et les données de paiement incluaient les paiements relatifs à des demandes n’émanant pas de Docs R Us. Il faudrait donc obtenir une liste de numéros de sécurité sociale, ainsi que la liste des numéros d’identification des fournisseurs de Docs R Us.
EXTRACTION
L’extraction de données des systèmes client est souvent la partie la plus complexe du processus d’analyse. L’extraction des données implique de collaborer avec les propriétaires de données, les équipes informatiques et d’autres personnes travaillant sur les données au quotidien. Ces personnes sont souvent tellement intégrées aux données que la langue qu’elles emploient peut ressembler au Dothraki pour un profane.[6]
Une fois que vous avez identifié les systèmes et les emplacements appropriés en collaboration avec les propriétaires des données, l’extraction peut s’avérer compliquée et laborieuse. La mise à niveau des logiciels d’entreprise est une opération longue et coûteuse qui débouche souvent sur des systèmes client obsolètes et inefficaces. De plus, du fait des acquisitions de sociétés externes par des clients, il peut s’avérer nécessaire d’extraire des données depuis plusieurs systèmes ou auprès de sous-traitants. Tous ces facteurs peuvent s’avérer coûteux et prendre beaucoup de temps en cas de litige. Il est donc essentiel que les avocats et les experts en analyse de données travaillent en étroite collaboration avec les propriétaires de données du client pour établir un plan de travail et un calendrier d’extraction dès les premières phases.
Étude de cas
L’affaire Docs R Us a souffert de nombreuses complications susmentionnées. Il a fallu plusieurs semaines de coordination entre les clients et les experts pour faire le lien entre différents systèmes afin d’obtenir un ensemble complet de données. Un facteur particulièrement complexe était un système qui stockait de manière dynamique les tarifs des traitements physiques ; en d’autres termes, le système n’enregistrait pas les tarifs historiques. En conséquence, pour un traitement physique réalisé en 2010, les tarifs reflétaient les prix à la date courante. Nous avons donc dû travailler avec le client pour renseigner systématiquement les tarifs historiques.
VALIDATION
À ce stade du plan directeur, vous avez défini ce que vous voulez faire avec vos données et vous avez planifié comment y parvenir. Vous avez coordonné le travail avec l’équipe de données du client et effectué l’extraction des données. Et maintenant ? Il est temps maintenant de déterminer ce que vous avez et, tout aussi important, ce que vous n’avez pas. Comme l’explique Q. Ethan McCallum dans Bad Data Handbook, « vous ne pouvez pas supposer qu’un nouvel ensemble de données est propre et prêt pour l’analyse. »[7]
C’est lors de la validation des données que vous vous salissez les mains afin d’identifier les éventuelles anomalies, erreurs et autres complications. Les problèmes courants incluent les doublons, les champs incohérents, les problèmes de séparateur et les données manquantes. Il est essentiel de résoudre ces problèmes pour garantir l’intégrité des données, ce qui implique une coordination entre le personnel du client, les avocats et les experts.
Étude de cas
L’affaire Docs R Us a généré des millions d’enregistrements provenant de plusieurs systèmes basés sur la période et le site de prestation du service. Le processus de validation impliquait le rapprochement des dossiers médicaux des patients avec les dossiers de facturation, des dossiers de facturation avec les dossiers de paiement et un échantillonnage périodique des dossiers des patients afin de vérifier leur exactitude et leur conformité avec les directives gouvernementales. Par exemple, certains codes médicaux étaient associés à des tarifs de facturation standardisés de Medicare. Une partie du processus de validation consistait à représenter graphiquement les tarifs associés à ces codes au fil du temps et à s’assurer que la tarification était conforme aux tarifs appliqués par Medicare grâce à la visualisation des données.
Partie 2 – Déduction des données
ANALYSE
L’analyse des données s’appuie sur le travail réalisé pendant l’étape de validation pour commencer à créer des informations utiles. Le travail effectué pendant l’étape d’analyse aide à déterminer comment le modèle sera construit et quels facteurs il doit prendre en compte. Si elle est effectuée pendant la phase de découverte, l’analyse pourrait potentiellement servir à discréditer ou à invalider des données en vue de leur inclusion dans des rapports d’expert.
Étude de cas
Au cours du litige Docs R Us, cinq ensembles de données produites sur les tarifs contractuels ont été reçus. L’analyse à laquelle ces données ont été soumises nous a aidés à rassembler les productions appropriées pour créer un ensemble de données complet et fiable. De son côté, la partie adverse a fait valoir que les données de facturation de Docs R Us étaient incomplètes et ne devraient pas être utilisées dans le cadre du litige. En réponse, les données de facturation de la compagnie d’assurance ont été obtenues et comparées aux données de facturation de Docs R Us. Après des rapprochements rigoureux et un échantillonnage détaillé, l’expert en analyse de données a argumenté avec succès que les données de la compagnie d’assurance, et non celles de Docs R Us, étaient incomplètes.
MODÉLISATION
C’est pendant l’étape de modélisation du plan directeur que vous construisez votre moteur et transformez votre carburant (données) en puissance (informations utiles). Le modèle réel variera en fonction des circonstances du cas et de la sophistication des données disponibles.
Étude de cas
L’étape suivante de l’affaire Docs R Us consistait en la conception du calcul des dommages. Le client a affirmé que les dommages étaient dus à un taux d’indemnisation supérieur à ce qu’il avait réellement perçu. Ainsi, le modèle a soustrait « ce qui aurait dû être payé » de « ce qui a été réellement payé » pour chaque demande pendant la période de dommage et a calculé le total. Bien que ce calcul semble simple en apparence, il est en réalité complexe. Il a fallu des années depuis le début du cas pour parvenir à un modèle complet, avec des complications, notamment celles mentionnées aux étapes Extraction et Validation, ainsi que des mises à jour et des remplacements de données soumis par les deux parties au dossier.
RAPPORT
Selon le contexte du litige, les rapports impliquent généralement un document écrit qui décrit le rôle de l’expert en analyse de données, l’analyse effectuée et les conclusions basées sur l’analyse. Les mesures entreprises au cours du plan directeur doivent être décrites dans ce document afin que le travail effectué soit clair et défendable. Les pièces jointes au rapport constituent un élément crucial du produit final à livrer. Ces pièces peuvent inclure des tableaux récapitulatifs et d’autres supports visuels afin de simplifier l’analyse réalisée pour les destinataires prévus. En outre, ces pièces finissent souvent par constituer des preuves lors des témoignages, des arbitrages ou d’autres procédures. Il est donc essentiel de mettre en place une assurance qualité adéquate pour valider les calculs effectués par l’équipe d’analyse judiciaire des données.
Étude de cas
Le travail d’analyse des données de Docs R Us a abouti à des rapports d’experts initiaux et de réfutation, ainsi qu’à la déposition de l’expert en analyse de données. Les pièces jointes au rapport d’expert impliquaient de nombreuses tranches du calcul des dommages, variant selon l’emplacement, la période et le code médical. Elles incluaient également des estimations des dommages basses, moyennes et élevés pour tenir compte de la manière dont le juge pourrait statuer sur certains arguments. L’affaire a finalement été réglée avec un résultat favorable.[8]
Le plan directeur d’analyse des données fournit une ligne directrice générale sur le fonctionnement de l’analyse des données dans le cadre d’un litige. Bien que le processus puisse être compliqué, une communication et une planification appropriées peuvent éviter des coûts superflus. Il est également crucial de bénéficier du soutien et de l’assentiment à 100 % du client et de l’équipe en charge du litige. Après tout, Theo Epstein ne gagne pas tout seul les World Series.
- Protocole de transfert de fichiers sécurisé (SFTP, Secure File Transfer Protocol).
- Un magazine affilié à l’Association du Barreau américain, l’American Bar Association, a qualifié cette question de « question brûlante » à la mi-2013. Sharon D. Nelson et John W. Simek, « BIG DATA: Big Pain or Big Gain for Lawyers? » Law Practice Magazine, 2013.
- Rany Jazayerli, « The Curious Have Won » The Ringer, 2016.
- Données structurées : données pouvant être immédiatement identifiées dans un fichier électronique, comme une base de données relationnelle, structurées en lignes (enregistrements) et en colonnes (champs). Données non structurées : données au format texte libre dans des documents et des rapports commerciaux, des articles de presse et des réseaux sociaux. Par exemple, les fichiers de traitement de texte, les fichiers PDF, les messages électroniques, les forums Internet, les blogs, les pages Web, les flux Twitter et les pages Facebook contiennent des données non structurées. (Comme défini dans l’encyclopédie PC Mag à l’adresse www.pcmag.com/encyclopedia/)
- Les techniques informatiques impliquent souvent l’utilisation de logiciels bien plus spécialisés que la suite Microsoft Office. Les logiciels de base de données, tels que SQL, SAS, Python ou R, sont fréquemment utilisés par les experts en analyse de données pour manipuler les données brutes.
- Le Dothraki est une langue fictive utilisée dans la série de romans fantastiques A Song of Ice and Fire (Un chant de glace et de feu)écrite par George R. R. Martin et son adaptation pour la télévision, Game of Thrones.
- Q. Ethan McCallum, Bad Data Handbook: Mapping the World of Data Problems. Californie : O’Reilly Media, Inc., 2013.
- L’analyse est de plus en plus utilisée dans le domaine de la santé, y compris au sein de Medicare (Centres de services Medicare et Medicaid). Mary Beth Johnston et Leah D’Aurora Richardson, « Big Data: The Next Revolution in Healthcare Operations », ABA Health eSource, 2016.