Meina Zhou
Dans les prochaines lignes, j’aimerais explorer la façon de concevoir un tel système sous l’angle technique. J’aborderai les étapes fondamentales de création d’un système de détection de la fraude ainsi que les éléments clés qui sont liés à chacune d’elles.
Étape 1 : Définir les objectifs de projet, les paramètres d’évaluation et les ressources à affecter au projet
La première étape de tout projet en science des données est d’en déterminer les objectifs :
- Quels cas de fraude souhaitons-nous identifier?
- Quelles techniques d’analytique avons-nous déjà mises en place pour lutter contre la fraude?
- Quels paramètres clés nous permettront d’évaluer l’efficacité de notre système de détection?
- Quel type et quel nombre de développeurs nous faut-il pour créer le système de détection de la fraude?
Étape 2 : Cibler les bonnes sources de données
Une fois les objectifs commerciaux confirmés et communiqués, il faut désigner les sources de données appropriées et y puiser.
Parmi les sources communes pour la détection de fraude, on compte :
- le profil des clients;
- le profil de risque;
- l’utilisation des produits;
- les données de facturation.
Des données supplémentaires pourraient également provenir de vendeurs de données tiers. Par exemple, pour le secteur des services financiers, nous intégrons au modèle que nous concevons des données de conformité gouvernementale (liste de sanctions aux États-Unis, liste des sanctions canadiennes, et règlements).
Étape 3 : Concevoir l’architecture du système de détection de la fraude
Plusieurs facteurs jouent un rôle important lors de la conception de l’architecture du système de détection de la fraude.
Fréquence de détection : établit la fréquence à laquelle les nouvelles données sont vérifiées par notre système de notation.
Flux opérationnel de prévention de la fraude : joue sur la façon dont les différents événements sont signalés comme suspects, sur les facteurs qui déclenchent ces signalements, ainsi que sur la façon de traiter et de vérifier ces cas par la suite.
Précision de la notation : nous aide à évaluer l’efficacité de notre modèle de notation de la fraude.
Étape 4 : Développer les pipelines de transformation, d’ingénierie et de modélisation des données
Activités clés
Après avoir imaginé l’architecture de détection de la fraude, nous lançons le développement de pipelines de transformation, d’ingénierie et de modélisation des données. Vous trouverez une liste des activités clés de chacun de ces pipelines dans le graphique ci-dessous.
- Pour le pipeline d’ingénierie des données, il nous faut acquérir et fusionner des données de sources diverses, les agréger en fonction de paramètres d’affaires et établir des processus par lots.
- Pour le pipeline de transformation des données, l’objectif principal consiste à améliorer la qualité des données, à traiter les problèmes comme les données manquantes ou erronées, puis à convertir les données pour les intégrer aux modèles d’apprentissage automatique.
- Pour le pipeline de modèle d’apprentissage automatique, nous nous concentrons sur la conception et la comparaison de modèles d’apprentissage automatique diversifiés en fonction de paramètres d’affaires clés. Un module de test automatisé de la précision et d’apprentissage en continu est une nécessité dans l’environnement de production pour éviter les problèmes de dérèglement de modèle.
Étape 5 : Intégrer le modèle dans le système de gestion des cas
La dernière étape consiste à intégrer le modèle d’apprentissage automatique le plus efficace dans le système de gestion des cas. Il est possible de hiérarchiser les niveaux de risque de chacun des cas en fonction des cotes de risque que nous avons générées. Ensuite, une liste des cas très suspects sera envoyée et assignée aux responsables des relations à des fins d’examen dans le système de gestion des cas.