Sony Hans
Il est tentant de croire que la masse de données accessibles aux entreprises est riche en filons dont l’exploitation fournit automatiquement un avantage concurrentiel. Bien que ce soit vrai en théorie, les choses sont moins simples qu’il y paraît. Pour rendre ces informations opérationnelles, il est crucial d’élaborer une stratégie efficace.
Imaginez les scénarios suivants :
- On vous donne deux analyses complètement différentes de la santé de l’entreprise. Valent-elles quelque chose?
- L’entreprise compile les informations nécessaires, mais votre besoin évolue avant que vous puissiez les exploiter.
- Demander une modification de votre outil d’analyse, comme la mise à jour du tableau de bord ou l’ajout de données supplémentaires, est un véritable casse-tête.
- Vos rapports, bien qu’efficaces pour une analyse de surface, génèrent un flot de questions insolubles sans un investissement important en TI.
Après avoir investi autant d’argent dans un entrepôt de données, les cadres s’attendent à obtenir des informations rapides et fiables sans subir les désagréments susmentionnés.
Explorons ensemble les causes et les stratégies d’atténuation qui s’offrent à nous.
Lutter contre la contamination des données
Le principe « on ne peut pas faire du bon avec du mauvais » s’applique particulièrement ici. L’exportation de données erronées vers des rapports ou des tableaux de bord peut contaminer l’entrepôt de données. Ce problème peut avoir des origines diverses :
- Parfois, certaines données ne sont tout simplement pas disponibles; il arrive aussi qu’elles disparaissent ou que leur intégration dans l’entrepôt de données soit différée.
- Des variations orthographiques dans la base de données pourraient influencer les filtres, par exemple des mots comme « E-Commerce » et « e-commerce », ou des espaces superflues à la fin des mots.
- L’insertion de données dupliquées – par accident ou à cause de sources multiples ou d’appariements erronés entre les tables – peut déformer ou gonfler les chiffres.
- Les données ne sont pas révisées périodiquement.
- Les données sont entrées dans les mauvais champs.
- Des fichiers de données ont été corrompus.
- Il y a eu manipulation des fichiers entre la source et l’intégration dans l’entrepôt. (Surtout si l’envoi est fait manuellement.)
- Les données ont été modifiées manuellement dans l’entrepôt de données.
Réduire la quantité de données erronées
Comment peut-on minimiser les erreurs dans l’entrepôt de données? Commencez par mettre en place des processus pour rationaliser l’intégration des données et des contrôles de validation. Ces stratégies contribuent à la création d’un cadre de gouvernance des données (article en anglais seulement) .
L’élaboration d’un tel cadre demande beaucoup de minutie et pourrait impliquer :
- La création de politiques et de normes
- La surveillance et le contrôle de l’accès aux données
- La mise en place de méthodes d’utilisation des données
- La sécurisation des données
Mettre en place un cadre efficace vous permet d’empêcher la prolifération des données erronées au lieu de les corriger au cas par cas. Si vous utilisez un outil d’ETC pour l’ingestion des données, vous pouvez procéder à une étape de validation ou de contrôle de la qualité. Une gouvernance adéquate permettra à votre entreprise d’économiser du temps et de l’argent et de créer des habitudes saines (et cohérentes) à travers toutes vos équipes de données.
Créer des rapports fiables – Calculs
Maintenant que vous disposez de données épurées, voyons comment générer des rapports fiables. Il est important d’avoir une équipe compétente sur le coup, car la qualité du résultat dépend du travail et de l’interprétation de l’analyste. Voici quelques erreurs courantes à éviter :
- Utiliser une formule incorrecte.
- Ne pas respecter l’ordre des opérations.
- Faire des erreurs de calcul à cause d’une mauvaise compréhension des données.
- Faire des erreurs de calcul à partir de données non normalisées.
C’est sans doute l’aspect le plus complexe, mais aussi le plus crucial de tout le processus. Vous devez pouvoir compter sur une équipe analytique efficace, non seulement capable de comprendre les données et les besoins de l’entreprise, mais aussi de créer des rapports et des tableaux de bord utiles et exploitables.
Outils pour améliorer la précision des rapports
Il existe de nombreux outils pour aider les analystes à mieux comprendre les données avec lesquelles ils travaillent, qu’il s’agisse d’employés internes ou de consultants :
Les dictionnaires de données (disponible en anglais seulement) peuvent fournir des informations précieuses sur le contenu de l’entrepôt de données, le format de conservation des données et les liens entre les éléments. Ils sont particulièrement utiles pour les équipes des TI et les personnes chargées de créer des rapports ou des tableaux de bord. Comprendre la structure des données et de la base de données est essentiel.
Un glossaire d’entreprise (disponible en anglais seulement) pourrait aussi fournir aux utilisateurs finaux des informations sur les données utiles disponibles dans l’entrepôt de données. Il permet de créer un vocabulaire commun, ce qui est pratique lorsque les données proviennent de sources différentes.
Faire des choix éclairés
Puisque quantité ne rime pas forcément avec qualité, évitez d’afficher ou de partager systématiquement toutes vos données. Il est très facile de submerger les utilisateurs sous une avalanche d’informations. Privilégiez l’intégration de données de haute qualité, actualisées régulièrement, pour éviter de « polluer » les résultats pertinents. Si vous utilisez un outil d’ETC pour l’ingestion des données, vous pouvez procéder à une étape de validation ou de contrôle de la qualité. Il est judicieux de collaborer avec un ingénieur de données et un analyste commercial pour identifier les informations à afficher et leur utilité pour la progression de l’entreprise.
Cela dit, un volume plus important de données vous donnera accès à des analyses approfondies, à des options supplémentaires et à des connaissances historiques plus riches. Assurez-vous simplement que votre infrastructure est capable de supporter le volume de données, leur exploitation et la génération des rapports nécessaires.