Les données avant tout

Avant de faire du data mining, il faut générer des données. Quelles données? Toutes les données… Il faut capturer le plus de données possibles sur votre entreprise, vos processus, vos clients, etc. Générer autant de données a un coût, certes. Cependant, dites-vous que les données que vous n’avez pas, vous font perdre des revenus et de l’efficacité potentielle. Cependnat, pour générer de la valeur les données doivent être traçables.

Traçabilité

Source

Il faut générer beaucoup de données, mais pas n’importe comment. En effet, les données ont de la valeur seulement si elles apportent une information supplémentaire. Un test avec une valeur de 87% est une donnée, mais sans contexte cette donnée est inutile. Pour générer de la valeur les données doivent être 100% traçables. La traçabilité est déterminée par deux concepts clefs: le contexte et la relation.

Le contexte nous apporte l’information sur la prise de mesure. Par exemple, 87% est une mesure d’efficacité de charge. La relation nous apporte le lien entre cette mesure et les autres. Par exemple, 87% est une mesure prise sur une batterie avec identifiant unique 0x12_0x34_0x567. Plus le contexte et les relations sont spécifiques et détaillés, meilleur est la traçabilité.

Si votre entreprise utilise encore beaucoup de papier. Il se peut qu’un plan d’industrialisation 4.0 soit d’abord nécessaire. Si votre entreprise possède déjà des fichiers digitalisés répertoriés dans un dédale de fichier Excel, de fichiers CSV, de fichiers textes avec des noms comme « test_2005_12_25.txt », il faudra alors passer un certain temps pour en améliorer la traçabilité. Il se peut qu’un plan industrialisation 4.0 soit, encore une fois, nécessaire pour éviter de continuer à générer des données sous cette forme.

Près pour le data mining

Le but du data mining n’est pas de générer plus de données. La traduction française est plus précise. Il s’agit en effet d’exploration de données. Le but est de trouver une corrélation entre les différentes données dans le but de prédire des tendances, d’orienter des choix, de prendre des décisions, de calculer une métrique, etc.

Data mining est souvent associé avec intelligence artificielle. Parfois c’est la seule solution. Cependant, il n’est pas toujours nécessaire ou avantageux de développer des modèles par apprentissage automatique pour faire du data mining. Un data miner qui n’a qu’un marteau dans son coffre à outil fini par traiter tous les problèmes comme des clous. Chez Innovation Codotek, nous vous proposerons les méthodes appropriées.

Connaissance du domaine

Souvent, les données sont analysées dans un contexte bien particulier. Une connaissance du domaine d’application, de la physique et de la science derrière les données est alors très utile.

Polissage des données

Avant d’en extraire un sens, les données doivent être préparées. Mêmes si elles sont 100% traçables, il se peut que des anomalies soient présentes. Une panne d’électricité, une erreur humaine, un appareil défectueux; tous ces événements brisent les données. Il faut alors corriger, réparer ou éliminer certaines données.

On peut aussi vouloir leur faire subir un pré-traitement pour éliminer des tendances triviales, une variation basse fréquence, du bruit, etc.

Sélection des données

Sélectionner des données peut être une tâche qui nécessite différents types d’algorithmes, d’outil statistiques ou d’intelligence artificielle. La tâche peut être facile, mais elle peut aussi être le cœur du problème. On peut penser ici à des algorithmes de corrélation, d‘apprentissage d’association, de sélection statistique ou à des traitement de signaux sur des données analytiques.

Regroupement des données

Une fois les bonnes données sélectionnées, il est utile de les regrouper pour en faire ressortir les dépendances. On peut penser ici à un algorithme de PCA. Les relations entre les dépendances peuvent alors permettre de classifier les nouvelles données ou d’en ressortir une valeur utile. À ce point-ci, on peut parler d’optimiser la couleur de l’éclairage comme de la correction à appliquer sur un spectre d’interférométrie.

Visualisation des données

Une fois les données regroupées et que les métriques voulues sont ressorties, il faut les mettre en valeur. On peut alors enregistrer ces métriques, les transmettre à des logiciels d’intelligence d’affaire (BI software) ou développer une solution adaptée.

Bien finaliser le travail

Avant de terminer le tout, il faut s’assurer de valider les résultats. Pour ce faire, de nouvelles données sont nécessaires. Nous nous assurons que l’entreprise possède aussi toute la visibilité pour continuer d’utiliser ses données en notre absence. Vous avez des programmeurs à l’interne? Pas de problème! Nos codes sont développés avec les meilleures techniques pour que n’importe quel programmeur s’y retrouve.