Analyse avancée
L’analyse avancée va au-delà des rapports historiques et de l’agrégation de données de l’intelligence d’affaires traditionnelle (BI) et utilise des techniques de modélisation mathématique, probabiliste et statistique pour permettre le traitement prédictif et la prise de décisions automatisées.
Les solutions d’analyse avancées impliquent généralement les charges de travail suivantes :
- Exploration et visualisation interactives de données
- Entraînement de modèle d’apprentissage automatique (Machine Learning)
- Traitement prédictif en temps réel ou par lots
Les architectures d’analyse les plus avancées comprennent une partie ou la totalité des omponents suivants :
- Stockage de données. Les solutions d’analyse avancées nécessitent des données pour former des modèles d’apprentissage automatique. Les scientifiques de la donnée doivent généralement explorer les données pour identifier leurs caractéristiques prédictives et les relations statistiques entre eux et les valeurs qu’ils prédisent (connue sous le nom d’étiquette). L’étiquette prévue peut être une valeur quantitative, comme la valeur financière de quelque chose à l’avenir ou la durée d’un retard de vol en quelques minutes. Ou il peut s’agir d’une classe catégorique, comme « vrai » ou « faux », « retard de vol » ou « aucun retard de vol », ou des catégories comme « faible risque », « risque moyen » ou « risque élevé ».
- Traitement par lots. Pour former un modèle d’apprentissage automatique, vous devez généralement traiter un grand volume de données de formation. La formation du modèle peut prendre un certain temps (de l’ordre de minutes à heures). Cette formation peut être effectuée à l’aide de scripts écrits dans des langues telles que Python ou R, et peut être mis à l’échelle pour réduire le temps de formation en utilisant des plates-formes de traitement distribués comme Apache Spark hébergé dans HDInsight ou un conteneur Docker.
- Ingestion de messages en temps réel. En production, de nombreuses analyses avancées alimentent des flux de données en temps réel vers un modèle prédictif qui a été publié sous forme de service Web. Le flux de données entrant est généralement capturé dans une certaine forme de file d’attente et un moteur de traitement du flux tire les données de cette file d’attente et applique la prédiction aux données d’entrée en temps quasi réel.
- Traitement des flux. Une fois que vous avez un modèle formé, la prédiction (ou la notation) est généralement une opération très rapide (de l’ordre de millisecondes) pour un ensemble donné de fonctionnalités. Après avoir capturé des messages en temps réel, les valeurs de fonctionnalités pertinentes peuvent être transmises au service prédictif pour générer une étiquette prévue.
- Magasin de données analytiques. Dans certains cas, les valeurs d’étiquette prévues sont inscrites au magasin de données analytiques pour les rapports et l’analyse future.
- Analyse et rapports. Comme son nom l’indique, les solutions d’analyse avancées produisent généralement une sorte de rapport ou d’alimentation analytique qui inclut les valeurs de données prévues. Souvent, les valeurs d’étiquettes prévues sont utilisées pour remplir les tableaux de bord en temps réel.
- Orchestration. Bien que l’exploration et la modélisation initiales des données soient effectuées de façon interactive par des scientifiques de la donnée, de nombreuses solutions d’analyse avancée réinforment périodiquement des modèles avec de nouvelles données— affinant continuellement l’exactitude des modèles. Ce recyclage peut être automatisé à l’aide d’un flux de travail orchestré.
Nous pouvons vous aider à mettre de l’ordre dans vos données et à identifier ce qui est le plus précieux pour votre entreprise. Nous commencerons par comprendre vos objectifs d’affaires et votre vision de la croissance, étayés par une solide compréhension de votre univers de données et de vos processus d’affaires existants. Et nous vous aiderons à transformer votre organisation en une entreprise intelligente, prête pour l’avenir.