Détection d’anomalies dans BigQuery : découvrez des informations cachées et incitez à l’action

Détection d'anomalies dans BigQuery : découvrez des informations cachées et incitez à l'action


Image de starline sur Freepik

À l’ère du Big Data et de l’intelligence artificielle (IA), les anomalies, ou écarts inattendus par rapport à la norme, recèlent des informations précieuses. Identifier et traiter ces anomalies est crucial. Qu’il s’agisse d’une augmentation soudaine du trafic sur un site web, d’une baisse inhabituelle des ventes ou d’une transaction suspecte, la détection des anomalies peut vous alerter très tôt des problèmes ou des opportunités.

Google Cloud BigQuery, avec ses outils et intégrations puissants, offre une plateforme robuste pour la détection des anomalies. BigQuery est un entrepôt de données d’entreprise entièrement géré qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que l’apprentissage automatique, l’analyse géospatiale et la business intelligence. L’architecture sans serveur de BigQuery vous permet d’utiliser des requêtes SQL pour répondre aux principales questions de votre organisation sans aucune gestion de l’infrastructure.

Explorons comment vous pouvez exploiter les capacités de BigQuery et examinons les cas d’utilisation du secteur où la détection des anomalies fait une réelle différence.

Révéler les anomalies dans vos données avec BigQuery

  • BigQuery ML (BQML) : ce service de machine learning intégré à BigQuery simplifie la détection des anomalies. Vous pouvez utiliser des modèles prédéfinis comme ARIMA_PLUS pour les données de séries chronologiques ou le clustering k-means pour la détection d’anomalies non supervisée. Avec seulement quelques lignes de SQL, vous pouvez entraîner des modèles et obtenir des prédictions.
  • Visualisations : BigQuery s’intègre parfaitement aux outils de visualisation de données tels que Looker Studio (anciennement Data Studio), permettant de créer des tableaux de bord et des alertes mettant en évidence les anomalies en temps réel.

Exemple : Détection d’anomalies de séries chronologiques avec ARIMA_PLUS

Prenons un scénario où vous surveillez le trafic d’un site web. Des pics ou des baisses soudaines de trafic peuvent indiquer des problèmes ou des opportunités. Nous utiliserons le modèle ARIMA_PLUS de BQML adapté aux données de séries chronologiques :

1. Préparation des données : Assurez-vous que vos données de séries chronologiques (par exemple, le trafic horaire du site web) sont organisées dans une table BigQuery avec une colonne d’horodatage.

2. Formation sur modèle : Utilisez la requête SQL suivante pour créer et entraîner votre modèle ARIMA_PLUS :

CREATE OR REPLACE MODEL `your_project.your_dataset.website_traffic_model`
OPTIONS(model_type="ARIMA_PLUS") AS
SELECT
DATETIME_TRUNC(timestamp, HOUR) AS timestamp,
traffic
FROM `your_project.your_dataset.website_traffic_table`;

3. Détection des anomalies : Avec votre modèle entraîné, vous pouvez désormais détecter les anomalies à l’aide de la fonction ML.DETECT_ANOMALIES. Cette fonction va sortir un tableau avec les scores d’anomalie, indiquant la probabilité qu’un point de données soit une anomalie :

SELECT * 
FROM ML.DETECT_ANOMALIES(MODEL `your_project.your_dataset.website_traffic_model`,
STRUCT(0.95 AS anomaly_prob_threshold))

4. Visualisation et alertes : Utilisez des outils tels que Looker Studio pour visualiser les résultats et configurer des alertes pour vous avertir lorsque des anomalies se produisent.

Applications industrielles de la détection des anomalies

  • Services financiers :

    • Détection de fraude : Identifiez les transactions inhabituelles qui pourraient signaler une activité frauduleuse.
    • Gestion des risques : Détectez les anomalies dans les données de marché pour gérer les risques d’investissement.
    • Lutte contre le blanchiment d’argent (AML) : Repérez les schémas suspects dans les transactions financières.

  • Commerce électronique :

    • Gestion de l’inventaire : Surveillez la demande de produits et les anomalies de la chaîne d’approvisionnement pour optimiser les niveaux de stocks.
    • Optimisation des prix : Identifiez les écarts de prix ou les changements soudains dans les prix des concurrents.
    • Analyse du comportement des clients : Détectez les modèles inhabituels dans la navigation ou le comportement d’achat des clients.

  • Fabrication :

    • Maintenance prédictive : Analysez les données des capteurs pour détecter les anomalies qui indiquent une panne imminente de l’équipement.
    • Contrôle de qualité : Identifiez les défauts des produits ou des processus avant qu’ils n’affectent les clients.

  • Soins de santé :

    • Détection des épidémies : Surveillez les données de santé publique pour détecter les premiers signes d’épidémies.
    • Surveillance des patients : Détectez les anomalies dans les signes vitaux ou les données des dispositifs médicaux pour alerter les prestataires de soins de santé.

  • Opérations informatiques :

    • Surveillance du réseau : Identifiez les modèles de trafic inhabituels qui pourraient signaler des menaces de sécurité ou des problèmes de réseau.
    • Optimisation des performances du système : Détectez les anomalies dans les journaux du serveur ou des applications pour améliorer les performances du système.

Bonnes pratiques pour la détection des anomalies dans BigQuery :

  • Choisissez le bon algorithme : Le meilleur algorithme de détection des anomalies dépend de votre type de données (série chronologique, catégorielle, etc.) et du cas d’utilisation spécifique.
  • Préparation des données : Assurez-vous que vos données sont propres, cohérentes et correctement formatées avant de former des modèles.
  • Évaluation du modèle : Évaluez et affinez en permanence vos modèles de détection d’anomalies pour maintenir leur précision et leur pertinence.
  • Alertes exploitables : Définissez des seuils et des déclencheurs clairs pour les alertes afin de garantir que les anomalies sont traitées rapidement.

Adopter la puissance de la détection des anomalies

La détection des anomalies ne consiste pas seulement à identifier les valeurs aberrantes ; il s’agit de découvrir des informations cachées qui favorisent une meilleure prise de décision et des réponses proactives. En tirant parti des fonctionnalités robustes de BigQuery, vous pouvez transformer vos données en un actif précieux qui vous aide à garder une longueur d’avance. Commencez dès aujourd’hui à explorer le potentiel de la détection des anomalies dans votre secteur et libérez la puissance de vos données !

Nivedita Kumari est une professionnelle chevronnée de l’analyse de données et de l’IA avec plus de 8 ans d’expérience. Dans son rôle actuel, en tant qu’ingénieur client Data Analytics chez Google, elle s’engage constamment avec des cadres de niveau C, les aide à concevoir des solutions de données et les guide sur les meilleures pratiques pour créer des solutions de données et d’apprentissage automatique sur Google Cloud. Nivedita a obtenu sa maîtrise en gestion technologique avec une spécialisation en analyse de données à l’Université de l’Illinois à Urbana-Champaign. Elle souhaite démocratiser l’apprentissage automatique et l’IA, en éliminant les barrières techniques afin que chacun puisse faire partie de cette technologie transformatrice. Elle partage ses connaissances et son expérience avec la communauté des développeurs en créant des tutoriels, des guides, des articles d’opinion et des démonstrations de codage. Connectez-vous avec Nivedita sur LinkedIn.

Source