Data visualisation, Tableau ou Qlik Sense ?

Comment départager ces deux leaders de la data alors que tous deux partagent la même note 4,3/5 avec des avis favorables de GARTNER ?

QLIK est reconnu pour la Data Visualisation et le mapping de données. Il est également efficient en analyse (avec Qlik Analytics Engine) et en data discovery. Vous pouvez ainsi créer des pipelines à partir de plusieurs sources de données et profiter du machine learning pour mieux les trier.
Son point fort ? La contextualisation. Il se concentre surtout sur l’association de données, c’est à dire la découverte de relations entre elles.
En terme de sécurité, Qlik offre une forte granularité et des capacités de contrôles d’accès avancées.

TABLEAU est quant à lui reconnu pour l’interactivité de sa data visualisation et ne nécessite pas de scripts avancés ni de macros compliquées pour pourvoir commencer à l’utiliser, c’est un outil très intuitif.
Il capte également de nombreuses sources de données : bases de données, services clouds, Google analytics, etc.
Son point fort ? Il va très loin notamment en analyses #statistiques, multidimensionnelles, prédictives et comportementales. Tableau met l’accent sur l’exploration des données et incite les utilisateurs à créer leurs propres modèles de recherche. Ainsi, pour concevoir des rapports pertinents, Tableau peut donc nécessiter davantage d’expertises technique …

Leurs points communs ?

  • Tous les deux utilisent l’apprentissage automatique (ML) pour identifier les tendances et construire des modèles robustes, mais Tableau nécessite beaucoup moins d’expertise technique.
  • Tous deux prennent en charge un large éventail d’appareils, de systèmes d’exploitation et de plateformes web et mobiles. Les données et les rapports sont accessibles depuis pratiquement tous les appareils. Les deux sociétés offrent des communautés solides et offrent un excellent support.
  • Les deux outils offrent un bon niveau de sécurité. Ils s’appuient sur des sources de données fiables et d’autres aspects essentiels de la sécurité de l’entreprise, mais Qlik propose un système plus robuste en ce domaine.
techrepublic.com

Source : https://www.techrepublic.com/article/qlik-vs-tableau/

Data Cloud Platforms, comparatif entre Snowflake et Databricks.

Comment choisir la bonne solution pour vous ? Déjà, ces produits ne sont pas – en théorie – comparables en termes d’usages.

Snowflake est un Data Warehouse dans le cloud (SaaS) qui permet de collecter et de consolider les données dans un endroit centralisé à des fins d’analyse (Business Intelligence). Il est opérable avec les principaux clouders (Azure, GCP, AWS).

Comme pour un entrepôt de données classique, on utilise SQL pour faire des requêtes, créer des rapports et des tableaux de bord. Nous sommes clairement dans l’analyse et le reporting. Il a d’ailleurs été créé pour optimiser les performances des DWH traditionnels et faciliter la tâche des analystes. En revanche, il n’est pas optimisé pour traiter du Big Data en flux continu à date… même s’il est dans la roadmap de l’éditeur de s’ouvrir à d’autres langages comme Java, Python et Scala et de prendre en charge des données non structurées.


Databricks n’est pas un data warehouse … mais un data lake dédié aux environnements Big Data où il faut stocker de fortes volumétries de données brutes non traitées. Cette solution est à privilégier en Machine Learning, en streaming de données (ELT) et en data science. Elle supporte plusieurs langages de développement mais nécessite des compétences avancées en ingénierie de la data.

Basé sur Spark, Databricks peut faire tout ce que fait Snowflake et plus encore… mais cela reste un outil complexe ! L’optimisation de la plateforme et la conception d’un lake house fonctionnel prend du temps et la maintenance est loin d’être aisée, contrairement à Snowflake.

Snowflake et databricks ne sont également pas comparables en termes d’architectures.

Snowflake est une solution serverless avec des couches séparées pour le stockage et le traitement des données à l’aide de clusters de calcul composés de plusieurs nœuds MPP. Tout est automatisé : taille des fichiers, compression, structure, métadonnées, statistiques (…) objets qui ne sont pas directement visibles par l’utilisateur et auxquels on ne peut accéder que par des requêtes SQL.

Databricks est aussi une solution serverless en SaaS et fonctionne aussi sur Azure, AWS et GCP … mais l’architecture, basée sur Spark, est complètement différente avec :

  • Le delta lake avec 3 types de tables : Bronze pour les données brutes, Silver pour celles nettoyées mais impropres à la consommation en état et les Gold pour les propres
  • Le Delta Engine, un moteur de requête haute performance pour optimiser les charges de travail.
  • Notebooks qui comprend du code réutilisable et qui permet via une interface web de construire des modèles en utilisant Scala, R, SQL et Python.
  • ML Flow qui permet de configurer des environnements ML et d’exécuter des tests à partir de bibliothèques existantes.

Source : https://medium.com/operationalanalytics/databricks-vs-snowflake-the-definitive-guide-628b0a7b4719

Tendances. Les plateformes de machine learning ont le vent en poupe !

Cette situation de crise pandémique mondiale profite clairement aux technologies d’IA et de ML, propulsées en deux ans en actifs stratégiques (…même si de nombreux projets peinent encore à sortir de la phase expérimentale).


Les entreprises ont en effet pris conscience de l’urgence d’accélérer sur des technologies de data avancées car l’humain a été fortement impacté : pénurie de main d’œuvre, remote work, confinement, …
Le saviez-vous ? Un quart des entreprises utilisent déjà l’IA dans l’automatisation dans leurs processus / systèmes… et 51% prévoient de le faire à court terme. On parle, selon Forrester, d’investissements entre 2,4 et 3,3 milliards d’euros en Europe en 2022.

Les promesses ? Rationalisation, #automatisation des tâches, désengorgement sur ce qui est faiblement générateur de valeur ajoutée, gains d’efficacité, économies…

Un marché très dynamique et particulièrement innovant où il va falloir faire son choix parmi les plateformes ML d’acteurs tels que DataikuRapidMinerDataRobotAlteryxH2O.aiDatabricksSAS ou encore IBM également très actifs en ce domaine.

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering

Top 10 des outils incontournables à l’usage des ingénieurs Data

Voici une sélection de 10 outils incontournables à l’usage des ingénieurs Data !

Pour concevoir et mettre en place une infrastructure robuste et efficace, un consultant data doit maîtriser différents langages de programmation, des outils de Data Management, des data warehouses, des outils de traitement des données, d’analyse mais aussi d’ IA et de ML.

  1. Python, la norme en terme de langage de programmation pour coder notamment des frameworks ETL, les interactions entre des API, automatiser certaines tâches, etc.
  2. SQL pour toutes les requêtes mêmes les plus complexes
  3. PostgreSQL, la base de données open source la plus populaire
  4. MongoDB, la base de données NoSQL pour sa capacité à traiter également les données non structurées sur de très larges volumes
  5. Spark pour sa capacité à capter et à traiter des flux de données en temps réel à grand échelle. De plus, il prend en charge de nombreux langages tels que Java, Scala, R et Python
  6. Kafka, la plateforme de streaming de données open source
  7. Redshift (Amazon), le datawarehouse dans le cloud conçu pour stocker et analyser des données sur de fortes volumétries
  8. Snowflake, la cloud Data Platform devenue incontournable aujourd’hui
  9. Amazon Athena, l’outil serverless de query interactif qui vous aide à analyser des données non structurées, semi-structurées et structurées stockées dans Amazon S3 (Amazon Simple Storage Service)
  10. Airflow (Apache) pour orchestrer et planifier les pipelines de données

La source : geek culture