Zoom sur les éditeurs incontournables en plateformes analytiques et Business Intelligence.

D’après Gartner, il est désormais essentiel que les plateformes s’intègrent davantage dans un écosystème analytique plus global qui comprend les outils métiers mais aussi la data science qui restait jusqu’à présent encore à part. La plupart comprennent déjà des fonctionnalités d’Intelligence Artificielle comme la langage naturel et la génération de rapport / KPI automatisés qui permettent aux utilisateurs métiers de mieux d’approprier les outils.

Les leaders de cette année ? (et pour la 2ème année !)

Microsoft avec PowerBI toujours au-dessus de la mêlée (déjà pour son bon rapport qualité / prix et ses fonctionnalités enrichies avec Azure notamment en Machine Learning), Salesforce avec Tableau et Qlik.

A noter aussi l’intérêt croissant des outils comme Looker et QuickSight qui ont l’intérêt de se plugger sur plusieurs environnements technologiques. Ce qui permet de rester indépendant face aux poids croissants des géants technologiques…

Microstrategy reste aussi un incontournable ❤

« Au lieu d’un environnement de BI distinct situé au-dessus d’une base de données, dans lequel les informations doivent être déplacées dans les deux sens, une forme de symbiose s’instaure. Dans ce cadre, une telle plateforme embarque des fonctionnalités d’interrogation des données et d’analytique et ne nécessite pas des flux ETL incessants en direction d’un SGBD. L’autre pendant de ce phénomène est reflété par les solutions de BI embarquées dans les environnements de travail des métiers. Il existe donc plusieurs écosystèmes analytiques.
Enfin, la BI doit faire partie d’une plateforme analytique de bout en bout. Celle-ci doit inclure la capture des données, les capacités d’analyse, jusqu’à la prise de décision. »

Austin Kronz, l’un des auteurs de ce rapport (propos repris par Le Mag IT)

Bienvenue à la génération XOps !

Ops (ou Operators en anglais), c’est le buzzword qui n’en finit pas de buzzer. L’idée sous-jacente est de rendre tout « opérationnable » (c’est-à-dire aligné sur les priorités business pour créer plus de valeur). On a déjà le FinOps, le RevOps … mais parlons de XOps !


C’est le phénomène de fond qui agite le monde de l’ingénierie de la Data à laquelle nous appartenons chez Smartpoint.
Il faut rappeler que Gartner l’a identifié dans son top des 10 tendances à suivre l’année dernière (à lire ici).

Déjà XOps comprend dans les faits DataOps, MLOps, ModelOps et PlatformOps.


Le principe ? Le XOps se base sur les meilleurs pratiques du DevOps (et historiquement du lean) pour être plus efficace et faire des économies d’échelle.

L’objectif est de :

  • Automatiser pour accélérer et endiguer la duplication de technologies et la multiplication de processus (et autres workflows) dès que c’est possible
  • Concevoir une stack technologique de qualité, résiliente, réutilisable, évolutive et qui fonctionne dans la durée.

La nouveauté est qu’on intègre désormais l’IA et le ML … et surtout qu’on ne réfléchit plus à ce qui pourrait être rationalisé et automatisé à postériori mais bien dès la phase de conception.

Concrètement le XOps accélère l’ensemble des processus, lutte contre le gaspillage technologique et améliore la qualité des livrables des produits (DevOps et désormais DevSecOps), des données et leur analyse (DataOps) et des modèles d’IA (MLOps).

Dernier né des Ops ✨ ?
Le ClouOps qui se concentre sur l’orchestration alors que les stratégies multi-cloud se développent dans les entreprises.

Bienvenue à la génération XOPS

Data Platform, le point sur la stack technologique dont vous avez besoin.

Les technologies open source comme propriétaires sont pléthores. Certains éditeurs affirment qu’ils prennent en charge toutes les couches nécessaires, d’autres outils sont quant à eux plus spécialisés sur une brique en particulier.  Par ailleurs, vous avez aussi des actifs technologiques, des investissements passés et des spécificités propres à votre activité qui vous impose un choix best-of-breed.

Bien entendu en fonction de votre secteur d’activité, la structure de votre entreprise, votre consommation de données et l’exploitation que vous souhaitez en faire, la combinaison des outils et des technologies ne sera pas la même ! Et non, Il n’existe pas de solution « standard »…

Une plateforme de données se décompose dans les faits en différents composants essentiels ou couches : la capture des données, le stockage et le traitement, la transformation, la modélisation, la BI et les Analytics, l’observabilité et enfin la data discovery. Voici un rapide état des lieux.

  1. L’ingestion des données ou process d’extraction des données (structurées ou non) à partir de multiples sources de données. Même s’il est possible de développer votre propre framework spécifique, il existe aujourd’hui pléthore de solutions reconnues comme Informatica, Talend, IBM (Datastage) Fivetran, Denodo (…) mais aussi des outils en open source comme Stitch, Airbyte, Apache Kafka (event streaming). Il est également recommandé de mettre en place une orchestration des tâches et une automatisation des flux de travail avec Apache Airflow et Dagster par exemple.
  2. Le stockage et le traitement des données. Avec le move-to-the-cloud, de nombreuses alternatives au stockage on-premise existent désormais pour plus de flexibilité et d’évolutivité dans la durée avec les data Warehouses cloud natifs, les data lakes et les data lakehouses. Entre d’ailleurs Snowflake et Databricks, qui choisir, nous vous invitons à lire https://www.smartpoint.fr/choisir-snowflake-databricks/. L’architecture serverless de BigQuery (Google) est également intéressante pour la rapidité des requêtes et des traitements sans compter que Google vient de lancer BigLake pour la gouvernance et l’analyse de données en provenance de DW et de datalakes répartis sur différents clouds. Citons également Microsoft Azure, Amazon Redshift et à suivre Firebolt (SQL) pour les performances.
  3. La transformation puis la modélisation des données. Oracle, IBM et SSIS (Microsoft) sont incontournables en termes de solutions proposées ainsi que l’outil leader en open source, dbt (data build tool). Dataform (qui fait partie de GCP depuis 2 ans) est également un outil intéressant pour cette étape qui permet de préparer les données pour l’étape la plus importante pour vos utilisateurs : l’analyse !
  4. La BI et les analytics. Cette couche est le graal de toute Data Cloud Platform car c’est ici que les données vont prendre du sens. Les outils sont de plus en plus visuels, intuitifs et interactifs. Citons les incontournables Power BI (MS), Qlik, Tableau et Microstrategy mais aussi Looker (environnement big data / google), Mode (Datascience avec R), ThoughtSpot et Yellowfin. Les solutions sont très nombreuses et la bonne solution dépend surtout des choix que vous avez fait dans la stack technologique qui constitue votre plateforme de données … Voici le classement de Gartner https://www.gartner.com/reviews/market/analytics-business-intelligence-platforms
  5. L’observabilité des données. Vous devez pouvoir compter sur des données de confiance, fiables et exploitables. Cette couche de monitoring des données vous permet de surveiller et d’être alertés sur les anomalies : la fraicheur, la manière dont elles sont distribuées, le respect du format, si elles ont été altérées, le lineage, etc. Cela vous permet également de cartographier les incidents. En termes de solutions, les acteurs sont nombreux entre ceux qui viennent des solutions de surveillance de l’infrastructure IT ou des failles de sécurité, sans parler des pure players. Citons les solutions d’IBM, Dynatrace, Splunk, DataDog, Microsoft et encore AWS.
  6. La data discovery. Cette nouvelle génération d’outils vient remplacer le fameux dictionnaire ou catalogue de données qui historiquement était fait de manière manuelle donc par nature peu évolutif et qui a atteint ses limites. En effet, les flux de données se multiplient, elles sont de plus en complexes, volumétriques, en temps réel et non structurées. La data discovery permet d’explorer vos données pour trouver des dépendances, faire émerger des tendances, des modèles ou au contraire identifier des anomalies qui vont demander une exploration plus approfondie. Ces solutions sont désormais enrichies en machine learning pour une vue exhaustive et en temps réel de l’ensemble de vos actifs … alors même que vos données évoluent. Chez Smartpoint, nous utilisons les solutions de SAS Visual Analytics et de Tibco.

Pour aller plus loin :

https://towardsdatascience.com/the-quick-and-dirty-guide-to-building-your-data-platform-2f21dc4b7c94

Bilan carbone

Le point sur le bilan carbone de BI Newvision, une marque Smartpoint

Trier, recycler, éviter d’imprimer ou d’échanger des mails avec de lourdes pièces jointes en favorisant le travail collaboratif… notre démarche RSE ne s’arrête pas là et cela commence par faire notre bilan carbone. 
Il est important pour nous de calculer l’ensemble des émissions de gaz à effet de serre de notre entreprise.

Nous avons choisi Greenly afin de s’engager concrètement pour le climat et réduire nos émissions CO2.
Voici déjà le point sur l’empreinte carbone de BI Newvision, une société Smartpoint. Ce premier bilan nous a donné de manière globale un aperçu rapide de nos émissions, ce qui nous a permis de distinguer les principaux postes d’émissions.
En additionnant toutes les émissions, BI Newvision a une empreinte de 373t CO2.
Notre principal poste d’émission est l’achat de services (95,1%), suivi des émissions liées au déplacement (3%).

Bilan Carbone BI NEWVISION

Smartpoint rejoint Planet Tech’Care.

Nous sommes fiers aujourd’hui de nous associer à numeum et de rejoindre la communauté de Planet Tech’Care 🌍.

Smartpoint milite pour un numérique plus responsable et se mobilise pour réduire l’empreinte environnementale de la Tech. Cela fait partie intégrante des valeurs qui nous animent au quotidien et nous sommes déjà très engagés sur ces sujets.

  • Nous prônons notamment une utilisation éthique des données, moins énergivore et conforme dès la conception (RGPD).
  • Nous privilégions une approche Smart Data pour lutter contre le Data Swamp, ces entrepôts de données qui stockent des données inutiles, et permettre une exploitation des données plus durable.


Certes, le nombre de données collectées en provenance de sources très diverses connait une croissance exponentielle. Nos clients ont besoin d’avoir accès en temps réel à des bases toujours plus volumétriques pour extraire du sens et mieux les exploiter pour gagner en efficacité opérationnelle.
… en revanche, rien ne sert de stocker des data qui ne seront jamais utilisées ou peu, cela ne fait qu’alourdir la gestion des données, la consommation des ressources, les performances globales… et cela n’est pas responsable, ni éthique.

PlanetTech’Care a été officiellement lancé le 8 octobre 2021 lors du colloque « Numérique et environnement : faisons converger les transitions » organisé conjointement par le Ministère de la Transition écologique, le Ministère de l’Économie, des Finances et de la Relance et le Secrétariat d’Etat en charge de la Transition numérique et des Communications électroniques.

Vous aussi, rejoignez le mouvement !

Data Cloud Platforms, comparatif entre Snowflake et Databricks.

Comment choisir la bonne solution pour vous ? Déjà, ces produits ne sont pas – en théorie – comparables en termes d’usages.

Snowflake est un Data Warehouse dans le cloud (SaaS) qui permet de collecter et de consolider les données dans un endroit centralisé à des fins d’analyse (Business Intelligence). Il est opérable avec les principaux clouders (Azure, GCP, AWS).

Comme pour un entrepôt de données classique, on utilise SQL pour faire des requêtes, créer des rapports et des tableaux de bord. Nous sommes clairement dans l’analyse et le reporting. Il a d’ailleurs été créé pour optimiser les performances des DWH traditionnels et faciliter la tâche des analystes. En revanche, il n’est pas optimisé pour traiter du Big Data en flux continu à date… même s’il est dans la roadmap de l’éditeur de s’ouvrir à d’autres langages comme Java, Python et Scala et de prendre en charge des données non structurées.


Databricks n’est pas un data warehouse … mais un data lake dédié aux environnements Big Data où il faut stocker de fortes volumétries de données brutes non traitées. Cette solution est à privilégier en Machine Learning, en streaming de données (ELT) et en data science. Elle supporte plusieurs langages de développement mais nécessite des compétences avancées en ingénierie de la data.

Basé sur Spark, Databricks peut faire tout ce que fait Snowflake et plus encore… mais cela reste un outil complexe ! L’optimisation de la plateforme et la conception d’un lake house fonctionnel prend du temps et la maintenance est loin d’être aisée, contrairement à Snowflake.

Snowflake et databricks ne sont également pas comparables en termes d’architectures.

Snowflake est une solution serverless avec des couches séparées pour le stockage et le traitement des données à l’aide de clusters de calcul composés de plusieurs nœuds MPP. Tout est automatisé : taille des fichiers, compression, structure, métadonnées, statistiques (…) objets qui ne sont pas directement visibles par l’utilisateur et auxquels on ne peut accéder que par des requêtes SQL.

Databricks est aussi une solution serverless en SaaS et fonctionne aussi sur Azure, AWS et GCP … mais l’architecture, basée sur Spark, est complètement différente avec :

  • Le delta lake avec 3 types de tables : Bronze pour les données brutes, Silver pour celles nettoyées mais impropres à la consommation en état et les Gold pour les propres
  • Le Delta Engine, un moteur de requête haute performance pour optimiser les charges de travail.
  • Notebooks qui comprend du code réutilisable et qui permet via une interface web de construire des modèles en utilisant Scala, R, SQL et Python.
  • ML Flow qui permet de configurer des environnements ML et d’exécuter des tests à partir de bibliothèques existantes.

Source : https://medium.com/operationalanalytics/databricks-vs-snowflake-the-definitive-guide-628b0a7b4719

Back to the basics ! Zoom sur les différences entre un data warehouse dans le cloud, un data lake et data lakehouse.

  • Un data Warehouse est une base de données analytique centralisée qui stocke les données déjà structurées. Il est utilisé par des analystes qui maîtrisent parfaitement le langage SQL et savent donc manipuler les données. Les données sont optimisées et transformées pour être accessibles très rapidement à des fins d’analyses, de génération de rapports et des tableaux de bords de pilotage des entreprises.
  • Un data lake collecte et stocke lui aussi des données mais il a été conçu pour traiter les Big Data, c’est-à-dire pour de fortes volumétries de données brutes, non structurées ou semi-structurées. Les data lakes sont à privilégier dans le cas d’un traitement en continu et d’une gestion en temps réel des données. Les données sont généralement stockées en prévision d’une utilisation ultérieure. Comme elles sont de natures brutes et non traitées, il est nécessaire de faire appel à un Data Scientist lorsqu’on souhaite les exploiter. Généralement, le datalake est utilisé pour le traitement par lots. Il permet notamment l’utilisation d’ELT en libre-service (par ex Informatica) pour automatiser l’ingestion et le traitement des données, ce qui permet de réduire la complexité de la conception et la maintenance des pipelines de données.
  • Un data Lakehouse, c’est une nouvelle architecture qui réconcilie en théorie le meilleur des deux mondes entre l’entrepôt de donnée et le data lake en une seule plateforme ! Le data lakehouse permet d’éviter la multiplication des moteurs de requêtes en exécutant des analyses directement dans le data lake lui-même.

À suivre ? les solutions proposées par Databricks …

Data stack 2022, zoom sur trois phénomènes à suivre de près.

C’est la révolution annoncée dans la collecte de données via une intégration facilitée avec un niveau de simplicité jamais atteint jusqu’alors. Les outils offrent toujours plus de vitesse dans l’accessibilité aux données via la mise en place de pipelines de données automatisés avec des outils comme le ELT (Extract Load Transform) qui charge les données dans leur format brut directement dans le système cible (environnement Big Data, Apache Hadoop, Data lake) ou le Reverse ETL, idéal pour alimenter des outils métiers opérationnels comme un CRM ou un outil financier (stockage en BDD SQL qui a l’avantage de ne stocker que les données utiles, déjà transformées).
En savoir plus sur la différence entre ETL, Reverse ETL et ELT ?
👉  Qlik : https://www.qlik.com/us/etl/etl-vs-elt
👉  Talend : https://www.talend.com/fr/resources/elt-vs-etl/
👉  Hightouchen Reverse ETL https://hightouch.io/blog/reverse-etl/ ou Census

Toujours plus de performance et de vitesse attendues au niveau des data warehouses avec notamment les entrepôts de données dans le cloud comme Snowflake, Azure Synape, Redshift de AWS, BigQuery de Google ou encore DeltaLake de Databricks. Et oui, la bonne nouvelle pour 2022 c’est que qualité et rapidité ne sont plus synonymes de coûts prohibitifs pour les entreprises !

Data Mesh (ou maillage de données) ou data as a product, le sujet HOT de 2021 qui devrait rester tout aussi hype cette année (nous en avons déjà parlé chez Smartpoint comme un des principaux nouveaux chantiers de l’année dernière) et pour cause, c’est toute l’approche de l’architecture de données qui est remise en question !

Rappelons les 4 principes du Data Mesh et son architecture décentralisée et distribuée selon sa créatrice, Zhamak Dehghani :

  1. Domain driven design
  2. Data as a product que l’ont peut partager à l’intérieur et à l’extérieur de l’organisation
  3. Infrastructure en libre-service ou IaaS pour permettre une plus grande autonomie et une démocratisation plus large des données
  4. Gouvernance dite fédérée pour équilibrer l’indépendance de chaque équipe, tout en harmonisant les normes de qualité et de contrôle au sein de l’organisation

Pour aller plus loin ? Nos data pure players vous recommandent ces articles :

🔎 Flash back sur la guerre des databases de 2021 : https://ottertune.com/blog/2021-databases-retrospective/

🔎 Data stack moderne, les tendances : https://towardsdatascience.com/trends-that-shaped-the-modern-data-stack-in-2021-4e2348fee9a3/

Data Fabric, une des dernières innovation dans l’ingénierie de la data.

Data Fabric, une des dernières innovations dans l’ingénierie de la data promise à un bel avenir ! Selon Gartner, une Data Fabric permettrait de réduire les temps d’intégration et de déploiement de 30% … et la maintenance de 70%.


Concrètement, il s’agit d’une architecture qui permet de collecter des jeux de données (assets) et des databases.

La finalité est d’obtenir une vue unifiée des données dans un seul environnement, indépendamment de leur emplacement réel, de leur structure ou de leur appartenance à telle ou telle base de données.
Une data fabric permet de simplifier l’analyse des données (BI) et elle est devenue incontournable en IA et en ML. Couche unique d’accès aux données, les data fabrics permettent de faciliter le développement applicatif par API et de casser le phénomène des silos de données avec des structures et des formats différents.

Chez Smartpoint, nous privilégions les solutions de Teradata, Denodo, Informatica et Talend.

Tendances. Les plateformes de machine learning ont le vent en poupe !

Cette situation de crise pandémique mondiale profite clairement aux technologies d’IA et de ML, propulsées en deux ans en actifs stratégiques (…même si de nombreux projets peinent encore à sortir de la phase expérimentale).


Les entreprises ont en effet pris conscience de l’urgence d’accélérer sur des technologies de data avancées car l’humain a été fortement impacté : pénurie de main d’œuvre, remote work, confinement, …
Le saviez-vous ? Un quart des entreprises utilisent déjà l’IA dans l’automatisation dans leurs processus / systèmes… et 51% prévoient de le faire à court terme. On parle, selon Forrester, d’investissements entre 2,4 et 3,3 milliards d’euros en Europe en 2022.

Les promesses ? Rationalisation, #automatisation des tâches, désengorgement sur ce qui est faiblement générateur de valeur ajoutée, gains d’efficacité, économies…

Un marché très dynamique et particulièrement innovant où il va falloir faire son choix parmi les plateformes ML d’acteurs tels que DataikuRapidMinerDataRobotAlteryxH2O.aiDatabricksSAS ou encore IBM également très actifs en ce domaine.