Quoi de neuf dans le monde de la Data ? Les outils et les technologies à suivre à la rentrée 2022

Cette année aura été marquée par les consolidations entre les éditeurs, les rachats ou le développement de fonctionnalités pour des outils existants pour couvrir de nouvelles briques de la data stack. Détails.

Ingestion

Cette couche couvre le streaming de données et les services SaaS qui permettent de mettre en place des pipelines de données des systèmes opérationnels jusqu’au stockage. Airbyte (open source) sort du lot avec une croissance exponentielle en termes d’entreprises utilisatrices (plus de 15 000) et le lancement d’un outil de Reverse ETL (via acquisition de Grouparoo).

Datalakes

Dans cette segmentation de technologies, on part du principe qu’un datalake est un moteur d’analyse (bien que dans Databricks, cela inclut à la fois le data lake et le moteur d’analyse). Cette architecture permet d’optimiser Spark SQL pour créer un moteur analytique sur le format de table Delta. Cette même logique s’applique à Dremio sur Iceberg, ou à Snowflake supportant Iceberg comme tables externes à sa base de données.

Gestion des métadonnées

Dans cette couche, on retrouve les formats Open Table qui sont en train de devenir la norme pour prendre en charge les données structurées dans un datalake. Il y a un an, Delta Lake était un projet de Databricks avec un produit commercialisé sous le nom de Delta. Aujourd’hui, nous avons Apache Hudi commercialisé par Onehouse et Apache Iceberg commercialisé par Tabular. Ces deux sociétés ont été fondées par les créateurs de ces deux projets open-source.

Git pour la data

Le concept de Git pour les données s’installe dans la communauté des ingénieurs data. dbt encourage les analystes à utiliser les meilleures pratiques sur différentes versions de données (dev, stage et production), mais ne prend pas en charge la création et la maintenance de ces jeux de données dans les data lakes.

Les équipes DataOps cherchent de plus en plus à avoir un contrôle de version des données inter-organisations afin de mieux contrôler les différents jeux de données qui ont différentes révisions au fil du temps. Pour exemples de révisions courantes de jeux de données : le recalcul nécessaire pour les algorithmes et les modèles ML, ou de backfills provenant de systèmes opérationnels comme cela arrive souvent en BI, ou la suppression d’un sous-ensemble en raison de réglementations telles que le droit à l’oubli dans le cadre du GDPR.

Computing

Dans ce tableau, la partie virtualisation a été supprimée car elle a moins de vent en poupe ! On y retrouve les technologies de calculs distribués et les moteurs d’analyse.

La principale différence entre ces deux catégories est comment ces outils positionnement leur couche de stockage :

  • Les moteurs de calcul distribué traditionnels permettent aux ingénieurs de distribuer tout ce qui est SQL ou tout autre code. Au-delà de Spark, les deux outils à suivre dans cette catégorie sont Ray et Dask. Ray est un projet open-source qui permet aux ingénieurs de mettre à l’échelle toute charge de travail Python à forte intensité de calcul, utilisée principalement pour l’apprentissage automatique. Dask est également un moteur Python distribué basé sur Pandas.
  • La catégorie des moteurs d’analyse comprend tous les entrepôts de données tels que Snowflake, BigQuery, Redshift, Firebolt et toujours PostgreSQL. Elle contient également des entrepôts de données comme Databricks lakehouse, Dremio, ou Apache Pinot. Tous les moteurs d’analyse utilisent le datalake comme leur source de stockage. Il est à noter que Snowflake prend désormais en charge Apache Iceberg comme l’un des formats de table externe qui peut être lu par Snowflake directement à partir du datalake.

Orchestration

Airflow reste le plus produit open-source le plus populaire. Astronomer le talonne depuis quelques années déjà et depuis que la société a sauté dans le train du cloud, elle est maintenant en concurrence directe avec les principaux fournisseurs de cloud. À noter que Astronomer a également fait l’acquisition de Datakin qui fournit du data lineage. Que se passe t’il lorsqu’un outil d’orchestration a des capacités de lignage ? En théorie, cela pourrait permettre de construire des pipelines plus sûrs et plus résilients. En comprenant quels sont les ensembles de données qui sont impactés par des données manquantes, corrompues ou de mauvaise qualité, cela faciliterait considérablement l’analyse d’impact en liant la logique (gérée par les outils d’orchestration) et la sortie (gérée dans les outils de lignage). À suivre donc !

Observabilité

Cette catégorie est dominée par Monte Carlo qui a effectué plusieurs levées de fonds.  Ce produit ne cesse d’évoluer, offrant davantage d’intégrations notamment avec l’écosystème databricks.

Data science

Cette catégorie comprend trois grandes familles d’outils :

  • Les end-to-end ML Ops. Il semble que dans les faits, aucun de ces outils ne soient vraiment « de bout en bout » du pipeline de ML mais certains sont sur la bonne voie dont Comet.
  • Data centric ML. Deux nouveaux entrants à suivre (toujours selon LakeFS) en termes d’outils avec Activeloop et Graviti.
  • L’ observabilité et monitoring ML, il s’agit de tous les outils orientés suivi et observabilité de la qualité des modèles. Tout comme la catégorie de l’observabilité des données, c’est une catégorie d’outils en plein développement. A noter que début de 2022, Deepchecks est devenu open source et a rapidement gagné en adoption.

Data Catalog

C’est devenu un incontournable ! On retrouve les désormais acteurs de longue date comme Alation et Collibra. À suivre Immuta qui se concentre sur le contrôle de l’accès aux données mais qui a fait une importante levée de fonds pour accélérer sa croissance.

Article source https://lakefs.io/the-state-of-data-engineering-2022/

The State of Data Engineering 2022
Source LakeJS

Data visualisation, Tableau ou Qlik Sense ?

Comment départager ces deux leaders de la data alors que tous deux partagent la même note 4,3/5 avec des avis favorables de GARTNER ?

QLIK est reconnu pour la Data Visualisation et le mapping de données. Il est également efficient en analyse (avec Qlik Analytics Engine) et en data discovery. Vous pouvez ainsi créer des pipelines à partir de plusieurs sources de données et profiter du machine learning pour mieux les trier.
Son point fort ? La contextualisation. Il se concentre surtout sur l’association de données, c’est à dire la découverte de relations entre elles.
En terme de sécurité, Qlik offre une forte granularité et des capacités de contrôles d’accès avancées.

TABLEAU est quant à lui reconnu pour l’interactivité de sa data visualisation et ne nécessite pas de scripts avancés ni de macros compliquées pour pourvoir commencer à l’utiliser, c’est un outil très intuitif.
Il capte également de nombreuses sources de données : bases de données, services clouds, Google analytics, etc.
Son point fort ? Il va très loin notamment en analyses #statistiques, multidimensionnelles, prédictives et comportementales. Tableau met l’accent sur l’exploration des données et incite les utilisateurs à créer leurs propres modèles de recherche. Ainsi, pour concevoir des rapports pertinents, Tableau peut donc nécessiter davantage d’expertises technique …

Leurs points communs ?

  • Tous les deux utilisent l’apprentissage automatique (ML) pour identifier les tendances et construire des modèles robustes, mais Tableau nécessite beaucoup moins d’expertise technique.
  • Tous deux prennent en charge un large éventail d’appareils, de systèmes d’exploitation et de plateformes web et mobiles. Les données et les rapports sont accessibles depuis pratiquement tous les appareils. Les deux sociétés offrent des communautés solides et offrent un excellent support.
  • Les deux outils offrent un bon niveau de sécurité. Ils s’appuient sur des sources de données fiables et d’autres aspects essentiels de la sécurité de l’entreprise, mais Qlik propose un système plus robuste en ce domaine.
techrepublic.com

Source : https://www.techrepublic.com/article/qlik-vs-tableau/

ETL, zoom sur Fivetran vs Stitch

Vous cherchez un outil d’intégration de données ? Smartpoint vous propose une rapide comparaison entre deux outils d’ETL qui ont actuellement le vent en poupe.

Les entreprises stockent leurs données dans différents endroits en interne mais aussi désormais de plus en plus dans le cloud. Pour disposer d’une vision unifiée de vos activités et être en capacité de les analyser, vous devez rassembler toutes ces data dans un entrepôt de données ou un data lake.

On utilise un ETL pour différents usages comme classiquement l’extraction, la transformation et le chargement dans des entrepôt de données. Ils sont aussi utilisés pour redresser la qualité des données afin qu’elles soient exploitables en data visualisation.

LEURS POINTS COMMUNS

Ils se connectent tous deux à de nombreuses sources de données (env 150 connecteurs pré-paramétrés chacun), ils sont RGPD et SOC 2 compliant. Les deux sont de purs ETL, ils ne transforment pas les données avant de les charger. Enfin, ils proposent tous deux un essai gratuit pendant 14 jours.

FIVETRAN

C’est un outil cloud destiné aux ingénieurs data et aux data analysts. Il est opérable avec tous les principaux entrepôts de données, bases de données… mais pas les data lakes. On peut difficilement personnaliser les connecteurs depuis le cloud … mais vous pouvez demander à l’éditeur de créer une nouvelle source de données. Cependant, vous ne pourrez pas le faire vous-même, ni modifier les sources existantes. Ainsi, si vous avez des besoins spécifiques, mieux vaut vous entourer d’un ingénieur data ! Fivetran ne transforme pas les données avant de les charger mais il permet désormais de faire à postériori via un copier-coller SQL.

STITCH

C’est également un outil dans le cloud. Il fait désormais partie de Talend Data Fabric. En termes de destinations, via l’API Rest, il est capacité de déplacer les données dans tous les principaux entrepôts de données et bases de données mais aussi les data lakes. On peut rajouter de nouvelles sources en utilisant Singer (open source) pour réaliser des scripts mais ce n’est pas encore optimal en termes qualité, il faut tester ;-). Il ne permet pas non plus de transformer les données mais, via les outils proposés par Talend, il est possible de le faire soit au sein de l’entrepôt de données, soit via des moteurs de traitement externes tels que Spark et MapReduce. Les transformations peuvent être définies en SQL, Python ou Java.

Pour aller plus loin : https://www.techrepublic.com/article/stitch-vs-fivetran/ et https://airbyte.com/etl-tools/fivetran-vs-stitch

Captiva rejoint le groupe Smartpoint 

Le nouvel ensemble propose désormais deux pôles d’expertises majeurs en Data et Développement de produits.

Paris, le 10 juin 2022

Smartpoint, pure player de la Data, annonce le rapprochement avec Captiva, ESN parisienne de près de 80 collaborateurs, spécialisée dans le développement de produits et la qualité logicielle.

Désormais, le groupe Smartpoint, c’est une proposition de valeur élargie en expertises technologiques autour des deux principaux chantiers des entreprises en France pour soutenir leur transformation digitale : l’exploitation de la data et sa valorisation ; ainsi que le développement de nouveaux produits.

Le nouvel ensemble compte plus 250 collaborateurs qui réalisent des prestations IT ou délivrent des projets au forfait pour des entreprises des secteurs de la banque-assurance, la grande distribution, le transport, l’énergie, les média et les services.

Conformément à notre plan de croissance, nous cherchions à nous développer en nous rapprochant d’entreprises qui nous ressemblent en termes de valeurs et de vision. C’est chose faite avec Captiva et ses 80 collaborateurs, qui rejoignent l’aventure et vont désormais partager nos ambitions. Captiva est spécialisée en développement applicatif, testing et AMOA. En termes de références clients, pour ne citer que quelques comptes, Captiva intervient aujourd’hui au sein du Groupe Crédit Agricole, Accor Hotels et Manpower. Nous sommes donc très complémentaires et ce rapprochement va nous permettre d’avoir une position plus forte sur notre marché.

Yazid Nechi, Président de Smartpoint

 

Du Data Modeling … à « déménageur » de données, quel est le rôle de l’ingénieur data aujourd’hui ?

Terminé le temps où l’ingénieur data se concentrait sur la modélisation de données et passait l’essentiel de son temps en transformations ETL !

Des générations d’ingénieurs data se sont épuisées à mettre en œuvre les meilleures pratiques de modélisation de données (modèle conceptuel, logique et physique) segmentés par domaines, sous-domaines puis interconnectés entre eux. Il existe encore plusieurs types modélisation de données : modèle de données hiérarchique, en réseau, relationnel, orienté objet pour les plus traditionnels mais aussi modèle de données entité-relation, dimensionnel ou encore orienté graphe.

Ne nous y trompons pas, la modélisation de données, est toujours bel et bien indispensable en BI & Analytics avancées. Mais le rôle d’ingénieur data a beaucoup évolué ces dernières années et ce n’est que le commencement ! Il est beaucoup moins focus sur la modélisation de données, il se concentre davantage sur les capacités à déplacer les données et s’appuie sur de nouvelles approches pour traiter les données.

L’approche Data Lake couplée avec un processus d’ELT

La différence ? On ne sélectionne plus les données que l’on considère utiles à stocker mais on les déverse dans le lac de données pour qu’elles soient accessibles pour le reste de l’organisation, quand ils auront besoin. Dans les faits, on n’a plus besoin de transformer les données. Les Data Scientists peuvent ainsi accéder aux données brutes (sans avoir besoin de faire appel à un ingénieur data) et effectuer eux-mêmes les transformations qu’ils souhaitent. Ainsi, en fonction de la complexité des données et des compétences (et l’autonomie) de ceux qui vont les consommer, les ingénieurs n’ont finalement plus besoin de passer beaucoup de temps sur les phases de modélisation.

Le cloud avec ses bibliothèques de connecteurs et l’automatisation

Le cloud a contribué également à minimiser les pratiques de modélisation au préalable des données. Le Move-to-the-cloud massif de solutions autrefois sur site, a poussé les ingénieurs data à se concentrer sur la migration des données en utilisant notamment des outils en SaaS comme Fivetran ou Stich qui proposent des Datasets pre-modélisés pour de larges scénarios d’intégration.

Le Machine Learning

La montée en puissance du ML et surtout du développement AutoML ont aussi contribué à transformer les ingénieurs data en « Data Movers ».

Source Microsoft / 05/2022

Le streaming de données et le traitement temps réel  

Certes, il est toujours possible d’effectuer des agrégations sur des flux (via Spark par exemple). Mais dans la réalité, la plupart des traitements effectués sur les flux tendent à se concentrer sur le filtrage des données (triggers) et leur enrichissement … et non plus leur modélisation. De plus, les exigences accrues de traitement en temps réel éloignent les phases initiales de transformation des données vers l’application centrale (Core).

Cependant, la modélisation des données (Data Modeling) reste incontournable dans de nombreux cas d’usages en data warehousing et BI mais aussi pour être en capacités de mener des analyses avancées en temps réel via les techniques de modélisation dimensionnelle (architecture Lambda).

En effet, rien ne vaut la modélisation des données pour comprendre vraiment comment fonctionnent les données, comment les exploiter au mieux. La modélisation offre aussi des capacités de découverte et d’interprétation inégalées.
De plus, les techniques de modélisation évoluent, les systèmes convergent !

Des outils comme Dbt permettent aujourd’hui d’orchestrer des séries de transformations.

The analytics engineering workflow – DBT

L’introduction de la jointure flux-flux permet de gérer les mises à jour dimensionnelles et réduit la nécessité d’utiliser des modèles de réconciliation. Les bases de données en continu vont encore plus loin en faisant des flux de données en temps réel une partie intégrante du modèle de données. Cette architecture « Kappa » permet une approche simplifiée pour exploiter les données en temps réel.

Avec l’arrivée de solutions de bases de données MPP (comme Snowflake), les différences entre data lake, data warehouse et data lake house sont de plus en plus floues… et quoi qu’ils en soient, elles convergent (même si elles ne couvrent pas encore toutes les fonctionnées des entrepôts de données) pour faciliter certains cas de modélisation de données.

En somme, le data modeling a encore de beaux jours devant lui ! Et le rôle de l’ingénieur data n’a pas fini de se transformer.

Sources :

Les 7 modèles de données les plus utilisés aujourd’hui en entreprises : https://www.lemagit.fr/conseil/Les-sept-modeles-de-donnees-les-plus-utilises-en-entreprise

The lost art of data modeling : https://medium.com/analytics-and-data/the-lost-art-of-data-modeling-1118e88d9d7a

Zoom sur les éditeurs incontournables en plateformes analytiques et Business Intelligence.

D’après Gartner, il est désormais essentiel que les plateformes s’intègrent davantage dans un écosystème analytique plus global qui comprend les outils métiers mais aussi la data science qui restait jusqu’à présent encore à part. La plupart comprennent déjà des fonctionnalités d’Intelligence Artificielle comme la langage naturel et la génération de rapport / KPI automatisés qui permettent aux utilisateurs métiers de mieux d’approprier les outils.

Les leaders de cette année ? (et pour la 2ème année !)

Microsoft avec PowerBI toujours au-dessus de la mêlée (déjà pour son bon rapport qualité / prix et ses fonctionnalités enrichies avec Azure notamment en Machine Learning), Salesforce avec Tableau et Qlik.

A noter aussi l’intérêt croissant des outils comme Looker et QuickSight qui ont l’intérêt de se plugger sur plusieurs environnements technologiques. Ce qui permet de rester indépendant face aux poids croissants des géants technologiques…

Microstrategy reste aussi un incontournable ❤

« Au lieu d’un environnement de BI distinct situé au-dessus d’une base de données, dans lequel les informations doivent être déplacées dans les deux sens, une forme de symbiose s’instaure. Dans ce cadre, une telle plateforme embarque des fonctionnalités d’interrogation des données et d’analytique et ne nécessite pas des flux ETL incessants en direction d’un SGBD. L’autre pendant de ce phénomène est reflété par les solutions de BI embarquées dans les environnements de travail des métiers. Il existe donc plusieurs écosystèmes analytiques.
Enfin, la BI doit faire partie d’une plateforme analytique de bout en bout. Celle-ci doit inclure la capture des données, les capacités d’analyse, jusqu’à la prise de décision. »

Austin Kronz, l’un des auteurs de ce rapport (propos repris par Le Mag IT)

Bienvenue à la génération XOps !

Ops (ou Operators en anglais), c’est le buzzword qui n’en finit pas de buzzer. L’idée sous-jacente est de rendre tout « opérationnable » (c’est-à-dire aligné sur les priorités business pour créer plus de valeur). On a déjà le FinOps, le RevOps … mais parlons de XOps !


C’est le phénomène de fond qui agite le monde de l’ingénierie de la Data à laquelle nous appartenons chez Smartpoint.
Il faut rappeler que Gartner l’a identifié dans son top des 10 tendances à suivre l’année dernière (à lire ici).

Déjà XOps comprend dans les faits DataOps, MLOps, ModelOps et PlatformOps.


Le principe ? Le XOps se base sur les meilleurs pratiques du DevOps (et historiquement du lean) pour être plus efficace et faire des économies d’échelle.

L’objectif est de :

  • Automatiser pour accélérer et endiguer la duplication de technologies et la multiplication de processus (et autres workflows) dès que c’est possible
  • Concevoir une stack technologique de qualité, résiliente, réutilisable, évolutive et qui fonctionne dans la durée.

La nouveauté est qu’on intègre désormais l’IA et le ML … et surtout qu’on ne réfléchit plus à ce qui pourrait être rationalisé et automatisé à postériori mais bien dès la phase de conception.

Concrètement le XOps accélère l’ensemble des processus, lutte contre le gaspillage technologique et améliore la qualité des livrables des produits (DevOps et désormais DevSecOps), des données et leur analyse (DataOps) et des modèles d’IA (MLOps).

Dernier né des Ops ✨ ?
Le ClouOps qui se concentre sur l’orchestration alors que les stratégies multi-cloud se développent dans les entreprises.

Bienvenue à la génération XOPS

Data Platform, le point sur la stack technologique dont vous avez besoin.

Les technologies open source comme propriétaires sont pléthores. Certains éditeurs affirment qu’ils prennent en charge toutes les couches nécessaires, d’autres outils sont quant à eux plus spécialisés sur une brique en particulier.  Par ailleurs, vous avez aussi des actifs technologiques, des investissements passés et des spécificités propres à votre activité qui vous impose un choix best-of-breed.

Bien entendu en fonction de votre secteur d’activité, la structure de votre entreprise, votre consommation de données et l’exploitation que vous souhaitez en faire, la combinaison des outils et des technologies ne sera pas la même ! Et non, Il n’existe pas de solution « standard »…

Une plateforme de données se décompose dans les faits en différents composants essentiels ou couches : la capture des données, le stockage et le traitement, la transformation, la modélisation, la BI et les Analytics, l’observabilité et enfin la data discovery. Voici un rapide état des lieux.

  1. L’ingestion des données ou process d’extraction des données (structurées ou non) à partir de multiples sources de données. Même s’il est possible de développer votre propre framework spécifique, il existe aujourd’hui pléthore de solutions reconnues comme Informatica, Talend, IBM (Datastage) Fivetran, Denodo (…) mais aussi des outils en open source comme Stitch, Airbyte, Apache Kafka (event streaming). Il est également recommandé de mettre en place une orchestration des tâches et une automatisation des flux de travail avec Apache Airflow et Dagster par exemple.
  2. Le stockage et le traitement des données. Avec le move-to-the-cloud, de nombreuses alternatives au stockage on-premise existent désormais pour plus de flexibilité et d’évolutivité dans la durée avec les data Warehouses cloud natifs, les data lakes et les data lakehouses. Entre d’ailleurs Snowflake et Databricks, qui choisir, nous vous invitons à lire https://www.smartpoint.fr/choisir-snowflake-databricks/. L’architecture serverless de BigQuery (Google) est également intéressante pour la rapidité des requêtes et des traitements sans compter que Google vient de lancer BigLake pour la gouvernance et l’analyse de données en provenance de DW et de datalakes répartis sur différents clouds. Citons également Microsoft Azure, Amazon Redshift et à suivre Firebolt (SQL) pour les performances.
  3. La transformation puis la modélisation des données. Oracle, IBM et SSIS (Microsoft) sont incontournables en termes de solutions proposées ainsi que l’outil leader en open source, dbt (data build tool). Dataform (qui fait partie de GCP depuis 2 ans) est également un outil intéressant pour cette étape qui permet de préparer les données pour l’étape la plus importante pour vos utilisateurs : l’analyse !
  4. La BI et les analytics. Cette couche est le graal de toute Data Cloud Platform car c’est ici que les données vont prendre du sens. Les outils sont de plus en plus visuels, intuitifs et interactifs. Citons les incontournables Power BI (MS), Qlik, Tableau et Microstrategy mais aussi Looker (environnement big data / google), Mode (Datascience avec R), ThoughtSpot et Yellowfin. Les solutions sont très nombreuses et la bonne solution dépend surtout des choix que vous avez fait dans la stack technologique qui constitue votre plateforme de données … Voici le classement de Gartner https://www.gartner.com/reviews/market/analytics-business-intelligence-platforms
  5. L’observabilité des données. Vous devez pouvoir compter sur des données de confiance, fiables et exploitables. Cette couche de monitoring des données vous permet de surveiller et d’être alertés sur les anomalies : la fraicheur, la manière dont elles sont distribuées, le respect du format, si elles ont été altérées, le lineage, etc. Cela vous permet également de cartographier les incidents. En termes de solutions, les acteurs sont nombreux entre ceux qui viennent des solutions de surveillance de l’infrastructure IT ou des failles de sécurité, sans parler des pure players. Citons les solutions d’IBM, Dynatrace, Splunk, DataDog, Microsoft et encore AWS.
  6. La data discovery. Cette nouvelle génération d’outils vient remplacer le fameux dictionnaire ou catalogue de données qui historiquement était fait de manière manuelle donc par nature peu évolutif et qui a atteint ses limites. En effet, les flux de données se multiplient, elles sont de plus en complexes, volumétriques, en temps réel et non structurées. La data discovery permet d’explorer vos données pour trouver des dépendances, faire émerger des tendances, des modèles ou au contraire identifier des anomalies qui vont demander une exploration plus approfondie. Ces solutions sont désormais enrichies en machine learning pour une vue exhaustive et en temps réel de l’ensemble de vos actifs … alors même que vos données évoluent. Chez Smartpoint, nous utilisons les solutions de SAS Visual Analytics et de Tibco.

Pour aller plus loin :

https://towardsdatascience.com/the-quick-and-dirty-guide-to-building-your-data-platform-2f21dc4b7c94

Bilan carbone

Le point sur le bilan carbone de BI Newvision, une marque Smartpoint

Trier, recycler, éviter d’imprimer ou d’échanger des mails avec de lourdes pièces jointes en favorisant le travail collaboratif… notre démarche RSE ne s’arrête pas là et cela commence par faire notre bilan carbone. 
Il est important pour nous de calculer l’ensemble des émissions de gaz à effet de serre de notre entreprise.

Nous avons choisi Greenly afin de s’engager concrètement pour le climat et réduire nos émissions CO2.
Voici déjà le point sur l’empreinte carbone de BI Newvision, une société Smartpoint. Ce premier bilan nous a donné de manière globale un aperçu rapide de nos émissions, ce qui nous a permis de distinguer les principaux postes d’émissions.
En additionnant toutes les émissions, BI Newvision a une empreinte de 373t CO2.
Notre principal poste d’émission est l’achat de services (95,1%), suivi des émissions liées au déplacement (3%).

Bilan Carbone BI NEWVISION

Smartpoint rejoint Planet Tech’Care.

Nous sommes fiers aujourd’hui de nous associer à numeum et de rejoindre la communauté de Planet Tech’Care 🌍.

Smartpoint milite pour un numérique plus responsable et se mobilise pour réduire l’empreinte environnementale de la Tech. Cela fait partie intégrante des valeurs qui nous animent au quotidien et nous sommes déjà très engagés sur ces sujets.

  • Nous prônons notamment une utilisation éthique des données, moins énergivore et conforme dès la conception (RGPD).
  • Nous privilégions une approche Smart Data pour lutter contre le Data Swamp, ces entrepôts de données qui stockent des données inutiles, et permettre une exploitation des données plus durable.


Certes, le nombre de données collectées en provenance de sources très diverses connait une croissance exponentielle. Nos clients ont besoin d’avoir accès en temps réel à des bases toujours plus volumétriques pour extraire du sens et mieux les exploiter pour gagner en efficacité opérationnelle.
… en revanche, rien ne sert de stocker des data qui ne seront jamais utilisées ou peu, cela ne fait qu’alourdir la gestion des données, la consommation des ressources, les performances globales… et cela n’est pas responsable, ni éthique.

PlanetTech’Care a été officiellement lancé le 8 octobre 2021 lors du colloque « Numérique et environnement : faisons converger les transitions » organisé conjointement par le Ministère de la Transition écologique, le Ministère de l’Économie, des Finances et de la Relance et le Secrétariat d’Etat en charge de la Transition numérique et des Communications électroniques.

Vous aussi, rejoignez le mouvement !