Mike Chen | Responsable de la stratégie du contenu | 1 mars 2022
Un data lakehouse peut être défini comme une plateforme de données moderne construite à partir d'une combinaison d'un data lake et d'un data warehouse. Plus précisément, un data lakehouse prend le stockage flexible de données non structurées à partir d'un lac de données et les fonctionnalités et outils de gestion des entrepôts de données, puis les implémente stratégiquement ensemble en tant que système plus vaste. Cette intégration de deux outils uniques apporte le meilleur des deux mondes aux utilisateurs. Pour décomposer encore plus un data lakehouse, il est important de bien comprendre la définition des deux termes d'origine.
Lorsque nous parlons d'un data lakehouse, nous faisons référence à l'utilisation combinée des plateformes de référentiel de données actuelles.
Comment un data lakehouse combine-t-il ces deux idées ? En général, un data lakehouse supprime les cloisons entre un lac de données et un entrepôt de données. Cela signifie que les données peuvent être facilement déplacées entre le stockage à faible coût et flexible d'un lac de données vers un entrepôt de données et vice versa, ce qui permet d'accéder facilement aux outils de gestion d'un entrepôt de données pour l'implémentation du schéma et de la gouvernance, souvent alimentés par le machine learning et l'intelligence artificielle pour le nettoyage des données. Le résultat crée un référentiel de données qui intègre la collecte abordable et non structurée de lacs de données et la préparation robuste d'un entrepôt de données. En fournissant l'espace nécessaire à la collecte à partir de sources de données organisées tout en utilisant des outils et des fonctionnalités qui préparent les données pour une utilisation professionnelle, un data lakehouse accélère les processus. D'une certaine manière, les data lakehouses sont des data warehouses, d'origine conceptuelle au début du 1980s, qui ont été relancés pour notre monde moderne axé sur les données.
Avec une compréhension du concept général d'un data lakehouse, examinons un peu plus en détail les éléments spécifiques impliqués. Un data lakehouse offre de nombreux éléments familiers des concepts historiques de data lake et de data warehouse, mais d'une manière qui les fusionne en quelque chose de nouveau et de plus efficace pour le monde numérique d'aujourd'hui.
Un data warehouse offre généralement des fonctionnalités de gestion des données telles que le nettoyage des données, ETL et l'application des schémas. Elles sont intégrées dans un data lakehouse afin de préparer rapidement les données, ce qui permet aux données provenant de sources sélectionnées de fonctionner ensemble et d'être préparées pour de nouveaux outils d'analyse et de business intelligence (BI).
L'utilisation de formats de stockage ouverts et standardisés signifie que les données provenant de sources de données variées ont une longueur d'avance en ce qui concerne leur capacité à fonctionner ensemble et être prêtes pour l'analyse ou le reporting.
La possibilité de séparer les ressources de calcul des ressources de stockage facilite le redimensionnement du stockage si nécessaire.
De nombreuses sources de données utilisent la diffusion en continu en temps réel directement à partir des appareils. Un data lakehouse est conçu pour mieux prendre en charge ce type d'ingestion en temps réel par rapport à un data warehouse standard. À mesure que le monde intègre davantage les appareils Internet of Things, le support en temps réel devient de plus en plus important.
Etant donné qu'un data lakehouse intègre les fonctionnalités d'un data warehouse et d'un lac de données, il s'agit d'une solution idéale pour un certain nombre de workloads différents. Des rapports commerciaux aux équipes de data science en passant par les outils d'analyse, les qualités inhérentes à un data lakehouse peuvent prendre en charge différents workloads au sein d'une entreprise.
En créant un data lakehouse, les entreprises peuvent rationaliser leur processus global de gestion des données avec une plateforme de données unifiée. Un data lakehouse peut remplacer des solutions individuelles en cassant les cloisons qui se dressent entre plusieurs référentiels. Cette intégration crée un processus de bout en bout beaucoup plus efficace que les sources de données organisées. Cela crée plusieurs avantages.
Alors que certaines entreprises vont construire un data lakehouse, d'autres vont acheter un service cloud de data lakehouse.
Experian a amélioré ses performances de 40 % et réduit ses coûts de 60 % lorsqu'il a migré des workloads de données critiques d'autres clouds vers un data lakehouse sur OCI, accélérant le traitement des données et l'innovation produit tout en élargissant les opportunités de crédit dans le monde entier.
Generali Group est une compagnie d'assurance italienne avec l'une des plus grandes bases de clients au monde. Generali disposait de nombreuses sources de données, provenant à la fois d'Oracle Cloud HCM et d'autres sources locales et régionales. Leur processus de décision RH et l'implication des employés se heuraient à des obstacles, et l'entreprise a cherché une solution pour améliorer l'efficacité. L'intégration d'Oracle Autonomous Data Warehouse aux sources de données de Generali a permi de supprimer les silos et de créer une ressource unique pour toutes les analyses RH. Cela a amélioré l'efficacité et la productivité du personnel RH, lui permettant de se concentrer sur des activités à valeur ajoutée plutôt que sur l'attrition de la génération de rapports.
L'un des principaux fournisseurs de covoiturage au monde, Lyft s'occupait de 30 systèmes financiers cloisonnés différents. Cette séparation a entravé la croissance de l'entreprise et ralenti les processus. En intégrant Oracle Cloud ERP et Oracle Cloud EPM à Oracle Autonomous Data Warehouse, Lyft a pu consolider ses finances, ses opérations et ses analyses sur un seul système. Cela a permis de réduire de 50 % le temps nécessaire à la clôture de ses comptes, avec la possibilité d'une rationalisation encore plus poussée de ses processus. Cela lui a également permis d'économiser sur les coûts en réduisant les heures d'inactivité.
Agroscout est un développeur logiciel qui aide les agriculteurs à maximiser les cultures saines et sûres. Pour augmenter la production alimentaire, Agroscout a utilisé un réseau de drones pour enquêter sur les cultures à la recherche d'insectes ou des maladies. L'organisation avait besoin d'un moyen efficace à la fois de consolider les données et de les traiter pour identifier les signes de danger pour les cultures. Grâce à Oracle Object Storage Data Lake, les drones ont directement téléchargé des cultures. Des modèles de machine learning ont été créés avec OCI Data Science pour traiter les images. Le résultat a été un processus considérablement amélioré qui a permis une réponse rapide à l'augmentation de la production alimentaire.
Chaque jour qui passe, de plus en plus de sources de données envoient de plus en plus de volumes de données dans le monde entier. Pour toute entreprise, cette combinaison de données structurées et non structurées reste un défi. Les data lakehouses relient, corrélent et analysent ces différentes résultats en un seul système gérable.