Snowflake: La solución SaaS para la gestión de datos en la nube
Snowflake es una solución SaaS (Software como Servicio) que se basa en la idea de Data Cloud (nube de datos); creada por antiguos ingenieros de Oracle, ofrece una arquitectura de datos compartidos multiclúster con altas tasas de rendimiento, escalabilidad y simultaneidad. Como mencionamos al principio, Snowflake aborda el desafío de los silos de datos: es una plataforma que promueve y facilita el acceso a un almacén común de datos en la nube, incluyendo capas de almacenamiento, procesamiento y servicios globales integrados lógicamente, aunque separados físicamente. Las áreas de aplicación donde Snowflake muestra todas sus capacidades son Data Warehouse (con su propio motor SQL), Data Lake, ingeniería de datos, ciencia de datos, intercambio de datos y desarrollo de aplicaciones de datos.
¿Cómo opera Snowflake?
Proveedores de servicios Snowflake admite los tres principales proveedores de servicios en la nube del mercado: Google Cloud, AWS y Azure. Snowflake permite al usuario seleccionar la región en la que desea operar. El costo del servicio variará dependiendo del proveedor y de la región seleccionada.
Arquitectura El objetivo principal es construir un almacén de datos centralizado y accesible desde todos los nodos del Data Warehouse; bajo un principio de redundancia, cada clúster guarda localmente una parte de las consultas para procesarlas en paralelo.
Accesibilidad El usuario puede acceder a Snowflake desde un navegador web o un cliente CLI; admite conexiones de fuentes de datos ODBC y JDBC, y soporta conectores nativos y de terceros.
Ecosistema El número de aplicaciones que pueden funcionar en el ecosistema de Snowflake es bastante significativo y sigue creciendo gradualmente. Podremos encontrar aplicaciones de Business Intelligence, de integración de datos, de Machine Learning y de seguridad y gobernanza de datos.
Carga de datos Existen dos métodos de carga: por lotes o de forma continua (Snowpipe), por lo que es posible volcar datos a Snowflake de tres orígenes diferentes:
- Fuentes internas
- Fuentes externas
- Otras cuentas de Snowflake
La carga por lotes requiere que los datos estén previamente en la nube, y que el usuario aprovisione previamente el Data Warehouse. Las capacidades de transformación de datos son bastante simples usando este método.
La carga por Snowpipe permite volcar de forma incremental pequeños volúmenes de datos; el Data Warehouse está totalmente gestionado por Snowflake, y las capacidades de transformación de datos son algo más avanzadas.
Descarga de datos La descarga de datos consiste en realizar consultas en las tablas de Snowflake y guardarlas con el comando COPY INTO, especificando uno o varios archivos del servicio de almacenamiento del proveedor en el parámetro location.
Mediante el comando SELECT, se pueden realizar otras consultas específicas no necesariamente incluidas en los almacenes virtuales de la segunda capa.
Fuente: www.theinformationlab.es
Post Que Podrían Interesarte