Una guía sobre el concepto, las características y los casos de uso de Amazon S3


Si está buscando el mejor servicio de almacenamiento de objetos optimizado que sea ideal para datos y servicios de almacenamiento no estructurados, semiestructurados y estructurados para construir un lago de datos, Amazon S3 (Simple Storage Service) es la plataforma para usted. Con S3, puede escalar un lago de datos independientemente de su tamaño en un entorno completamente seguro con una persistencia de datos de 99,999999999 (11 9 s). También se prefiere por sus capacidades económicas.

Cuando crea un lago de datos en Amazon S3, es decir, un lago de datos S3, obtiene acceso a una amplia variedad de habilidades. Estos incluyen inteligencia artificial (AI), aprendizaje automático (ML), análisis de big data, computación de alto rendimiento (HPC) y aplicaciones de computación de medios que le permiten obtener información empresarial crítica sobre conjuntos de datos no estructurados. Además, con Amazon FSx para Lustre es posible iniciar sistemas de archivos para aplicaciones ML y HPC y procesar grandes cantidades de cargas de trabajo de medios directamente desde el lago de datos S3.

El lago de datos S3 también ofrece la flexibilidad de utilizar sus aplicaciones de análisis, HPC, AI y ML seleccionadas y preferidas de APN (Amazon Partner Network). Debido a que Amazon S3 admite varias funciones de vanguardia, los administradores de almacenamiento, los científicos de datos y los gerentes de TI pueden administrar objetos a gran escala, auditar la actividad en el lago de datos de S3 y hacer cumplir estrictamente las políticas de acceso.

Amazon S3 es la opción elegida hoy por decenas de miles de lagos de datos que son marcas y nombres domésticos populares como Airbnb, Expedia, Netflix, GE y FINRA. Estas grandes empresas utilizan el lago de datos S3 para obtener información empresarial incisiva y escalar de forma segura sus requisitos operativos.

Amazon S3 frente a Amazon Redshift

Aquí hay que hacer una distinción entre Amazon S3 y Amazon Redshift, ya que se suele hablar de ambos al mismo tiempo, incluso si hay una clara diferencia entre los dos. Amazon S3 es una plataforma de almacenamiento de objetos, mientras que Amazon Redshift es un almacén de datos y las organizaciones suelen ejecutar ambos al mismo tiempo. Los dos no son parte de un debate de lo uno o lo otro.

El elemento principal de Amazon S3 frente a Redshift es permitir datos no estructurados frente a datos estructurados. Dado que Redshift es un almacén de datos, todos los datos registrados deben estar estructurados. Es un ecosistema creado para herramientas de inteligencia empresarial y clientes generales basados ​​en SQL que utilizan las conexiones estándar ODBC y JDBC. Amazon S3, por otro lado, puede almacenar datos de cualquier tamaño y estructura sin tener que especificar el propósito de los datos por adelantado. Por lo tanto, hay espacio para el descubrimiento y la investigación de datos clave que conducen a más posibilidades analíticas.

Características principales del lago de datos de Amazon S3

Algunas de las características principales del lago de datos de Amazon S3 se pueden resumir de la siguiente manera.

  • Silos separados para el almacenamiento de datos y la computación: S3 Data Lake es una gran mejora con respecto a las soluciones de almacenamiento tradicionales, donde las instalaciones de computación y almacenamiento estaban tan estrechamente vinculadas que era casi imposible optimizar la infraestructura y los costos de procesamiento de datos. Ahora puede almacenar todos los tipos de datos en sus formatos nativos en el lago de datos S3 a un costo muy bajo. Amazon Elastic Compute Cloud (EC2) se puede utilizar para iniciar servidores virtuales con datos procesados ​​por las herramientas de análisis de AWS. También se puede utilizar una instancia EC2 para maximizar el equilibrio ideal de memoria, ancho de banda y CPU para mejorar el rendimiento del lago de datos.
  • Implementación en plataformas AWS sin servidor y sin clústeres: en el lago de datos S3, el procesamiento de datos y las consultas se pueden realizar con Amazon Redshift Spectrum, Amazon Athena, AWS Glue y Amazon Rekognition. Amazon S3 también ofrece computación sin servidor, que permite que el código se ejecute sin la necesidad de aprovisionar y administrar servidores. Como usuario, solo tiene que pagar por los recursos informáticos y de almacenamiento utilizados sin una tarifa fija única o una tarifa inicial.
  • Arquitectura de datos centralizada: es muy fácil usar Amazon S3 para crear un entorno de múltiples inquilinos para que pueda reunir sus herramientas de análisis de datos en un conjunto de datos común. Esto mejora la calidad de la administración de datos y los costos en comparación con los sistemas tradicionales, que requerían que se distribuyeran múltiples copias de datos a través de muchas plataformas de procesamiento.
  • API unificadas: las API del lago de datos de Amazon S3 son muy fáciles de usar y son compatibles con varios proveedores de software de terceros. A menudo, entre ellos se encuentran Apache Hadoop y otros proveedores de herramientas de análisis. Esto le permite utilizar cualquier herramienta con la que esté familiarizado para realizar análisis de datos en Amazon S3.

Debido a estas características avanzadas y de vanguardia, Amazon S3 Data Lake es un servicio muy solicitado en el entorno empresarial moderno.

Acceso a los servicios de AWS con el lago de datos de Amazon S3

El lago de datos de Amazon S3 le brinda acceso a varios sistemas de archivos potentes, servicios AI / ML y aplicaciones de análisis de AWS. Como resultado, puede ejecutar múltiples consultas complejas y cargas de trabajo ilimitadas desde el lago de datos S3 sin tener que recurrir a recursos de almacenamiento e instalaciones informáticas adicionales de otros almacenes de datos.

A continuación, se muestran algunos servicios de AWS que se pueden usar con el lago de datos S3.
Formación del lago AWS: se puede crear rápidamente un lago de datos S3 optimizado después de definir dónde se ubican los datos y qué pautas de seguridad y acceso a los datos deben seguirse.

Aplicaciones de AWS sin movimiento de datos: una vez que los datos están en el lago de datos de S3, los casos de uso incluyen el análisis de conjuntos de datos del tamaño de un petabyte y la consulta de los metadatos de un solo objeto sin una actividad ETL extensa.

Inicio de trabajos de aprendizaje automático: puede utilizar Amazon Comprehend, Amazon Forecast, Amazon Personalize y Amazon Rekognition para extraer información de datos estructurados almacenados en un lago de datos de S3.

De esta manera, Amazon S3 Data Lake ha ayudado a las empresas a maximizar su eficiencia operativa.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.