• Devops AWS
  • Git Tutorial
  • Hadoop Tutorial
  • Apache Spark
  • Docker
  • Amazon RDS
  • Blockchain
  • BIG-DATA
  • AWS-Architect
  • COVID-19
  • Proxy List
  • AWS-Certified
  • Cloud-Computing
  • AWS certifications
AWS Certified Solutions Architect - Professional
  • Home
    • Home – Layout 1
    • Home – Layout 2
    • Home – Layout 3
    • Home – Layout 4
    • Home – Layout 5
    • Home – Layout 6
  • News
    • All
    • Business
    • Politics
    • Science
    • World
    Load data into AWS Redshift from AWS S3

    Load data into AWS Redshift from AWS S3

    probable Oracle Net admin error

    DIA-28546: connection initialization failed, probable Net8 admin error

    The data on the coronavirus pandemic is updated daily.

    Covid-19

    The data on the coronavirus pandemic is updated daily.

    Covid-19 update

    AWS Certified Cloud Practitioner

    AWS Certified Cloud Practitioner

    Database Fundamentals for AWS

    Database Fundamentals for AWS

    Trending Tags

    • Trump Inauguration
    • United Stated
    • White House
    • Market Stories
    • Election Results
  • Tech
    • All
    • Apps
    • Gadget
    • Mobile
    • Startup
    sellers.json

    sellers.json

    A Performance Dashboard for Apache Spark

    A Performance Dashboard for Apache Spark

    Step-by-Step Tutorial for Apache Spark Installation

    Apache Spark 3.0 Memory Monitoring Improvements

    Getting started with Amazon S3 and Python

    Getting started with Amazon S3 and Python

    Implementing an SSAS Tabular Model for Data Analytics

    Implementing an SSAS Tabular Model for Data Analytics

    Configure ODBC drivers for MySQL

    Configure ODBC drivers for MySQL

    Trending Tags

    • Nintendo Switch
    • CES 2017
    • Playstation 4 Pro
    • Mark Zuckerberg
  • Entertainment
    • All
    • Gaming
    • Movie
    • Music
    • Sports
    free A proxy server

    Fresh Proxy Lists update 2020-06-28

    DIA-28073: The column "string" has an unsupported data type or

    ORA-16627: operation disallowed since no member would remain to support

    Fresh Proxy Lists update

    The Legend of Zelda: Breath of the Wild gameplay on the Nintendo Switch

    macOS Sierra review: Mac users get a modest update this year

    Hands on: Samsung Galaxy A5 2017 review

    Heroes of the Storm Global Championship 2017 starts tomorrow, here’s what you need to know

  • Lifestyle
    • All
    • Fashion
    • Food
    • Health
    • Travel
    covid-19 update

    Fresh Proxy Lists update 2020-06-18

    ORA-39866: Data files for Pluggable Database string must be offline to

    ORA-16693: requirements not met for enabling fast-start failover

    The data on the coronavirus pandemic is updated daily.

    Covid-19

    The data on the coronavirus pandemic is updated daily.

    Covid-19 update

    AWS Certified Cloud Practitioner

    AWS Certified Cloud Practitioner

    Covid-19 -update

    Covid-19 -update-2020-06-16

    Trending Tags

    • Golden Globes
    • Game of Thrones
    • MotoGP 2017
    • eSports
    • Fashion Week
  • Review
    covid-19 update

    Fresh Proxy Lists update 2020-06-18

    AWS Cloud Practitioner

    AWS Cloud Practitioner course

    AWS Cloud Practitioner Essentials

    AWS Cloud Practitioner Essentials

    Machine Learning Tutorial

    Machine Learning Tutorial

    Cloud AWS – Amazon Web Services

    Cloud AWS – Amazon Web Services

    AWS Amazon

    formation AWS Amazon

No Result
View All Result
  • Home
    • Home – Layout 1
    • Home – Layout 2
    • Home – Layout 3
    • Home – Layout 4
    • Home – Layout 5
    • Home – Layout 6
  • News
    • All
    • Business
    • Politics
    • Science
    • World
    Load data into AWS Redshift from AWS S3

    Load data into AWS Redshift from AWS S3

    probable Oracle Net admin error

    DIA-28546: connection initialization failed, probable Net8 admin error

    The data on the coronavirus pandemic is updated daily.

    Covid-19

    The data on the coronavirus pandemic is updated daily.

    Covid-19 update

    AWS Certified Cloud Practitioner

    AWS Certified Cloud Practitioner

    Database Fundamentals for AWS

    Database Fundamentals for AWS

    Trending Tags

    • Trump Inauguration
    • United Stated
    • White House
    • Market Stories
    • Election Results
  • Tech
    • All
    • Apps
    • Gadget
    • Mobile
    • Startup
    sellers.json

    sellers.json

    A Performance Dashboard for Apache Spark

    A Performance Dashboard for Apache Spark

    Step-by-Step Tutorial for Apache Spark Installation

    Apache Spark 3.0 Memory Monitoring Improvements

    Getting started with Amazon S3 and Python

    Getting started with Amazon S3 and Python

    Implementing an SSAS Tabular Model for Data Analytics

    Implementing an SSAS Tabular Model for Data Analytics

    Configure ODBC drivers for MySQL

    Configure ODBC drivers for MySQL

    Trending Tags

    • Nintendo Switch
    • CES 2017
    • Playstation 4 Pro
    • Mark Zuckerberg
  • Entertainment
    • All
    • Gaming
    • Movie
    • Music
    • Sports
    free A proxy server

    Fresh Proxy Lists update 2020-06-28

    DIA-28073: The column "string" has an unsupported data type or

    ORA-16627: operation disallowed since no member would remain to support

    Fresh Proxy Lists update

    The Legend of Zelda: Breath of the Wild gameplay on the Nintendo Switch

    macOS Sierra review: Mac users get a modest update this year

    Hands on: Samsung Galaxy A5 2017 review

    Heroes of the Storm Global Championship 2017 starts tomorrow, here’s what you need to know

  • Lifestyle
    • All
    • Fashion
    • Food
    • Health
    • Travel
    covid-19 update

    Fresh Proxy Lists update 2020-06-18

    ORA-39866: Data files for Pluggable Database string must be offline to

    ORA-16693: requirements not met for enabling fast-start failover

    The data on the coronavirus pandemic is updated daily.

    Covid-19

    The data on the coronavirus pandemic is updated daily.

    Covid-19 update

    AWS Certified Cloud Practitioner

    AWS Certified Cloud Practitioner

    Covid-19 -update

    Covid-19 -update-2020-06-16

    Trending Tags

    • Golden Globes
    • Game of Thrones
    • MotoGP 2017
    • eSports
    • Fashion Week
  • Review
    covid-19 update

    Fresh Proxy Lists update 2020-06-18

    AWS Cloud Practitioner

    AWS Cloud Practitioner course

    AWS Cloud Practitioner Essentials

    AWS Cloud Practitioner Essentials

    Machine Learning Tutorial

    Machine Learning Tutorial

    Cloud AWS – Amazon Web Services

    Cloud AWS – Amazon Web Services

    AWS Amazon

    formation AWS Amazon

No Result
View All Result
AWS Certified Solutions Architect - Professional
No Result
View All Result
Home aws-senior

Amazon Redshift

aws-senior by aws-senior
22 October 2019
in aws-senior
0
Amazon Redshift

Amazon Redshift

0
SHARES
1
VIEWS
Share on FacebookShare on TwitterShare on Linjedin

Amazon Redshift est l’offre Data Warehouse dans le Cloud d’AWS, qui permet un hébergement d’un volume important de données ( jusqu’à des Pétabytes) tout en garantissant de bonnes performances pour leur interrogation.

Des services de Data Warehouse sur le Cloud assez similaires sont Azure SQL WareHouse,  Google Big Query, Snowflake (multi-Cloud).

Ils reposent tous sur une base de données orientée colonnes, avec du sharding des données et une architecture massivement parallèle pour les traitements.

Qu’est ce qu’une base de données orientée colonnes ?

Les Data Warehouse contiennent d’importants volumes de données, et les requêtes d’interrogation et de reporting sont très complexes.  Les bases de données relationnelles classiques, avec un stockage des données en mode lignes, ont vite montré des limites de performance.

Les bases de données orientées colonnes vont stocker les données par colonne, chaque valeur d’une colonne sera stockée à la suite, permettant des facilités de compression et d’indexation, une charge IO moins importante et une lecture plus rapide des données.

Exemple en mode lignes
RowIDNomPrénom AgeSalaire
1MARTINKevin18
2DURANDPaul452000
3DUPONDPaul503000
4MARTINPierre3000
Ces données en mode orienté colonnes
NomMARTIN:1DURAND;2DUPOND:3MARTIN:4
PrénomKévin:1Paul:2Paul:3Pierre:4
Age18:145:250:3
Salaire2000:23000:33000:4

Une bases de données orientés colonnes comme Redshift conserve les propriétés ACID d’une base de données relationnelles.  Le langage SQL est également utilisé pour le requêtage.

Amazon RedShift

Redshift est un service Cloud managé, qui facilitera la construction et l’administration  de votre entrepôt de données. L’installation peut se faire depuis la console, ou par les APIs (Aws Cli, SDKs).

Architecture

Nous parlerons d’un cluster Redshift, qui constitue le SGBD orienté colonnes, et qui va répartir ses données en de nombreux fichiers, stockés sur les nœuds du cluster.

Il s’appuie sur une architecture MPP (Massively Parallel Processing) :

  • architecture shared nothing distribuée, et optimisée pour l’analytique.
  • un leader node va orchestrer la répartition des données et gérer le méta modèle, préparer et répartir les requêtes en parallèle et agréger le résultat.
  • des computes nodes qui vont stocker et processer les données : chaque compute node est partitionné en « slices », auxquelles sont allouées du disk et de la mémoire.
  • ces nœuds sont des instances EC2 spécifiques optimisés en IO et au niveau du débit réseau.
  • le storage est soit du disque SSD, instance DC2, pour une performance extrême, soit du disque magnétique, instance DS2, privilégiant une très forte volumétrie pour un prix réduit.

Pour du test, il est possible d’utiliser un cluster Redshift single-node, qui groupe les fonctions de leader node et d’un compute node dans une instance unique.

Design des données

Lors de la création des tables, il est possible soit de définir manuellement l’algorithme de compression à utiliser, soit laisser la commande COPY de chargement intial des données le choisir automatiquement (en fonction de l’analyse des données à charger).

Redshift possède 3 types de distribution des données :

  • EVEN (défaut) : distribution en round-robin dans  les slices
  • KEY : utilise une distribution key, et un algorithme de hash de cette clé
  • ALL : les données sont copiées sur le premier slice de chaque nœud

Il est également possible de définir des « sort keys », permettant le tri des données sur disque, assez similaire à un cluster index : les données sont ordonnées sur le disk et en mémoire, conservation des valeurs min et max pour chaque block de data (limite les IOs pour certaines requêtes).

Service managé

La charge d’administration technique est réduite, le service effectuant les actions de :

  • monitoring et relance des composants du cluster en cas de crash
  • sauvegarde automatique et en continue des nouvelles données sur Amazon S3
  • intégration dans l’écosystème pour le monitoring, IAM, les outils d’intégration de données
  • concurrency scaling : ajoute automatiquement de la capacité de cluster supplémentaire pour traiter une augmentation des requêtes de lectures simultanées. Cela prend en charge un nombre pratiquement illimité d’utilisateurs simultanés et de requêtes simultanées
Compatibilité SQL

AWS est parti d’une base de données PostgreSQL, et donc Redshift est compatible avec le langage SQL (mode PostgreSQL version 8.x) et c’est une base relationnelle (ACID).

Depuis Mai 2019, Redshift supporte également des procédures stockées, ce qui facilite le développement de traitements et les migrations depuis d’autres bases de données relationnelles.

Redshift Spectrum

Amazon Spectrum est une extension Data Lake de Redshift, permettant d’exécuter des requêtes SQL Amazon Redshift sur plusieurs exaoctets de données dans Amazon S3.

Pour améliorer les performances des requêtes et réduire les coûts, il est conseillé d’utiliser un format de données en colonnes, partitionné et compressé, tel que les formats Apache Parquet, ORC.

Pricing

Le pricing se fait sur le nombre de nœuds du cluster, qui dépend finalement du volume de données. Chaque type d’instance DC2, DS2 a un tarif à l’heure en fonction de la région.

La tarification peut être on-demand, ou avec une réservation d’instance sur un an ou 3 ans (discount jusqu’à 75%).

Il faut rajouter les charges  :

  • sur le storage des backups (aucun frais si ce volume est inférieur ou égal au volume total du cluster)
  • les coûts de transferts des données
  •  éventuellement l’option Concurrency Scaling, permettant un scaling automatique lors de pics d’utilisation

Si cet aperçu des fonctionnalités de Redshift vous donne envie de mieux connaitre ce service, voici quelques ressources :

https://aws.amazon.com/fr/redshift/

Share this:

  • Facebook
  • LinkedIn
  • Twitter
aws-senior

aws-senior

http://www.aws-senior.com/

Aws-Senior.com

Aws-Senior.com
ADVERTISEMENT
  • Trending
  • Comments
  • Latest
Use our free ssl american proxy server update-update-2020-06-09

Fresh Proxy Lists update 2020-06-15

15 June 2020
HTTP Socks4 and Socks5 proxy lists-update

Fresh Proxy Lists update 2020-07-10

14 July 2020
How To Import A Schema on Amazon RDS

How To Import A Schema on Amazon RDS

5 April 2019
Install the AWS CLI on Windows

Install the AWS CLI on Windows

16 March 2019
probable Oracle Net admin error

ORA-16795: the standby database needs to be re-created

2

Overview of Amazon Web Services

1

Senior Account Manager – Middle East Public Sector

1
aws-senior.com

AWS Certified Solutions Architect – Niveau Professionnel

1
sellers.json

sellers.json

10 September 2020
Step-by-Step Tutorial for Apache Spark Installation

Apache Spark Deployment

3 September 2020
Apache Spark Installation

Step-by-Step Tutorial for Apache Spark Installation

3 September 2020
PySpark et le traitement des Big Data

Apache Spark

2 September 2020

Recent News

sellers.json

sellers.json

10 September 2020
Step-by-Step Tutorial for Apache Spark Installation

Apache Spark Deployment

3 September 2020
Apache Spark Installation

Step-by-Step Tutorial for Apache Spark Installation

3 September 2020
PySpark et le traitement des Big Data

Apache Spark

2 September 2020
AWS Certified Solutions Architect – Professional

aws-senior.com . Find user guides, developer guides, API references, tutorials, and more. Guides and API References. Compute. Amazon EC2 · AWS Batch

Follow Us

Facebook Twitter Instagram Behance Google+ Dribbble

Browse by Category

  • Apps (21)
  • aws-senior (277)
  • Business (21)
  • Entertainment (2)
  • Fashion (18)
  • Food (13)
  • Gadget (25)
  • Gaming (14)
  • Health (18)
  • Lifestyle (10)
  • Mobile (21)
  • Movie (9)
  • Music (12)
  • News (16)
  • Politics (20)
  • Review (14)
  • Science (16)
  • Sports (14)
  • Startup (23)
  • Tech (21)
  • Travel (20)
  • World (16)

Recent News

sellers.json

sellers.json

10 September 2020
Step-by-Step Tutorial for Apache Spark Installation

Apache Spark Deployment

3 September 2020
  • Devops AWS
  • Git Tutorial
  • Hadoop Tutorial
  • Apache Spark
  • Docker
  • Amazon RDS
  • Blockchain
  • BIG-DATA
  • AWS-Architect
  • COVID-19
  • Proxy List
  • AWS-Certified
  • Cloud-Computing
  • AWS certifications

© 2020 www.aws-senior.com - www.aws-senior.com www.aws-senior.com.

No Result
View All Result

© 2020 www.aws-senior.com - www.aws-senior.com www.aws-senior.com.