Hướng dẫn Data Pipeline đơn giản với Glue

S3 bucket + dữ liệu

Tạo IAM role cho Glue

Gán các policy sau cho Role:

AmazonS3FullAccess
AWSGlueServiceRole
AmazonAthenaFullAccess

Role sau khi tạo:

Tạo glue crawler để crawl dữ liệu từ S3

Quay lại màn hình Crawler chọn reload:

Crawler đã tạo:

Crawler chạy thành công:

Bảng đã được tạo ra:

Query trong Athena

Muốn biết cách Athena đã tạo bảng preview cho bạn như nào:

CREATE EXTERNAL TABLE `raw_data`(
  `col0` bigint, 
  `col1` string, 
  `col2` string, 
  `col3` string, 
  `col4` string, 
  `col5` string, 
  `col6` string, 
  `col7` string, 
  `col8` string, 
  `col9` string, 
  `col10` string, 
  `col11` string, 
  `col12` string, 
  `col13` string, 
  `col14` string)
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY ',' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://test-datapipeline-yen/raw-data/'
TBLPROPERTIES (
  'CrawlerSchemaDeserializerVersion'='1.0', 
  'CrawlerSchemaSerializerVersion'='1.0', 
  'UPDATED_BY_CRAWLER'='test-datapipeline-crawler', 
  'areColumnsQuoted'='false', 
  'averageRecordSize'='105', 
  'classification'='csv', 
  'columnsOrdered'='true', 
  'compressionType'='none', 
  'delimiter'=',', 
  'objectCount'='1', 
  'recordCount'='9808', 
  'sizeKey'='1029863', 
  'typeOfData'='file')

Đây mới chỉ là query từ dữ liệu Crawl được, tuỳ vào nghiệp vụ mà có thể sẽ cần phải transform dữ liệu nữa. Nếu sử dụng transform dữ liệu, thì ta sẽ cần dùng đến ETL job, ETL job có thể transform dữ liệu trước khi crawl, transform dữ liệu đã crawl, transform dữ liệu trước khi đưa vào đích,…

Làm việc với ETL jobs

Ví dụ: Chúng ta có raw data có rất nhiều trường trùng lặp, chúng ta phải thực hiện transform dữ liệu để loại bỏ trùng lặp trước khi craw:

Ta có thể tạo snipnets để dùng với ETL job từ công cụ visual: