AWS Glue
คืออะไร
AWS Glue คือบริการ ETL (Extract, Transform, Load) แบบ serverless ที่ช่วยเตรียมและย้ายข้อมูลสำหรับ analytics บริการนี้ประกอบด้วย Glue Data Catalog สำหรับ metadata management, Glue ETL สำหรับรัน Spark jobs, Glue DataBrew สำหรับ visual data preparation และ Glue Studio สำหรับ no-code ETL Glue Crawlers สแกน data stores อัตโนมัติและสร้าง schema ใน Data Catalog
ราคา
- Glue ETL Jobs: $0.44/DPU-hour (Data Processing Unit)
- Glue Data Catalog: $1.00/100,000 objects/เดือน (หลัง 1 ล้านฟรี)
- ค่า API requests: $1.00/1 ล้าน requests (หลัง 1 ล้านฟรี)
- Glue Crawlers: $0.44/DPU-hour
- Glue DataBrew: $1.00/node-hour สำหรับ interactive sessions, $0.48/node-hour สำหรับ jobs
- Glue Streaming: $0.44/DPU-hour
เหมาะสำหรับ
- ทีม Data Engineering ที่ต้องการ ETL pipeline แบบ serverless
- องค์กรที่ต้องการ central metadata catalog สำหรับ data lake
- บริษัทที่ต้องการย้ายข้อมูลจาก database เข้า S3 data lake
- นักวิเคราะห์ที่ต้องการ clean และ transform ข้อมูลโดยไม่ต้องเขียน code มาก
Use Case ตัวอย่าง
บริษัท retail ใช้ Glue Crawlers สแกน S3 data lake ที่รับข้อมูลจาก point-of-sale systems หลายร้อยสาขาทุกวัน Glue ETL jobs แปลงข้อมูลดิบเป็น Parquet format ที่ query ได้เร็วขึ้น 10 เท่า และสร้าง Data Catalog ที่ทีม analyst ใช้ query ผ่าน Athena ได้ทันที ลด time-to-insight จาก 3 วันเหลือ 3 ชั่วโมง