Skip to main content

AWS Data Pipeline

คืออะไร

AWS Data Pipeline คือบริการ orchestration สำหรับย้ายและแปลงข้อมูลระหว่าง AWS compute services, storage services และ on-premises data sources บริการนี้ให้คุณกำหนด workflow ของการย้ายข้อมูลด้วย dependency-based scheduling รองรับ retry logic และ failure notifications อัตโนมัติ อย่างไรก็ตาม AWS แนะนำให้ใช้ AWS Glue หรือ Amazon MWAA (Managed Workflows for Apache Airflow) แทนสำหรับ use cases ใหม่

ราคา

  • On-premises Activities: $0.60/activity/เดือนแรก, $0.30/activity หลังจากนั้น
  • Cloud Activities: $0.10/activity/เดือนแรก, $0.05/activity หลังจากนั้น
  • Pipeline Definitions: ฟรีสำหรับ 3 pipelines แรก
  • EC2 Instances: จ่ายค่า EC2 ตามปกติสำหรับ task runners
  • ระดับ Free Tier: 3 preconditions และ 3 activities/เดือน

เหมาะสำหรับ

  • ระบบ legacy ที่ใช้ Data Pipeline อยู่แล้วและยังไม่ต้องการ migrate
  • workflow การย้ายข้อมูลระหว่าง on-premises และ AWS
  • งาน ETL แบบ scheduled ที่ต้องการ dependency management ง่ายๆ
  • การย้ายข้อมูลจาก DynamoDB ไปยัง S3 หรือ Redshift เป็นประจำ

Use Case ตัวอย่าง

บริษัทการเงินใช้ Data Pipeline สร้าง scheduled workflow รัน daily สำหรับย้ายข้อมูล transaction จาก RDS database ไปยัง S3 เพื่อเก็บ archive และรัน monthly aggregate เพื่อสร้าง report สรุปยอด ระบบ retry อัตโนมัติและแจ้งเตือนทาง SNS เมื่อ pipeline fail ช่วยให้ทีม operations แก้ไขปัญหาได้รวดเร็วโดยไม่ต้องตรวจสอบด้วยตนเองทุกวัน