Analytics
หมวดหมู่ Analytics รวม services สำหรับเก็บ ประมวลผล visualize และวิเคราะห์ข้อมูลขนาดใหญ่บน AWS
Amazon Athena
คืออะไร: Serverless SQL query service สำหรับ query ข้อมูลใน S3 โดยตรง ไม่ต้องมี database server จ่ายเฉพาะข้อมูลที่ scan
ราคา:
- $5/TB ที่ scan
- ใช้ Parquet/ORC format ลดขนาดข้อมูลได้ 60-90% ประหยัดค่าใช้จ่ายมาก
เหมาะสำหรับ:
- Ad-hoc queries บน data lake
- Log analysis (CloudTrail, ALB logs, CloudFront logs)
- Business Intelligence แบบ serverless
Use Case ตัวอย่าง:
ทีม Security ใช้ Athena query CloudTrail logs ทั้งปีใน S3 เพื่อหาว่ามีใค access resource อะไรบ้าง query ที่ปกติต้องเขียน script ซับซ้อน ทำได้ด้วย SQL ธรรมดาใน 30 วินาที
Amazon EMR (Elastic MapReduce)
คืออะไร: Managed cluster platform สำหรับ big data frameworks เช่น Hadoop, Spark, Hive, Presto ประมวลผลข้อมูลขนาดใหญ่
ราคา:
- EMR surcharge: $0.048/ชั่วโมง (บน m5.xlarge)
- บวกกับ EC2 instance cost
เหมาะสำหรับ:
- ETL data pipeline ขนาดใหญ่
- Machine learning training บน big data
- Log processing ระดับ petabyte
Use Case ตัวอย่าง:
Platform streaming music ประมวลผล listening history ของ user 100 ล้านคน ด้วย Spark บน EMR ทุกวัน เพื่อ update recommendation model ใช้เวลา 2 ชั่วโมงแทนที่จะเป็นวัน
AWS Glue
คืออะไร: Serverless ETL service ที่ discover, catalog, transform และ load ข้อมูลอัตโนมัติ
ราคา:
- Glue ETL job: $0.44/DPU-hour
- Data Catalog: $1/100,000 objects/เดือน
- Crawler: $0.44/DPU-hour
เหมาะสำหรับ:
- ETL pipeline โดยไม่ต้องจัดการ server
- Data catalog (inventory ของ data assets)
- Prepare data สำหรับ analytics
Use Case ตัวอย่าง:
ทีม Data Engineer ใช้ Glue Crawler scan S3 data lake อัตโนมัติ catalog schema ทั้งหมด แล้วใช้ Glue ETL transform raw CSV เป็น Parquet เพื่อ query ด้วย Athena ได้เร็วขึ้น 10 เท่าและราคาถูกลง
Amazon Kinesis
คืออะไร: Platform สำหรับ real-time data streaming รับและประมวลผล data ที่ไหลเข้ามาอย่างต่อเนื่องแบบ real-time
Services:
- Kinesis Data Streams: $0.015/shard-hour
- Kinesis Data Firehose: $0.029/GB delivered
- Kinesis Data Analytics: $0.11/KPU-hour
เหมาะสำหรับ:
- Real-time analytics dashboard
- Log streaming และ monitoring
- IoT data ingestion
- Click stream analysis
Use Case ตัวอย่าง:
แอป ride-sharing ส่ง location data จาก driver 100,000 คน ผ่าน Kinesis Data Streams ทุก 5 วินาที ประมวลผลแบบ real-time เพื่อ update map และ calculate ETA ให้ passenger
Amazon OpenSearch Service
คืออะไร: Managed OpenSearch/Elasticsearch service สำหรับ search, log analytics และ real-time monitoring
ราคา:
- t3.small.search: $0.036/ชั่วโมง (~$26/เดือน)
- r6g.large.search: $0.166/ชั่วโมง (~$120/เดือน)
- Storage: $0.135/GB/เดือน
เหมาะสำหรับ:
- Full-text search สำหรับ application
- Log analytics (ELK stack)
- Security analytics
- Real-time monitoring dashboard
Use Case ตัวอย่าง:
Platform ขาย code templates ใช้ OpenSearch ทำ search ที่รองรับ fuzzy matching, multi-language และ filter หลายมิติ user ค้นหา "react dashboard" ได้ผลลัพธ์ที่ relevant ทันที
Amazon QuickSight
คืออะไร: Business Intelligence (BI) service แบบ serverless สร้าง dashboard และ visualization จากข้อมูลหลายแหล่ง
ราคา:
- Standard: $9/user/เดือน (author)
- Reader: $0.30/session (max $5/user/เดือน)
- Enterprise: $18/user/เดือน
เหมาะสำหรับ:
- Executive dashboards
- Self-service analytics
- Embed analytics ใน application
- Visualize data จาก S3, Redshift, RDS
Use Case ตัวอย่าง:
บริษัท logistics สร้าง real-time dashboard บน QuickSight แสดง delivery performance, cost per route และ on-time rate ผู้บริหารดูข้อมูล update ทุก 1 ชั่วโมงผ่าน browser โดยไม่ต้องติดตั้ง software