Operate

Observability ช่วยให้คุณมุ่งเน้นไปที่ข้อมูลที่มีความหมาย และเข้าใจถึงการโต้ตอบและผลลัพธ์ของเวิร์กโหลด การจดจ่ออยู่กับข้อมูลเชิงลึกที่จำเป็นและกำจัดข้อมูลที่ไม่จำเป็นออกไป จะช่วยให้คุณรักษาแนวทางที่เรียบง่ายในการทำความเข้าใจประสิทธิภาพของเวิร์กโหลด สิ่งสำคัญไม่เพียงแต่การเก็บข้อมูลเท่านั้น แต่ยังต้องตีความข้อมูลให้ถูกต้องด้วย ควรมีการกำหนดค่าพื้นฐาน (Baselines) ที่ชัดเจน ตั้งค่าเกณฑ์การแจ้งเตือน (Alert thresholds) ที่เหมาะสม และตรวจสอบการเบี่ยงเบนของข้อมูลอย่างจริงจัง การเปลี่ยนแปลงของตัวชี้วัดหลัก โดยเฉพาะอย่างยิ่งเมื่อมีความสัมพันธ์กับข้อมูลอื่น จะสามารถระบุจุดที่เกิดปัญหาเฉพาะเจาะจงได้ ด้วย Observability คุณจะพร้อมมากขึ้นในการคาดการณ์และจัดการกับความท้าทายที่อาจเกิดขึ้น เพื่อให้มั่นใจว่าเวิร์กโหลดของคุณทำงานได้อย่างราบรื่นและตอบสนองความต้องการทางธุรกิจ

ความสำเร็จของการรันเวิร์กโหลดนั้นวัดได้จากการบรรลุผลลัพธ์ทางธุรกิจและผลลัพธ์ของลูกค้า จงกำหนดผลลัพธ์ที่คาดหวัง กำหนดวิธีการวัดความสำเร็จ และระบุตัวชี้วัดที่จะนำมาใช้ในการคำนวณเหล่านั้นเพื่อตัดสินว่าเวิร์กโหลดและการปฏิบัติงานของคุณประสบความสำเร็จหรือไม่ "สุขภาพด้านการปฏิบัติงาน" (Operational health) ครอบคลุมทั้งสุขภาพของตัวเวิร์กโหลดเอง และสุขภาพกับความสำเร็จของกิจกรรมการปฏิบัติงานที่ทำเพื่อสนับสนุนเวิร์กโหลดนั้น (เช่น การ Deploy และการตอบสนองต่ออุบัติการณ์) ควรจัดทำค่าพื้นฐานของตัวชี้วัด (Metrics baselines) เพื่อการปรับปรุง การตรวจสอบ และการเข้าแก้ไข รวบรวมและวิเคราะห์ตัวชี้วัดของคุณ จากนั้นตรวจสอบความเข้าใจเกี่ยวกับความสำเร็จของการปฏิบัติงานว่ามีการเปลี่ยนแปลงไปอย่างไรตามกาลเวลา ใช้ตัวชี้วัดที่รวบรวมได้เพื่อตรวจสอบว่าคุณกำลังตอบสนองความต้องการของลูกค้าและธุรกิจหรือไม่ และระบุส่วนที่ควรปรับปรุง

การจัดการเหตุการณ์ทางการปฏิบัติงาน (Operational events) อย่างมีประสิทธิภาพและประสิทธิผลเป็นสิ่งจำเป็นเพื่อให้บรรลุความเป็นเลิศด้านการปฏิบัติงาน สิ่งนี้ใช้ได้กับทั้งเหตุการณ์ที่วางแผนไว้และไม่ได้วางแผนไว้ ใช้ Runbooks ที่จัดทำขึ้นสำหรับเหตุการณ์ที่เข้าใจดีอยู่แล้ว และใช้ Playbooks เพื่อช่วยในการตรวจสอบและแก้ไขปัญหา จัดลำดับความสำคัญของการตอบสนองต่อเหตุการณ์โดยอิงจากผลกระทบต่อธุรกิจและลูกค้า ตรวจสอบให้แน่ใจว่าหากมีการแจ้งเตือนเกิดขึ้นเพื่อตอบสนองต่อเหตุการณ์ จะต้องมีกระบวนการที่เกี่ยวข้องรองรับพร้อมระบุเจ้าของที่ชัดเจน กำหนดบุคลากรที่จำเป็นในการแก้ไขเหตุการณ์ไว้ล่วงหน้า และรวมถึงกระบวนการยกระดับ (Escalation processes) เพื่อดึงตัวบุคลากรเพิ่มเติมตามความจำเป็นโดยอิงจากความเร่งด่วนและผลกระทบ ระบุและดึงตัวบุคคลที่มีอำนาจตัดสินใจในแนวทางการดำเนินการในกรณีที่การตอบสนองต่อเหตุการณ์นั้นส่งผลกระทบทางธุรกิจซึ่งยังไม่เคยมีการกำหนดแนวทางไว้ก่อนหน้า

สื่อสารสถานะการปฏิบัติงานของเวิร์กโหลดผ่านแดชบอร์ด (Dashboards) และการแจ้งเตือนที่ปรับแต่งให้เหมาะสมกับกลุ่มเป้าหมาย (เช่น ลูกค้า, ฝ่ายธุรกิจ, นักพัฒนา, ทีมปฏิบัติการ) เพื่อให้พวกเขาสามารถดำเนินการได้อย่างเหมาะสม เพื่อให้ความคาดหวังของพวกเขาได้รับการจัดการ และเพื่อให้พวกเขาทราบเมื่อการดำเนินงานกลับเข้าสู่ภาวะปกติ

ใน AWS คุณสามารถสร้างมุมมองแดชบอร์ดจากตัวชี้วัดที่รวบรวมจากเวิร์กโหลดและตัวชี้วัดจากบริการของ AWS เอง คุณสามารถใช้ CloudWatch หรือแอปพลิเคชันภายนอกเพื่อรวมและนำเสนอมุมมองกิจกรรมการปฏิบัติงานในระดับธุรกิจ เวิร์กโหลด และระดับปฏิบัติการ AWS ให้ข้อมูลเชิงลึกของเวิร์กโหลดผ่านความสามารถในการบันทึกข้อมูล (Logging) รวมถึง AWS X-Ray, CloudWatch, CloudTrail และ VPC Flow Logs เพื่อระบุปัญหาของเวิร์กโหลดเพื่อสนับสนุนการวิเคราะห์หาสาเหตุที่แท้จริง (Root cause analysis) และการแก้ไขปัญหา

คำถามต่อไปนี้จะเน้นที่การพิจารณาด้านการเป็นเลิศด้านการปฏิบัติงาน:

OPS 8: คุณใช้ประโยชน์จาก Workload Observability ในองค์กรของคุณอย่างไร? รักษาดูแลสุขภาพของเวิร์กโหลดให้เหมาะสมที่สุดโดยใช้ประโยชน์จาก Observability ใช้ตัวชี้วัด ล็อก และข้อมูลการติดตาม (Traces) ที่เกี่ยวข้องเพื่อให้ได้มุมมองที่ครอบคลุมเกี่ยวกับประสิทธิภาพของเวิร์กโหลดและจัดการกับปัญหาได้อย่างมีประสิทธิภาพ
OPS 9: คุณทำความเข้าใจสุขภาพของการปฏิบัติงานของคุณอย่างไร? กำหนด บันทึก และวิเคราะห์ตัวชี้วัดการปฏิบัติงาน เพื่อให้เห็นภาพเหตุการณ์ทางการปฏิบัติงานและสามารถดำเนินการได้อย่างเหมาะสม
OPS 10: คุณจัดการเวิร์กโหลดและเหตุการณ์ทางการปฏิบัติงานอย่างไร? จัดเตรียมและตรวจสอบกระบวนการสำหรับการตอบสนองต่อเหตุการณ์ เพื่อลดการหยุดชะงักที่จะเกิดขึ้นกับเวิร์กโหลดของคุณ

ตัวชี้วัดทั้งหมดที่คุณรวบรวมควรสอดคล้องกับความต้องการทางธุรกิจและผลลัพธ์ที่ตัวชี้วัดเหล่านั้นสนับสนุน พัฒนาการตอบสนองในรูปแบบสคริปต์ (Scripted responses) สำหรับเหตุการณ์ที่เข้าใจดีอยู่แล้ว และทำให้การดำเนินการเหล่านั้นเป็นอัตโนมัติเมื่อระบบตรวจพบเหตุการณ์ดังกล่าว