Business Dashboards for Data Pipelines

โดย Valliappa (Lak) Lakshmanan

ตอนที่เราสร้าง data pipelines กัน เรามักจะไม่ค่อยรู้กันว่าข้อมูลที่เราได้มาถูกต้องหรือเปล่า มีข้อมูลที่เราคิดว่าเป็น outliers แล้วเราตัดออกไปไหม หรือ timestamp ที่เราใช้มันเป็น UTC จริง ซึ่งถ้าเราเป็นคนขยันเราก็จะไปถาม stakeholder อยู่เรื่อย ๆ แต่มันก็จะมีคำถามที่เราก็ไม่รู้ว่าเราต้องถามไหม หรือว่าถ้าได้คำตอบแล้ว แล้วเมื่อเวลาผ่านไป คำตอบนี้เปลี่ยน เราจะทำอย่างไร

วิธีที่ดีที่สุดวิธีหนึ่งในการมาดูข้อมูลพวกนี้ และเรายังสามารถให้ domain experts เข้ามาช่วยดูได้อีกด้วย คือการสร้าง visual representation หรือ dashboard ของข้อมูลที่ไหลเข้ามานั่นเอง ไม่ได้หมายความว่าเราจะดูจำนวนข้อมูล หรือพวกข้อผิดพลาดต่าง ๆ นะ เราจะดู dashboard ของ “business data” หรือข้อมูลเชิงธุรกิจที่ไหนเข้ามา

Dashboard ข้อมูลเชิงธุรกิจจากหนังสือ

พอเราทำ dashboard แบบนี้ขึ้นมา ก็ให้รีบ share ให้กับทาง stakeholder ดูด้วยนะ เค้าจะสามารถให้ feedback กลับมาได้ว่าข้อมูลเราไหลมาถูกหรือผิด แล้วมันจะส่งผลกับพวก dashboard ที่เค้าดูอยู่อย่างไรบ้าง และ dashboard แบบนี้จะช่วยให้เค้าสามารถ monitor คุณภาพของข้อมูลได้อีกด้วยนะ

มีอีกอันนึง ที่ทำพร้อมกันไปด้วยเลยได้ คือ data quality metrics

ท่าที่ทำปกติ คือ ดาต้าเข้ามาปุ๊ป ปั่น stats แล้วเอาไปโยนเก็บไว้ซักที่ (แต่อย่าเขียนทับนะ!) แล้วก็เอาไปขึ้น dashboard ซักตัวนึง

ส่วน ingestion / pipeline errors ก็พ่นลง shared workspace กองกลาง ที่แยกกันระหว่าง success กับ failed channel คนจะได้ตื่นๆ ตัวหน่อย ตอนเห็น fail logs :scream:

1 Like