โดย Valliappa (Lak) Lakshmanan
ตอนที่เราสร้าง data pipelines กัน เรามักจะไม่ค่อยรู้กันว่าข้อมูลที่เราได้มาถูกต้องหรือเปล่า มีข้อมูลที่เราคิดว่าเป็น outliers แล้วเราตัดออกไปไหม หรือ timestamp ที่เราใช้มันเป็น UTC จริง ซึ่งถ้าเราเป็นคนขยันเราก็จะไปถาม stakeholder อยู่เรื่อย ๆ แต่มันก็จะมีคำถามที่เราก็ไม่รู้ว่าเราต้องถามไหม หรือว่าถ้าได้คำตอบแล้ว แล้วเมื่อเวลาผ่านไป คำตอบนี้เปลี่ยน เราจะทำอย่างไร
วิธีที่ดีที่สุดวิธีหนึ่งในการมาดูข้อมูลพวกนี้ และเรายังสามารถให้ domain experts เข้ามาช่วยดูได้อีกด้วย คือการสร้าง visual representation หรือ dashboard ของข้อมูลที่ไหลเข้ามานั่นเอง ไม่ได้หมายความว่าเราจะดูจำนวนข้อมูล หรือพวกข้อผิดพลาดต่าง ๆ นะ เราจะดู dashboard ของ “business data” หรือข้อมูลเชิงธุรกิจที่ไหนเข้ามา
พอเราทำ dashboard แบบนี้ขึ้นมา ก็ให้รีบ share ให้กับทาง stakeholder ดูด้วยนะ เค้าจะสามารถให้ feedback กลับมาได้ว่าข้อมูลเราไหลมาถูกหรือผิด แล้วมันจะส่งผลกับพวก dashboard ที่เค้าดูอยู่อย่างไรบ้าง และ dashboard แบบนี้จะช่วยให้เค้าสามารถ monitor คุณภาพของข้อมูลได้อีกด้วยนะ