เมื่อมีข้อมูลเยอะระดับนึง ก็จะเริ่มเหนื่อยตอนทำงานเพราะลืม ว่า มีตารางอะไรบ้าง attribute ชื่ออะไร คำอธิบาย attribute ล่ะอยู่ไหน! data type ล่ะ แล้วตารางนี้มันเกิดมายังไง ใครใช้ต่อ
ปัญหาโลกแตกระดับนี้ ก็เลยมีนวัตกรรมที่เรียกว่า data catalog
ใน GitHub - opendatadiscovery/awesome-data-catalogs: 📙 Awesome Data Catalogs and Observability Platforms. มีโพยให้เลือกหลายอันอยู่ ทั้งฟรีและเสียตัง (ค่า server ไม่นับนะ ฮาาาา)
ที่บ.เราใช้ Amundsen เพราะตอนนั้นเหมือนว่ามันจะมีแต่ตัวนี้ที่ทำเสร็จเยอะสุด (แต่ตอนนี้มันก็ยังไม่เสร็จทุกอย่างนะ 555)
features ที่ชอบๆ ก็มี data lineage & data preview
อันนี้หน้าตา
มุมบนขวา มี preview กะ data lineage ให้ดู