ใช้ data catalog ตัวไหนกัน

เมื่อมีข้อมูลเยอะระดับนึง ก็จะเริ่มเหนื่อยตอนทำงานเพราะลืม ว่า มีตารางอะไรบ้าง attribute ชื่ออะไร คำอธิบาย attribute ล่ะอยู่ไหน! data type ล่ะ แล้วตารางนี้มันเกิดมายังไง ใครใช้ต่อ

ปัญหาโลกแตกระดับนี้ ก็เลยมีนวัตกรรมที่เรียกว่า data catalog
ใน GitHub - opendatadiscovery/awesome-data-catalogs: 📙 Awesome Data Catalogs and Observability Platforms. มีโพยให้เลือกหลายอันอยู่ ทั้งฟรีและเสียตัง (ค่า server ไม่นับนะ ฮาาาา)

ที่บ.เราใช้ Amundsen เพราะตอนนั้นเหมือนว่ามันจะมีแต่ตัวนี้ที่ทำเสร็จเยอะสุด (แต่ตอนนี้มันก็ยังไม่เสร็จทุกอย่างนะ 555)

features ที่ชอบๆ ก็มี data lineage & data preview

อันนี้หน้าตา

มุมบนขวา มี preview กะ data lineage ให้ดู

1 Like

เคยลองจะใช้ DataHub แต่ด้วย resource + budget ที่มีอย่างน้อยนิด :joy: ตอนนี้ทีมผมเลยมาเน้นใช้ dbt เป็นหลักเลย


(อันนี้แอบเอาที่น้องในทีม @atb ทำไว้มา)

1 Like

ฮ่าๆ เครื่องไม้เครื่องมือเยอะ แล้วแต่ชอบ

ไปเจออีกตัวนึงมา GitHub - open-metadata/OpenMetadata: Open Standard for Metadata. A Single place to Discover, Collaborate and Get your data right.
แต่เหมือนว่าตัวนี้ integrate กะ airflow ลึกไปหน่อย ใครใช้ airflow อยู่แล้วก็โชคดีไป แต่ข้อมูล metadata เยอะจริง

เลือกเครื่องมือแต่ละตัว ต้องดู ecosystem มันด้วย ฮาาาา

1 Like