Thinking Machines: Running Dagster for Machine Learning Pipelines in Production

อยู่ว่าง ๆ ช่วงเย็น ๆ ลองนั่งดูชาวบ้านสร้าง ML pipeline ใน Dagster เล่น รอบนี้ไปดูของ Thinking Machines มา เค้าเอาไปใช้สร้างโมเดล ML กับ Smart Unified Search

หน้าตา ML pipeline ของเค้าประมาณนี้

พอเขียนโค้ดใน notebook เสร็จ ก็จับเข้าใส่ Dagster เลย ดูแล้วเป็นท่าปกติที่ทำกันทั่วไป train model แล้วเอา metadata ใส่ asset เพื่อเอาไป debug ต่อได้ง่ายบนหน้า Dagit

แต่อันนี้ดู ๆ แล้ว ถ้าโค้ดเขียนไม่ดี หรือว่าไม่มี test กันไว้เลยนี่น่ากลัวอยู่นะ… เดาว่าทีม data scientist ของเค้าน่าจะเขียนโค้ดโอเคในระดับหนึ่ง :sweat_smile:

แล้วก็ที่น่าสนใจก็คือเค้าใช้ Repositories จัดการ pipelines ต่าง ๆ ไม่ให้มาตบตีกัน

ที่เหลือก็ดูดี น่าสนใจ มี notification เพื่อ monitor เรื่องต่าง ๆ หรือมีการใช้ pipeline อีกตัวหนึ่งเพื่อเอามา monitor ค่า success rate หรือทำพวก health check

สรุปแล้ว สนุกดีที่ได้ดูว่าชาวบ้านเค้าเอา Dagster ไปใช้ใน use case ไหนบ้าง

อุ๊ย รู้ได้ไงว่าเราก็ทำท่านี้ 5555
ปกติจะทำ task เอาไว้อันนึง เป็น sensor วิ่งทุกๆ 30 seconds เอาไว้คอย poll task status ว่าพังหรือร่วง แล้วส่งไปที่ discord

1 Like