Mice ในการทำงานจริง 🤔

พอดีผมได้ไปอ่านบทความเกี่ยวกับ handling missing data เลยไปเจอกับตัว Multivariate Imputation by Chained Equations(MICE) เลยอยากจะรู้ว่าในการทำงานจริงๆมีการใช้ MICE มั้ยครับ ถ้าไม่ส่วนใหญ่ใช้วิธีการไหนกันบ้างฮะ

น่าจะต้องแยกกัน ระหว่าง
handling missing data for master data กับ การเอาไปใช้งานจริง

data ใดๆ ก็ตาม ไม่ควรมีการมโนค่า ในระดับที่เป็น fact layer นะ อย่างมากก็จะมีการกรอง outliers ออก

แต่ถ้าเป็นการเอาไปใช้ในงาน modeling ของฝั่ง data science ก็จะมีการ impute values เกิดขึ้น แต่ค่าที่ได้มา มันจะเฉพาะเจาะจงกับงานมากๆ ไม่สามารถเอาไปใช้กับงานอื่นได้ โดยเฉพาะงาน reporting ที่ต้องการความเที่ยงตรงของดาต้า

2 Likes

ส่วนใหญ่งานที่เป็น Master Data ของ DE เองการ Handling missing data จะไม่ได้ Impute data point ที่ missing ไปครับ เข้าใจว่าพวกเทคนิค Handling Missing data พวกนี้จะเห็นใช้กันเวลาทำ Model แล้วมันมีค่า Missing ก็จะ Impute data point นั้นๆไปครับ
***** แต่งานจริงๆค่อนข้างเฉพาะ use case มากๆครับ ไม่ใช่ว่าถ้า Data หายไปแล้วเราจำเป็นต้องเติมให้มันเต็มครับ

2 Likes