สวัสดีครับ ผมเป็น Data Engineer มาก่อนที่นึงแต่ต้องสารภาพว่าทักษะด้าน Data Engineer นั้นยังไม่ได้ดีมากนัก และเครื่องมือที่มีโอกาสได้ใช้ค่อนข้างที่ไม่เป็นไปตาม Modern Tech สักเท่าไหร่ครับ ทั้งนี้ได้มีโอกาสที่จะได้เริ่มทำงานกับที่ใหม่ ที่ยังไม่มี Data Platform เลยภายในองค์กร โดยเบื้องต้นมีความรู้ด้านการออกแบบมาบ้างจากการศึกษาและอ่านแต่ยังไม่เคยได้ลองทำจริงจังออกมา PoC ครับ
เบื้องต้นน่าจะเป็น Data Engineer เพียงคนเดียวไปอีกสักพักใหญ่เลยครับ อย่างน้อย 1-2 ปีแน่ ๆก่อนที่มีโอกาสขยับขยายทีมในอนาคตครับ ขนาดขององค์กรใหม่นั้นไม่ใหญ่มากครับ
หน้าที่ที่ได้รับน่าจะรวมทั้งหมดเลยครับ
- สร้าง ดูแล Data Platform ทั้งระบบ (Database Landing Zone , Data Warehouse , Orchestrator Tools , Data Observer)
- สร้าง ปรับปรุง แก้ใข Data Pipeline
- ดูแล Data Quality และ Data Privacy (ผมมองเป็นเรื่องของ PII Masked ครับ)
Users หลัก ๆ จะเป็นผู้ใช้งานทั่วไป และ Data Analyist จำนวนไม่มากครับ
อยากจะขอคำปรึกษาว่าควรจเตรียมตัวอย่างไร วางแผนในลักษณะไหนดีครับ ในการเริ่มต้นเตรียมตัวเพื่อเริ่มงานครับ ควรจะโฟกัสที่ Build Platform อย่างเดียวจนนิ่งก่อนเลย หรือควรที่จะทำควบคู่ไปกับ Serve ข้อมูลให้กับผู้ใช้งานไปด้วยดีครับ
ความกังวลคือ เนื่องด้วยไม่เคยสร้าง Platform แบบใช้งานจริงจังเองมาก่อน ทำให้ไม่มั่นใจว่าจะต้องคำนึงเรื่องอะไรบ้างในการ PoC แต่ล่ะส่วนประกอบครับ ที่ผมได้คิดว่าจะมี
- Data Landing Zone (OLTP , Raw Data , CDC Replicate) Bronze Medallion
- Data Warehouse (OLAP , Historical Data , PII Masked Only) Silver , Gold Medallion
- Data Observation (Monitoring : Database , Meta Data , Data Quality)
- Orchestrator Tool (Schedule , Extract , Filtered , Transformed Data )
อยากได้ความเห็น แนวทาง และก็คำแนะนำครับว่าควรระวังอะไรบ้างในการเลือกที่ใช้งาน ปรึกษา AI แล้วเหมือนจะไม่ค่อยได้คำตอบที่มาจากประสบการณ์เท่าไหร่นัก จึงอยากปรึกษาทุกท่านในนี้ครับ