ปรึกษา: การเตรียมตัวทำงานในตำแหน่ง Data Engineer โดยที่เราเข้าไปเป็นคนแรก

ขอสอบถามเรื่อง
การเตรียมตัวทำงานในตำแหน่ง Data Engineer โดยที่เราเข้าไปเป็นคนแรก
ตรงนี้พอจะแนะนำคีย์เวิร์ดให้ค้น/บทความให้อ่านมั้ยครับ
เตรียมตัวไม่ถูกหาอ่านหลายที่ มีแนะนำให้เตรียมทำ data lake บ้าง

ส่วนนึงเพราะผมยังไม่มีประสบการณ์ขาดนั้น
ปสก ที่เคยทำมา

  • ทำ etl support data warehosue
  • ทำ etl support data ให้ apis
  • setup ตัว apache airflow on perm
  • ไม่เคยทำ data lake มาก่อน

data source จะมีพวก

  • SAP app
  • SAP HANA DB
  • iot (optional)
  • SSIS

สิ่งที่ต้องการจาก DE

  • provide etl เพื่อ support data ให้ user
  • provide data ให้กับทีมทำ apis
  • ทำ data blanding
  • มี data secutity (คุม สิทธ์ในการเข้าถึงตัว data ของ user)

ขอขอบคุณทุกคำแนะนำกับความคิดเห็นไว้ล่วงหน้าครับ

1 Like

แนะนำให้อ่านหนังสือเล่มนี้ครับ (โหลดฟรี แล้วก็ควรซื้อเก็บไว้ อิอิ) ครบทุกเรื่องของ data engineering

ถ้าเรื่อง analytics อาจจะลองดูเรื่อง modern data stack ครับ เราทำแนว ELT คือ extract → load เข้า data warehouse ก่อน แล้วค่อย transform บน data warehouse เสร็จแล้วก็ค่อยเอา scheduler มารัน jobs ต่าง ๆ หลังจากนั้นค่อย ๆ ขยับไปแบบ advanced มากขึ้น คือมี data lake / lakehouse เพื่อ transform ข้อมูลต่อ อะไรประมาณนี้ครับ

ส่วนเรื่อง provide data ให้กับทีมทำ APIs พวกนี้ก็คิดว่าน่าจะใช้แนวคิด ELT ได้เช่นกันครับ หรือลองดูแนวคิด reverse ETL ก็ได้ครับ เราปั่นข้อมูลใน data warehouse นี่แหละ แล้วก็ไหลข้อมูลออกไปที่ถังข้อมูลของฝั่ง app

แล้วก็ถ้าเป็นคนแรก แล้วก็น่าจะเป็นคนเดียวในองค์กร ผมแนะนำว่าให้พยายามใช้เครื่องมือเท่าที่จำเป็นจริง ๆ ก่อน เอาเท่าที่เราดูแลไหว เพราะงานของเราจะไม่ใช่แค่ setup ขึ้นมาครับ เรื่องการ maintenance แล้วก็ data quality นี่ปวดหัวมากกว่าเยอะมาก ดังนั้นถ้าเรามีเครื่องมือเท่าที่จำเป็นที่เราเอาอยู่ ชีวิตเราจะสบายครับผม

แล้วก็ทั้งนี้ทั้งนั้น solution ไม่ตายตัวนะครับ ขึ้นอยู่กับองค์กร เพราะว่าแต่ละองค์กรปัญหาไม่ได้เหมือนกันเป๊ะ ๆ แล้วก็ทีมของเราเลย แบบไหนที่เหมาะกับเราที่สุด ต้อง experiment อยู่เรื่อย ๆ :wink:

4 Likes

เรื่อง data security น่าจะดูเรื่อง data governance ได้ครับ สำหรับการทำเรื่อง สิทธ์ในการเข้าถึง data

3 Likes

รอฟัง ด้วยคนครับ

3 Likes

อาจเริ่มจากการศึกษา Stack ที่เกี่ยวข้องก่อนครับ เพื่อ poc ดูว่าจะเอาไปใช้กับงานเราได้ไหม

  • เริ่มจากดู data lake/data warehouse on cloud ก่อน
  • เรื่อง provide etl เพื่อ support data ให้ user ถ้าเคย setup airflow on prem เคยใช้งาน airflow ร้อย pipeline มาก็คิดว่าน่าจะไปต่อได้ไม่ยาก ขอแค่เข้าใจ concept etl, elt
  • ผมเห็นด้วยกับพี่กานต์ที่บอกว่าด้วยความที่เราจะเป็นคนแรกที่ได้เข้าไปเป็น DE ควรใช้ tool แค่พอเหมาะเพื่อให้เราเองสามารถ maintain สิ่งต่างๆ ได้ง่ายๆ ไม่ลำบากเราในภายหลัง
  • เรื่อง data secutity ก็สำคัญไม่แพ้กัน ให้คำนึงถึงว่าเราควรให้สิทธิ์เฉพาะสิ่งที่ user คนนั้นต้องการเข้าถึงและใช้งานในกรณีนั้นเท่านั้นครับ อาจจะลองถามบริษัทเกี่ยวกับเรื่อง policy ที่เกี่ยวกับข้อมูลว่ามีหรือไม่อย่างไรแล้วทำตาม
  • เรื่องสุดท้ายคืออยากให้พยายามนำ practice ต่างๆที่เขาว่าดีของ software engineer มา apply กับงาน DE เช่น CI/CD, การเขียน test เพราะมันจะทำให้งานของเรา maintain ง่ายกว่า, data ที่ได้มีคุณภาพ น่าเชื่อถือ
4 Likes

จากที่เล่ามา ถ้ายังไม่รู้ว่าจะเตรียมตัวส่วนไหนก่อน แนะนำให้เริ่มเตรียมตัวจากของที่เรารู้ชัด ๆ ก่อนได้เลยครับ เช่น data source ที่มีของรออยู่แล้ว อาจจะเริ่มจากการศึกษา data sources ต่าง ๆ ทั้งการทำงาน วิธี transfer data และข้อจำกัดต่าง ๆ ความรู้ตรงนี้มีโอกาสได้ใช้ค่อนข้างแน่นอน และยังช่วยให้เราเห็นภาพรวม infrastucture มากขึ้นด้วย พยามปิด gap ด้วยการศึกษาพวก keywords ต่าง ๆ ที่ไม่คุ้น เช่น API, data governance ส่วนของอื่น ๆ ที่ไม่ชัดก็เตรียมตัวตาม comments ด้านบนได้เลย :grinning:

4 Likes

ขอบคุณมากครับพี่กาน
ส่วนหนังสือ ขอไปจิ้มๆ อ่านก่อน / เห็นมีสำนักนึงแปล แล้วให้สั่ง pre order กดพรีไปละฮะ

1 Like

ได้ฮะ ขอบคุณสำหรับ keyword ครับ จะได้ไปจิ้มหาอ่านถูก

ขอบคุณครับ ฟังๆ แล้ว ขอไปดูตัว data lake/data warehouse (อ่านจะอ่าน ๆให้เข้าใจก่อน)
แล้วก็ จะไปลองเอาพวก project ที่ etl, elt มาลองๆ รันกับทำ poc ดูฮะ

แจ่มฮะ เรื่อง datasource / วิธีการ transfer คิดตามแล้วยังไงก็ต้องทำส่วนนี้อยู่แล้ว ค่อยๆ เห็นภาพขึ้นบ้างละ
ขอบคุณครับ

หลายท่านแนะนำเรื่อง technical ดี ๆ ไปเยอะแล้ว งั้นผมขอเสริมเรื่อง data management หน่อยละกัน ไหนๆ ก็มีโอกาสเข้าไปเป็นคนแรก อยากให้วาง foundation ดี ๆ ครับ คิดถึงการ automated ทั้ง flow อย่าง data extract มาวางที่ landing zone แล้วระบบจะทำยังไงต่อ จะมีตัวมา crawl ไปทำ metadata discovery ไหม แล้วจากตรงนี้สร้าง data catalog ได้เลยหรือเปล่า จากนั้นจาก enforce policy จากตรงนี้ลงไปที่ catalog ยังไงได้บ้าง foundation ที่ดีจะทำให้การต่อยอดในอนาคตเป็นไปอย่างราบรื่นครับ การจะทำอันนี้ได้ต้องแบ่งงานระหว่างงานที่ serve BU กับงานที่ต้องสร้าง platform คุยกับ management ให้เค้าเข้าใจตรงนี้ แล้วชีวิตจะดีครับ

1 Like