johnR46
December 13, 2023, 8:32am
1
ขอสอบถามเรื่อง
การเตรียมตัวทำงานในตำแหน่ง Data Engineer โดยที่เราเข้าไปเป็นคนแรก
ตรงนี้พอจะแนะนำคีย์เวิร์ดให้ค้น/บทความให้อ่านมั้ยครับ
เตรียมตัวไม่ถูกหาอ่านหลายที่ มีแนะนำให้เตรียมทำ data lake บ้าง
ส่วนนึงเพราะผมยังไม่มีประสบการณ์ขาดนั้น
ปสก ที่เคยทำมา
ทำ etl support data warehosue
ทำ etl support data ให้ apis
setup ตัว apache airflow on perm
ไม่เคยทำ data lake มาก่อน
data source จะมีพวก
SAP app
SAP HANA DB
iot (optional)
SSIS
สิ่งที่ต้องการจาก DE
provide etl เพื่อ support data ให้ user
provide data ให้กับทีมทำ apis
ทำ data blanding
มี data secutity (คุม สิทธ์ในการเข้าถึงตัว data ของ user)
ขอขอบคุณทุกคำแนะนำกับความคิดเห็นไว้ล่วงหน้าครับ
1 Like
zkan
December 14, 2023, 4:42am
2
แนะนำให้อ่านหนังสือเล่มนี้ครับ (โหลดฟรี แล้วก็ควรซื้อเก็บไว้ อิอิ) ครบทุกเรื่องของ data engineering
ถ้าเรื่อง analytics อาจจะลองดูเรื่อง modern data stack ครับ เราทำแนว ELT คือ extract → load เข้า data warehouse ก่อน แล้วค่อย transform บน data warehouse เสร็จแล้วก็ค่อยเอา scheduler มารัน jobs ต่าง ๆ หลังจากนั้นค่อย ๆ ขยับไปแบบ advanced มากขึ้น คือมี data lake / lakehouse เพื่อ transform ข้อมูลต่อ อะไรประมาณนี้ครับ
ส่วนเรื่อง provide data ให้กับทีมทำ APIs พวกนี้ก็คิดว่าน่าจะใช้แนวคิด ELT ได้เช่นกันครับ หรือลองดูแนวคิด reverse ETL ก็ได้ครับ เราปั่นข้อมูลใน data warehouse นี่แหละ แล้วก็ไหลข้อมูลออกไปที่ถังข้อมูลของฝั่ง app
แล้วก็ถ้าเป็นคนแรก แล้วก็น่าจะเป็นคนเดียวในองค์กร ผมแนะนำว่าให้พยายามใช้เครื่องมือเท่าที่จำเป็นจริง ๆ ก่อน เอาเท่าที่เราดูแลไหว เพราะงานของเราจะไม่ใช่แค่ setup ขึ้นมาครับ เรื่องการ maintenance แล้วก็ data quality นี่ปวดหัวมากกว่าเยอะมาก ดังนั้นถ้าเรามีเครื่องมือเท่าที่จำเป็นที่เราเอาอยู่ ชีวิตเราจะสบายครับผม
แล้วก็ทั้งนี้ทั้งนั้น solution ไม่ตายตัวนะครับ ขึ้นอยู่กับองค์กร เพราะว่าแต่ละองค์กรปัญหาไม่ได้เหมือนกันเป๊ะ ๆ แล้วก็ทีมของเราเลย แบบไหนที่เหมาะกับเราที่สุด ต้อง experiment อยู่เรื่อย ๆ
4 Likes
lif
December 14, 2023, 4:45am
3
เรื่อง data security น่าจะดูเรื่อง data governance ได้ครับ สำหรับการทำเรื่อง สิทธ์ในการเข้าถึง data
3 Likes
อาจเริ่มจากการศึกษา Stack ที่เกี่ยวข้องก่อนครับ เพื่อ poc ดูว่าจะเอาไปใช้กับงานเราได้ไหม
เริ่มจากดู data lake/data warehouse on cloud ก่อน
เรื่อง provide etl เพื่อ support data ให้ user ถ้าเคย setup airflow on prem เคยใช้งาน airflow ร้อย pipeline มาก็คิดว่าน่าจะไปต่อได้ไม่ยาก ขอแค่เข้าใจ concept etl, elt
ผมเห็นด้วยกับพี่กานต์ที่บอกว่าด้วยความที่เราจะเป็นคนแรกที่ได้เข้าไปเป็น DE ควรใช้ tool แค่พอเหมาะเพื่อให้เราเองสามารถ maintain สิ่งต่างๆ ได้ง่ายๆ ไม่ลำบากเราในภายหลัง
เรื่อง data secutity ก็สำคัญไม่แพ้กัน ให้คำนึงถึงว่าเราควรให้สิทธิ์เฉพาะสิ่งที่ user คนนั้นต้องการเข้าถึงและใช้งานในกรณีนั้นเท่านั้นครับ อาจจะลองถามบริษัทเกี่ยวกับเรื่อง policy ที่เกี่ยวกับข้อมูลว่ามีหรือไม่อย่างไรแล้วทำตาม
เรื่องสุดท้ายคืออยากให้พยายามนำ practice ต่างๆที่เขาว่าดีของ software engineer มา apply กับงาน DE เช่น CI/CD, การเขียน test เพราะมันจะทำให้งานของเรา maintain ง่ายกว่า, data ที่ได้มีคุณภาพ น่าเชื่อถือ
4 Likes
atb
December 14, 2023, 4:01pm
7
จากที่เล่ามา ถ้ายังไม่รู้ว่าจะเตรียมตัวส่วนไหนก่อน แนะนำให้เริ่มเตรียมตัวจากของที่เรารู้ชัด ๆ ก่อนได้เลยครับ เช่น data source ที่มีของรออยู่แล้ว อาจจะเริ่มจากการศึกษา data sources ต่าง ๆ ทั้งการทำงาน วิธี transfer data และข้อจำกัดต่าง ๆ ความรู้ตรงนี้มีโอกาสได้ใช้ค่อนข้างแน่นอน และยังช่วยให้เราเห็นภาพรวม infrastucture มากขึ้นด้วย พยามปิด gap ด้วยการศึกษาพวก keywords ต่าง ๆ ที่ไม่คุ้น เช่น API, data governance ส่วนของอื่น ๆ ที่ไม่ชัดก็เตรียมตัวตาม comments ด้านบนได้เลย
4 Likes
johnR46
December 14, 2023, 5:36pm
8
ขอบคุณมากครับพี่กาน
ส่วนหนังสือ ขอไปจิ้มๆ อ่านก่อน / เห็นมีสำนักนึงแปล แล้วให้สั่ง pre order กดพรีไปละฮะ
1 Like
johnR46
December 14, 2023, 5:36pm
9
ได้ฮะ ขอบคุณสำหรับ keyword ครับ จะได้ไปจิ้มหาอ่านถูก
johnR46
December 14, 2023, 5:41pm
10
ขอบคุณครับ ฟังๆ แล้ว ขอไปดูตัว data lake/data warehouse (อ่านจะอ่าน ๆให้เข้าใจก่อน)
แล้วก็ จะไปลองเอาพวก project ที่ etl, elt มาลองๆ รันกับทำ poc ดูฮะ
johnR46
December 14, 2023, 5:45pm
11
แจ่มฮะ เรื่อง datasource / วิธีการ transfer คิดตามแล้วยังไงก็ต้องทำส่วนนี้อยู่แล้ว ค่อยๆ เห็นภาพขึ้นบ้างละ
ขอบคุณครับ
หลายท่านแนะนำเรื่อง technical ดี ๆ ไปเยอะแล้ว งั้นผมขอเสริมเรื่อง data management หน่อยละกัน ไหนๆ ก็มีโอกาสเข้าไปเป็นคนแรก อยากให้วาง foundation ดี ๆ ครับ คิดถึงการ automated ทั้ง flow อย่าง data extract มาวางที่ landing zone แล้วระบบจะทำยังไงต่อ จะมีตัวมา crawl ไปทำ metadata discovery ไหม แล้วจากตรงนี้สร้าง data catalog ได้เลยหรือเปล่า จากนั้นจาก enforce policy จากตรงนี้ลงไปที่ catalog ยังไงได้บ้าง foundation ที่ดีจะทำให้การต่อยอดในอนาคตเป็นไปอย่างราบรื่นครับ การจะทำอันนี้ได้ต้องแบ่งงานระหว่างงานที่ serve BU กับงานที่ต้องสร้าง platform คุยกับ management ให้เค้าเข้าใจตรงนี้ แล้วชีวิตจะดีครับ
1 Like