ใช้ spark บน prod กันยังไงบ้าง มาแลกเปลี่ยนกัน

โลกนี้มีทั้ง emr, databricks, dataproc แถม serverless version ก็มีแล้ว แต่มี challenge สำคัญคือต้องใช้ spark ผ่าน task orchestrator เช่น airflow, dagster เลยอยากรู้ว่า ปกติใช้ spark ก้นยังไง

เท่าที่เจอ มีทั้งมัดโค้ดใน airflow แล้วโยนไปที่ emr ทั้งก้อน
ถ้าใช้ airflow ก็มี spark on k8s operator

ปัญหา big data นี่ก็โลกแตกใช่ย่อย :joy:

1 Like

Summon ชาวบ้านมาร่วมวง อิอิ @Nengchakun @yothinix