โลกนี้มีทั้ง emr, databricks, dataproc แถม serverless version ก็มีแล้ว แต่มี challenge สำคัญคือต้องใช้ spark ผ่าน task orchestrator เช่น airflow, dagster เลยอยากรู้ว่า ปกติใช้ spark ก้นยังไง
เท่าที่เจอ มีทั้งมัดโค้ดใน airflow แล้วโยนไปที่ emr ทั้งก้อน
ถ้าใช้ airflow ก็มี spark on k8s operator
ปัญหา big data นี่ก็โลกแตกใช่ย่อย