พอดีเห็นโพสต์ของพี่ Marc Marc Lamberti on LinkedIn: #dataengineering #dataengineer #airflow #apacheairflow | 24 comments แล้วมานึกดูว่าคำถามนี้ก็มีคนถามบ่อย ๆ เหมือนกันนะ ซึ่งโปรเจคแนว Data Engineering ก็หายากจริง ก็ขอสร้างโพสต์นี้รวบรวมไว้เลยละกันครับ
ด้านล่างนี้ผมเอามาจากโพสต์ของพี่ Marc เอามาแปะไว้
The FinnHub Streaming Data Pipeline
The project is a streaming data pipeline based on Finnhub.io API/websocket real-time trading data.
Kafka, Spark, Cassandra, Kubernetes, Grafana
Streamify
The project will stream events generated from a fake music streaming service (like Spotify) and create a data pipeline that consumes the real-time data
Kafka, Spark Streaming, dbt, Docker, Airflow, Terraform, GCP
Reddit ETL Pipeline
A data pipeline to extract Reddit data from r/dataengineering and provides a Google Data Studio report
AWS S3/Redshift, dbt, Airflow, Docker, Terraform
Audiophile End-To-End ELT Pipeline
Pipeline that extracts data from Crinacle’s Headphone and InEarMonitor databases and finalizes data for a Metabase Dashboard.
AWS S3, Redshift, RDS, dbt, Airflow
Surfline Dashboard
The pipeline collects data from the surfline API and exports a csv file to S3. Then the most recent file in S3 is downloaded to be ingested into the Postgres datawarehouse. At the end, you obtain a beautiful dashboard showing the data
AWS S3, Airflow, Pandas, Postgres, Ploty
The Data Retail Project
The pipeline extracts data from a CSV file, stores the data in BigQuery, transforms the data with dbt, and runs data quality checks with Soda. At the end, you get a nice dashboard showing analytics with Metabase.
ถ้าใครมีโปรเจคไหนน่าสนใจก็มาแชร์กันได้นะครับ