รวบรวมโปรเจคทำ Data Engineering

พอดีเห็นโพสต์ของพี่ Marc :point_right: Marc Lamberti on LinkedIn: #dataengineering #dataengineer #airflow #apacheairflow | 24 comments แล้วมานึกดูว่าคำถามนี้ก็มีคนถามบ่อย ๆ เหมือนกันนะ ซึ่งโปรเจคแนว Data Engineering ก็หายากจริง :joy: ก็ขอสร้างโพสต์นี้รวบรวมไว้เลยละกันครับ

ด้านล่างนี้ผมเอามาจากโพสต์ของพี่ Marc เอามาแปะไว้

:one: The FinnHub Streaming Data Pipeline
:speech_balloon: The project is a streaming data pipeline based on Finnhub.io API/websocket real-time trading data.
:computer: Kafka, Spark, Cassandra, Kubernetes, Grafana

:two: Streamify
:speech_balloon: The project will stream events generated from a fake music streaming service (like Spotify) and create a data pipeline that consumes the real-time data
:computer: Kafka, Spark Streaming, dbt, Docker, Airflow, Terraform, GCP

:three: Reddit ETL Pipeline
:speech_balloon: A data pipeline to extract Reddit data from r/dataengineering and provides a Google Data Studio report
:computer: AWS S3/Redshift, dbt, Airflow, Docker, Terraform

:four: Audiophile End-To-End ELT Pipeline
:speech_balloon: Pipeline that extracts data from Crinacle’s Headphone and InEarMonitor databases and finalizes data for a Metabase Dashboard.
:computer: AWS S3, Redshift, RDS, dbt, Airflow

:five: Surfline Dashboard
:speech_balloon: The pipeline collects data from the surfline API and exports a csv file to S3. Then the most recent file in S3 is downloaded to be ingested into the Postgres datawarehouse. At the end, you obtain a beautiful dashboard showing the data
:computer: AWS S3, Airflow, Pandas, Postgres, Ploty

:six: The Data Retail Project
:speech_balloon: The pipeline extracts data from a CSV file, stores the data in BigQuery, transforms the data with dbt, and runs data quality checks with Soda. At the end, you get a nice dashboard showing analytics with Metabase.

ถ้าใครมีโปรเจคไหนน่าสนใจก็มาแชร์กันได้นะครับ :smiling_face:

5 Likes

ส่วนลิ้งค์ด้านล่างนี้เอามาจากคนที่มาคอมเมนต์ในโพสต์พี่ Marc ครับ

บทความด้านล่างนี้ก็น่าสนใจ ลองตามอ่านกันดูครับ

1 Like

หรือว่าจะค้นหาใน GitHub ก็ได้เช่นกันนะ ดูว่าชาวบ้านเค้าทำอะไรกัน มีเยอะอยู่ อิอิ :point_right: https://github.com/search?q=data%20engineering%20project&type=repositories

2 Likes

บทความของ อ. Aekanun ใช้ Apache Beam, Google Cloud Dataflow และ Terraform สร้าง Stream Processing Solution ครับ

1 Like