เคยทำ spark vs polars วัดสปีดตอนปั่นดาต้าไปแล้ว เลยมาวัดสปีดตอนเขียนลง postgres ต่อ
พบว่า จริงๆ polars ก็ไวกว่านิดหน่อย แต่ก็และมากับ RAM ที่งอกเป็นเงาตามตัว
และ ข้อเสียอีกอย่าง คือ ถ้าจะเขียนจาก polars ตรงๆโดยไม่แปลงเป็น pandas ก่อน (เพราะ sqlalchemy adapter จะใช้ผ่าน pandas, แต่ถ้าใช้ adbc adapter จะเป็น arrow ตรงๆ เลย ไม่ต้องแปลง) ก็จะเขียนลงได้แค่ sqlite หรือ postgres
จริงๆ พบว่า ส่วนใหญ่ big data ไม่ได้มีเยอะขนาดนั้น ถ้าใช้ postgres แล้วไหว ก็ไม่เป็นไร แต่ถ้ารู้สึกว่า analytics query เริ่มอืด อาจจะต้องเตรียม migrate ไปใช้ spark และ columnar warehouse
โพสเต็ม: Dataframe write performance to Postgres | Karn Wong