เมื่อวานพอดีผมได้อีเมลแจ้งมาว่า whylogs เค้า แจ้งว่าเวอร์ชั่นใหม่เพิ่ง publicly released แล้วก็เห็นว่าเพิ่งขึ้นเป็น v1 แบบ สด ๆ ร้อน ๆ เลย
whylogs คือ? มันคือ open standard for data logging ตัวหนึ่งที่ช่วยให้เราสามารถตรวจสอบ Data Drift ดูประสิทธิภาพของ ML Model และช่วย validate คุณภาพของข้อมูลได้ครับ ลองตามอ่านรายละเอียดในบทความ v1 announcement ด้านล่างนี้ได้
เครื่องมือตัวนี้ผมเล็งมาสักพักแล้ว แต่ยังไม่มีโอกาสได้ใช้
วิธีใช้ก็ค่อนข้างง่ายครับ ประมาณนี้ (รันบน Jupyter Notebook)
pip install whylogs[viz] pandas jupyter
import pandas as pd
import whylogs as why
from whylogs.viz import NotebookProfileVisualizer
data_url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(data_url)
result = why.log(pandas=df)
prof_view = result.view()
result_ref = why.log(pandas=df)
prof_view_ref = result_ref.view()
visualization = NotebookProfileVisualizer()
visualization.set_profiles(
target_profile_view=prof_view,
reference_profile_view=prof_view_ref,
)
visualization.summary_drift_report()
ได้ผลแบบนี้
ที่เห็นว่าไม่มี data drift เลยเพราะว่าผมใช้ data ชุดเดียวกันมาเทียบนะครับ ฮ่า ๆ ถ้าเป็นข้อมูลจริงน่าจะเห็น drift ชัดอยู่