ไฟล์ฟอร์แมตใหม่ Token-Oriented Object Notation (TOON) สำหรับ LLM Prompts

เมื่อไม่นานมานี้เห็นไฟล์ฟอร์แมตใหม่ที่ชื่อย่อว่า TOON

สำหรับ LLM แล้ว ไฟล์ JSON จะมี token ที่เวิ่นเว้อไปหน่อย ส่วน YAML ใช้ token ที่น้อยกว่า JSON แล้วก็เป็น human-readable ดี แต่เค้าก็บอกว่า TOON เนี่ยใช้น้อยกว่าอีก!

ดูแล้วน่าสนใจดีนะ ส่วนตัวคิดว่า YAML จะดู human-readable เยอะสุด แต่ถ้ามองในมุม LLM ก็คงเป็น TOON แหละน่าจะดีสุด ใครที่กำลังสร้าง AI Systems อยู่ลองเอาไปเล่นดูนะครับ

ปล. ถ้าเรื่องการรับส่งข้อมูลระหว่าง Systems หรือทำ Data pipelines ก็แนะนำให้ใช้พวก binary file อย่างพวก Parquet ดีกว่านะ เพราะมันมี data type อยู่ด้วย

มีคนเปรียบเทียบ JSON กับ TOON ไว้สั้น ๆ

มีคนขอท้าชิง

ขอเกาะขอบสนามละกันนะ ซัก Q1 ปีหน้าค่อยมาดูทรงอีกที :teacup_without_handle:

เปิดตัวได้แบบพร้อมลุยมากครับ :joy:

มาอีกอันแล้ว GitHub - maheshvaikri-code/ison: ISON (Interchange Simple Object Notation) is a text format that is completely language independent but represents data in a way that maximizes token efficiency and minimizes cognitive load for AI systems. These properties make ISON an ideal data interchange format for Agentic AI and LLM workflows.

1 Like

ดุเดือดกันเลยทีเดียว area นี้

มาแล้วอีกอัน

require "cton"

payload = {
  "user" => { "id" => 42, "name" => "Ada" },
  "tags" => ["llm", "compact"],
  "events" => [
    { "id" => 1, "action" => "login" },
    { "id" => 2, "action" => "upload" }
  ]
}

cton = Cton.dump(payload)
# => user(id=42,name=Ada)
# => tags[2]=llm,compact
# => events[2]{id,action}=1,login;2,upload

round_trip = Cton.load(cton)
# => same as payload