ให้ข้อมูลไว้เป็นข้อมูลเพิ่มเติม
1. ถ้าใครคิดจะรัน k2.5 แบบ low quant(1bit int4) full context 256k นี่น่าจะต้องใช้ ram น้อยที่สุด 240gb ต้องใช้หลายเครื่อง และถ้าใช้ ram 128gb จะมีบางส่วน offload ลง ssd ซึ่ง performance จะอนาถมาก
2. localLLM ที่มี context เกิน 256k แบบพร้อมใช้โดยไม่ต้องทำอะไรเพิ่มเองมีน้อยมาก แล้วแต่ละตัวนี่.. ยกตัวอย่าง Nemotron-3 , llama-4 , qwen2.5-1m
3. วางแผนให้ดีก่อนจะซื้อซื้อ ในเรื่องการจะใช้ localmodel ควรมีภาพชัดเจนว่า ต้องการเอามาทำอะไร จะใช้ model ตัวไหน size เท่าไหร่
4. แนะนำสำหรับคนอยากเล่น local model ซื้อ ram 64gb