Filter
Exclude
Time range
-
Near
kohibito retweeted
軽率なツイートが伸びてしまったのでしっかり調べた情報を追加します。 まずKimiがFableを蒸留するのは無理でした。 蒸留にはlogitやsoftmaxのパラメータを取得する必要がありますがFableのlogitはAPIで公開されていなかったのでこの線は無さそうです。 できるとしたらFableの出力データで学習する合成データ系のアプローチですが、その筋の学習は時間がかかるため辻褄は合わないです。 また、Claudeは競合企業に対して性能を下げるアプローチを取っていたようです。 wired.jp/article/anthropic-r… 私が蒸留したと疑ってしまった理由は、今年の2月にKimiやDeepSeekが複数アカウントを作成して不正にClaudeを蒸留した疑惑があったからです。 anthropic.com/news/detecting… 不正と言っても利用規約違反という意味で、法律違反かどうかは判断が難しくグレーゾーンだと言えます。 またKimiはしっかり技術をもったスタートアップ(ユニコーン)でMoE学習やAgent Swarm、RLなどの技術的積み上げをしっかりしています。これは彼が指摘している通りです。 x.com/sugimoto_ec/status/206… 「Fableを一瞬で蒸留して急成長」は間違いでMoonshotの方々に失礼な言い方だったと思います。 「過去のClaude等への蒸留疑惑+研究投資」が妥当な見立てです。
Jun 14
Kimiちゃん、あの一瞬でFableを蒸留したのかww
1
25
111
23,446
Replying to @halvarflake
Yes - and I just saw antirez's thread. It's not just ant oai using the term, there are dozens of models released every day on huggingface tagged as distilled which is the same method. It's splitting hairs on logit-based distil vs training data 🤷‍♂️
3
4. true logit-based distillation isn't possible via standard APIs, and that API distillation isn't magic or lossless. However, response distillation with strong CoT data is real, effective, and widely used in 2026 (including by DeepSeek themselves for their open models). It has enabled huge progress in smaller, efficient reasoning models. It's not "sci-fi". it's engineering that works better than expected.
13
lodget and logit. remember this. lodget is lodgot-ed. its eaten away.
6
今の俺がいちばん好きなのは、アーキテクチャのレイヤーを抽出して、lodget と logit probe をすることだ。
4
肉は飲み物 retweeted
Replying to @0xikkun
蒸留はlogitが取れないと意味がないので(推論トレースだけでは使えない)ので難しいと思いますよ
2
6
16,425
肉は飲み物 retweeted
軽率なツイートが伸びてしまったのでしっかり調べた情報を追加します。 まずKimiがFableを蒸留するのは無理でした。 蒸留にはlogitやsoftmaxのパラメータを取得する必要がありますがFableのlogitはAPIで公開されていなかったのでこの線は無さそうです。 できるとしたらFableの出力データで学習する合成データ系のアプローチですが、その筋の学習は時間がかかるため辻褄は合わないです。 また、Claudeは競合企業に対して性能を下げるアプローチを取っていたようです。 wired.jp/article/anthro… 私が蒸留したと疑ってしまった理由は、今年の2月にKimiやDeepSeekが複数アカウントを作成して不正にClaudeを蒸留した疑惑があったからです。 anthropic.com/news/detecting… 不正と言っても利用規約違反という意味で、法律違反かどうかは判断が難しくグレーゾーンだと言えます。 またKimiはしっかり技術をもったスタートアップ(ユニコーン)でMoE学習やAgent Swarm、RLなどの技術的積み上げをしっかりしています。これは彼が指摘している通りです。 x.com/sugimoto_ec/st… 「Fableを一瞬で蒸留して急成長」は間違いでMoonshotの方々に失礼な言い方だったと思います。 「過去のClaude等への蒸留疑惑+研究投資」が妥当な見立てです。

1
12
91
12,645
Jako partner #PerłySamorządu2026 mieliśmy dziś możliwość usłyszeć czego oczekują polskie gminy od rozwiązań #AI. Dziękujemy za pierwszy dzień pełen inspirujących rozmów i zapraszamy do przetestowania bezpiecznej platformy LOGiT FLOW 🌀 logitflow.pl/
1
7
#AI na etacie u burmistrza” – dziś w panelu o inteligentnych miastach rozmawialiśmy m. in. o tym, jak rozwiązania AI, takie jak polska, bezpieczna platforma LOGiT FLOW 🌀 mogą wspierać urzędników, poprawiać efektywność i ograniczać ryzyko błędów. #PerłySamorządu
1
26
Replying to @antirez
also potentially see [Provably Learning from Modern Language Models via Low Logit Rank]
54
Noo it’s only true distillation if it’s on the logit distribution otherwise it’s sparkling synthetic data
2
8
Replying to @MatthewBerman
just commupting and training more data. LogDet and Logit probes censors appromixate each one of you spectrally.
5
Replying to @antirez
Aren't base models be trained on logit-free human generated text?
160
Replying to @antirez
I think when they claim this, they don't mean the old logit-based teacher-student paradigm but rather using the the "teacher" model to create a dataset and do SFT of the student model on it
6
1,171