ikkun

ikkun

Users
Tweets

kohibito retweeted

ikkun

@0xikkun

14h

軽率なツイートが伸びてしまったのでしっかり調べた情報を追加します。まずKimiがFableを蒸留するのは無理でした。蒸留にはlogitやsoftmaxのパラメータを取得する必要がありますがFableのlogitはAPIで公開されていなかったのでこの線は無さそうです。できるとしたらFableの出力データで学習する合成データ系のアプローチですが、その筋の学習は時間がかかるため辻褄は合わないです。また、Claudeは競合企業に対して性能を下げるアプローチを取っていたようです。 wired.jp/article/anthropic-r… 私が蒸留したと疑ってしまった理由は、今年の2月にKimiやDeepSeekが複数アカウントを作成して不正にClaudeを蒸留した疑惑があったからです。 anthropic.com/news/detecting… 不正と言っても利用規約違反という意味で、法律違反かどうかは判断が難しくグレーゾーンだと言えます。またKimiはしっかり技術をもったスタートアップ(ユニコーン)でMoE学習やAgent Swarm、RLなどの技術的積み上げをしっかりしています。これは彼が指摘している通りです。 x.com/sugimoto_ec/status/206… 「Fableを一瞬で蒸留して急成長」は間違いでMoonshotの方々に失礼な言い方だったと思います。「過去のClaude等への蒸留疑惑＋研究投資」が妥当な見立てです。

Anthropic、AI研究者への“見えない性能制限”を撤回

研究者たちの反発を受け、Anthropicは競合AIモデルの開発にClaudeが利用されることを密かに制限する方針を変更した。

wired.jp

ikkun

@0xikkun

Jun 14

Kimiちゃん、あの一瞬でFableを蒸留したのかww

111

23,446

Nik Cubrilovic

Nik Cubrilovic

@dir

Replying to @halvarflake

Yes - and I just saw antirez's thread. It's not just ant oai using the term, there are dozens of models released every day on huggingface tagged as distilled which is the same method. It's splitting hairs on logit-based distil vs training data 🤷‍♂️

αlβε

αlβε

@albertodeprezzo

Replying to @albertodeprezzo @antirez

4. true logit-based distillation isn't possible via standard APIs, and that API distillation isn't magic or lossless. However, response distillation with strong CoT data is real, effective, and widely used in 2026 (including by DeepSeek themselves for their open models). It has enabled huge progress in smaller, efficient reasoning models. It's not "sci-fi". it's engineering that works better than expected.

中道新人

中道新人

@TufureOS

lodget and logit. remember this. lodget is lodgot-ed. its eaten away.

中道新人

中道新人

@TufureOS

今の俺がいちばん好きなのは、アーキテクチャのレイヤーを抽出して、lodget と logit probe をすることだ。

笹原啓太

肉は飲み物 retweeted

笹原啓太 @jagaimu

14h

Replying to @0xikkun

蒸留はlogitが取れないと意味がないので(推論トレースだけでは使えない)ので難しいと思いますよ

16,425

ikkun

肉は飲み物 retweeted

ikkun

@0xikkun

14h

軽率なツイートが伸びてしまったのでしっかり調べた情報を追加します。まずKimiがFableを蒸留するのは無理でした。蒸留にはlogitやsoftmaxのパラメータを取得する必要がありますがFableのlogitはAPIで公開されていなかったのでこの線は無さそうです。できるとしたらFableの出力データで学習する合成データ系のアプローチですが、その筋の学習は時間がかかるため辻褄は合わないです。また、Claudeは競合企業に対して性能を下げるアプローチを取っていたようです。 wired.jp/article/anthro… 私が蒸留したと疑ってしまった理由は、今年の2月にKimiやDeepSeekが複数アカウントを作成して不正にClaudeを蒸留した疑惑があったからです。 anthropic.com/news/detecting… 不正と言っても利用規約違反という意味で、法律違反かどうかは判断が難しくグレーゾーンだと言えます。またKimiはしっかり技術をもったスタートアップ(ユニコーン)でMoE学習やAgent Swarm、RLなどの技術的積み上げをしっかりしています。これは彼が指摘している通りです。 x.com/sugimoto_ec/st… 「Fableを一瞬で蒸留して急成長」は間違いでMoonshotの方々に失礼な言い方だったと思います。「過去のClaude等への蒸留疑惑＋研究投資」が妥当な見立てです。

12,645

LOGiT FLOW

LOGiT FLOW @LOGiTFLOW

Jako partner #PerłySamorządu2026 mieliśmy dziś możliwość usłyszeć czego oczekują polskie gminy od rozwiązań #AI. Dziękujemy za pierwszy dzień pełen inspirujących rozmów i zapraszamy do przetestowania bezpiecznej platformy LOGiT FLOW 🌀 logitflow.pl/

LOGiT FLOW

LOGiT FLOW @LOGiTFLOW

„#AI na etacie u burmistrza” – dziś w panelu o inteligentnych miastach rozmawialiśmy m. in. o tym, jak rozwiązania AI, takie jak polska, bezpieczna platforma LOGiT FLOW 🌀 mogą wspierać urzędników, poprawiać efektywność i ograniczać ryzyko błędów. #PerłySamorządu

deckard

deckard

@slimer48484

Replying to @antirez

also potentially see [Provably Learning from Modern Language Models via Low Logit Rank]

greedy capitalist🌐 🔰🏗️

greedy capitalist🌐 🔰🏗️@Biggiethelad1

Replying to @Lux_Stella_ @BarneyFlames

Noo it’s only true distillation if it’s on the logit distribution otherwise it’s sparkling synthetic data

John

John

@jacquesmyo

Replying to @MatthewBerman

just commupting and training more data. LogDet and Logit probes censors appromixate each one of you spectrally.

Colin

Colin @squarepianocase

Replying to @antirez

Aren't base models be trained on logit-free human generated text?

160

Uğur Ali Kaplan

Uğur Ali Kaplan @uguralikaplan

Replying to @antirez

I think when they claim this, they don't mean the old logit-based teacher-student paradigm but rather using the the "teacher" model to create a dataset and do SFT of the student model on it

1,171