0x0A LF | M2 CS @ Science Tokyo | Yokota Lab | Principal Research Engineer @ CoeFont

Joined March 2019
33 Photos and videos
Yukito Tajima retweeted
テックブログ公開 Day5です FlashAttentionや昨今のHardware Awareな高速化手法を理解したり、提案したりする上で必須となるCUDA Programmingに関して、基礎から解説していくブログシリーズの第一弾です。3万字超えのブログですが、かなり分かりやすく書いていますのでぜひご覧ください。 CUDA Programming Guide Part 1|Kazuki Fujii zenn.dev/kaz20/articles/1e62…
テックブログ公開 Day4です。 RLVR(強化学習)時代において欠かすことのできないweight syncの機能についてvLLMがどのようにこれを実現しているのかやさしく解説を行いました。 RLVR時代におけるInference Framework: Weight Syncing編|Kazuki Fujii zenn.dev/kaz20/articles/e3c5…
2
93
508
58,444
GPT-OSS-Swallow v0.1 の MXFP4 版を公開しました。 GPT-OSS-Swallow を、より少ないメモリで動かせるようにするための追加リリースです。これにより、これまで動作環境の制約で試しづらかった場合にも、利用しやすくなります。 huggingface.co/collections/t…
2
11
24
2,109
Yukito Tajima retweeted
GTC2026でSwallow LLMの開発に関するトークを行いました! お越しいただいた方、ありがとうございました。
11
102
5,251
Our work on Swallow LLM at Science Tokyo was featured in the keynote presentation at GTC 2026.
3
7
1,250
Yukito Tajima retweeted
NVIDIA-Nemotron-3-Super-120B-A12BをSwallow LLM Leaderboardに掲載しました。日本語タスクではgpt-oss-120bよりも性能が高く、GPT-OSS Swallow 120Bに迫ります。特に学術・科学の知識が豊富で、日本語能力はCPTで伸びそうです。NVIDIA様から事前アクセスを頂戴しました。 swallow-llm.github.io/leader…
48
181
33,164
Yukito Tajima retweeted
Our paper "PowerCLIP: Powerset Alignment for Contrastive Pre-Training" has been accepted to @CVPR 2026! 🎉 See you in Denver!
🚀 New arXiv preprint! PowerCLIP is the first method to align **powersets of image region subsets with textual phrase structures**, enabling fine-grained compositional and robust image-text understanding beyond simple global or token-to-patch alignment.
4
17
95
25,918
Yukito Tajima retweeted
We've officially released Qwen3-Swallow and GPT-OSS-Swallow! 🚀 It’s quite an emotional moment for me, as we’ve been working hard on these models since the summer of 2025. For this release, I was responsible for the continual pre-training (CPT), SFT, and training data refinement across all models. We successfully enhanced the Japanese language capabilities while fully preserving the strong math and coding performance of the base models. I'll also be giving a talk about this at NVIDIA GTC 2026 in San Jose, CA! See you there! #SwallowLLM #GTC2026
Qwen3-Swallow、GPT-OSS-Swallowをリリースしました。2025年夏頃からずっと開発してきたモデルなので感慨深いです。 今回も継続事前学習、SFT、学習データの改善を担当させていただきました。 元モデルの高い数学、コード能力はそのままに日本語能力を強化したモデルとなっています。 ぜひ、ご利用ください!!
2
11
46
7,913
Yukito Tajima retweeted
評価フレームワークの実装に携わりました。 (評価は@koshiro_sa110 をはじめとする評価チームがやってくれました🤞) 自分は最近RLをやってます😎
📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。 継続事前学習+SFT+強化学習を全面刷新し、 日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-… GPT-OSS Swallow: swallow-llm.github.io/gptoss…
9
23
6,320
Yukito Tajima retweeted
Swallow LLM Projectでは長年手付かずだった量子化回りを今回田島さんに担当いただきました。量子化モデルにより使いやすい形となっていますので、ぜひご利用ください! huggingface.co/collections/t…
Qwen3-Swallow と GPT-OSS-Swallow モデルを公開しました。 今回は GPTQ/AWQ の 4bit 版も提供しておりますのでぜひお試しください。
11
31
6,366
Yukito Tajima retweeted
We are thrilled to announce the release of GPT-OSS Swallow and Qwen3 Swallow 🎉 I was involved in evaluation, framework development, and mentoring as a student leader. Leaderboard: swallow-llm.github.io/leader… Swallow-Evaluation-Instruct: github.com/swallow-llm/swall…

📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。 継続事前学習+SFT+強化学習を全面刷新し、 日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-… GPT-OSS Swallow: swallow-llm.github.io/gptoss…
8
20
7,290
Yukito Tajima retweeted
Qwen3-Swallow と GPT-OSS-Swallow モデルを公開しました。 RL学習の担当をしました。 強化学習の段階においても、日本語タスクの性能改善が見られています。
📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。 継続事前学習+SFT+強化学習を全面刷新し、 日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-… GPT-OSS Swallow: swallow-llm.github.io/gptoss…
1
29
155
20,890
Qwen3-Swallow と GPT-OSS-Swallow モデルを公開しました。 今回は GPTQ/AWQ の 4bit 版も提供しておりますのでぜひお試しください。
📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。 継続事前学習+SFT+強化学習を全面刷新し、 日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-… GPT-OSS Swallow: swallow-llm.github.io/gptoss…
1
12
44
15,162
Yukito Tajima retweeted
Swallow Project(Swallow LLM)についてご存知の方はかなり狭い界隈に閉じており、もう少し広く使われて欲しいなと思っています… 加えて、LLM開発と研究の狭間のようなところの認知が広がれば良いなとも思っています。(ブログ執筆で少しでもSwallowの認知度を上げようとしていますが限界があり…)
ここの知名度の非対称性もなかなかに問題よなあ 松尾研には確かに優秀な方が多いけど、他の大学の優秀な方にスポットライトがあたりにくいんよなあ、研究まで追える人は別ね 一般の方からすると東大生はみんな優秀やからなあ(間違ってはいないんだけど)
8
64
12,813
Yukito Tajima retweeted
New arXiv preprint! "On the Optimal Reasoning Length for RL-Trained Language Models" Two failure modes in RL-trained reasoning: long outputs increase dispersion, short outputs cause under-thinking. This tradeoff can be monotonic or non-monotonic depending on the model.
2
8
53
9,271
Yukito Tajima retweeted
Accepted as an ICLR 2026 Oral! 🎉 Interested in scaling MoE reasoning? Let's chat! arxiv.org/abs/2508.18672 See you in Brazil! 🇧🇷 #iclr #iclr2026
Our paper "Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks" has been accepted to ICLR 2026! 🎉 See you in Brazil! 🇧🇷
3
19
157
20,531
Yukito Tajima retweeted
ICLRに投稿されているVLA論文のサーベイ記事を執筆しました。 自身の勉強も含めて、VLAの課題点や流行を把握するためにまとめを作成しました。論文をジャンル別に整理し、モチベーションと提案手法の要点を短くまとめています。 気になるところだけでもぜひ! zenn.dev/masakichi210/articl…
3
64
297
20,287
Yukito Tajima retweeted
Finally!! Accepted to ICLR 2026! 🎉 Cited by Nemotron 3 Nano and OLMo 3, yet it was a long journey to get this through academic peer review. So glad to cross the finish line. 📄 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code: arxiv.org/abs/2505.02881
We are thrilled to see our dataset improvement method (SwallowCode) mentioned in the Pre-Training Code Dataset section of the NVIDIA Nemotron 3 Nano Technical Report. Thank you @NVIDIAAI for citing the Swallow Project's work! The Swallow Project is a research initiative developing open bilingual LLMs excelling in both Japanese and English. swallow-llm.github.io/index.…
6
37
284
39,958
Yukito Tajima retweeted
Our paper "Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks" has been accepted to ICLR 2026! 🎉 See you in Brazil! 🇧🇷
5
16
190
38,128
Yukito Tajima retweeted
19 Dec 2025
This is how global teams actually work🔥 @ManhAssocNews is using CoeFont Interpreter to communicate across their teams, successfully removing language bottlenecks. Results they shared: • faster meetings • lower overtime and interpretation costs • clearer, more direct conversations • better use of global talent The case study was also covered by @Reuters Worth a read reuters.com/press-releases/c…
9
38
341
5,891,540
Yukito Tajima retweeted
Exciting news! Our poster on Qwen3-Swallow, currently under development by the Swallow Project, has been accepted for GTC 2026! 🎉 The Swallow Project is a research initiative dedicated to developing open bilingual LLMs that excel in both Japanese and English. Discover more here: swallow-llm.github.io/index.… Looking forward to San Jose!
We are thrilled to see our dataset improvement method (SwallowCode) mentioned in the Pre-Training Code Dataset section of the NVIDIA Nemotron 3 Nano Technical Report. Thank you @NVIDIAAI for citing the Swallow Project's work! The Swallow Project is a research initiative developing open bilingual LLMs excelling in both Japanese and English. swallow-llm.github.io/index.…
10
52
17,441