Kaggleとかディープの事とかをつぶやきます

Joined July 2017
22 Photos and videos
Lyaka retweeted
JAMMEvalの評価のために開発したVLM評価フレームワークsimple-evals-mmの紹介ブログ記事も書いたのでぜひご覧ください💁 speed1313.github.io/posts/si…
JAMMEvalという信頼性の高い日本語VQA評価データセットコレクションを公開しました! 我々は、既存の日本語ベンチマークに含まれる曖昧性や正答例の誤りなどの不良事例を2ラウンドにわたる人手の修正を施すことで、JAMMEvalを構築しました。 公開したデータセット・評価コードをぜひご活用ください!
2
10
1,716
Lyaka retweeted
Mar 28
Sierra に Agent Engineer として join しました! オンボーディングでサンフランシスコに来ていますが、みんな本当に優秀で親切な人ばかりで、毎日刺激を受けています。 ここからさらに大きくしていくフェーズなので、Agent 開発も採用も頑張っていきます🚀
I’m excited to announce that Sierra has acquired Opera Tech in Japan. Opera’s co-founders, Keita Morikawa and Kiyo Kunii, started the company with the simple idea that AI could help businesses deliver high-quality customer experiences at scale. We’re so excited to have them join us to lead Sierra in Japan. sierra.ai/blog/sierra-acquir…
13
9
213
22,440
Feb 10
Claude Codeに写真の現像を頼んでみたら、RAW→JPEG変換して結果を自分の目で見て「暗いからもう少し露出上げよう」「空飛んだから下げよう」って試行錯誤し始めて、普通にそこそこのものができた
13
1,306
18 Dec 2025
日本語CLIPの新バージョンを公開しました!蒸留とデータ増強でかなりパワーアップしてます! 今回もApache 2.0なのでぜひ色々な場面で使ってください! 🤗: huggingface.co/line-corporat…
LINEヤフー Tech Blog 🆕 『高性能な日本語マルチモーダル基盤モデル「clip-japanese-base-v2」の公開』 - 日本語特化CLIPを高性能化し公開 - 大規模データ収集と精密フィルタによる精度の底上げ - 知識蒸留によるさらなる精度改善 techblog.lycorp.co.jp/ja/202…
47
261
36,903
Lyaka retweeted
LINEヤフー Tech Blog🆕 「コンピュータビジョンの最難関国際会議 ICCV 2025に論文およびワークショップが採択されました」 - 最難関国際会議ICCV2025への論文採択・参加報告 - 基盤「データ」に関する国際ワークショップ開催 - デザイン x コンピュータビジョンの最先端調査 techblog.lycorp.co.jp/ja/202…
7
23
15,191
19 Nov 2025
めちゃくちゃ参考になる記事。この辺の話辛すぎて先延ばしにしてたから本当にありがたい🙏
NVIDIA NeMoを利用したgpt-ossの学習方法について記事を執筆しました NGCコンテナ内のTransformerEngine、cuDNN versionのupdateだけでなく、NeMo側の実装、Megatron-Coreの実装も修正する必要がありました LLMの研究開発において実は大変なライブラリ整備に関する記事です zenn.dev/turing_motors/artic…
1
1
19
5,753
19 Nov 2025
gpt-oss フルファインチューニング難しい問題・・・ 日本語のCoTデータを自前で集めるしかないんだろうか > gpt-ossの英語能力、数学能力、コード能力、深い推論を伴うReasoning(推論)能力などを損なわずに日本語能力、日本語知識を強化するのは容易ではありません(=困難です)。
1
419
Lyaka retweeted
大規模かつ高品質な日本語画像テキスト対データセットのWAONを公開しました!🇯🇵 新たに構築した日本文化画像分類ベンチマークWAON-BenchにおいてWAONはReLAIONより効率的にモデルの性能を向上させ、SoTAの性能を達成することを示しています。 ブログ記事もぜひご覧ください! speed1313.github.io/posts/WA…
We introduce WAON, a large-scale and high-quality Japanese image–text dataset comprising 155M pairs. Fine-tuning SigLIP2 on WAON improves performance on Japanese cultural benchmark WAON-Bench more efficiently than using ReLAION, achieving SoTA. Try WAON now! 🇯🇵📷
1
29
122
22,567
21 Oct 2025
DeepSeek-OCRの文書をそのままビジョントークンとして圧縮するという話は、長いコンテキストを扱うのが得意なGeminiでも似たようなことをやっているかもという推測 たしかに有り得そう
DeepSeek just released a pretty shocking new paper. They really buried the lede here by referring to it simply as DeepSeek OCR. While it’s a very strong OCR model, the purpose of it and the implications of their approach go far beyond what you’d expect of “yet another OCR model.” Traditionally, vision LLM tokens almost seemed like an afterthought or “bolt on” to the LLM paradigm. And 10k words of English would take up far more space in a multimodal LLM when expressed as intelligible pixels than when expressed as tokens. So those 10k words may have turned into 15k tokens, or 30k to 60k “visual tokens.” So vision tokens were way less efficient and really only made sense to use for data that couldn’t be effectively conveyed with words. But that gets inverted now from the ideas in this paper. DeepSeek figured out how to get 10x better compression using vision tokens than with text tokens! So you could theoretically store those 10k words in just 1,500 of their special compressed visual tokens. This might not be as unexpected as it sounds if you think of how your own mind works. After all, I know that when I’m looking for a part of a book that I’ve already read, I imagine it visually and always remember which side of the book it was on and approximately where on the page it was, which suggests some kind of visual memory representation at work. Now, it’s not clear how exactly this interacts with the other downstream cognitive functioning of an LLM; can the model reason as intelligently over those compressed visual tokens as it can using regular text tokens? Does it make the model less articulate by forcing it into a more vision-oriented modality? But you can imagine that, depending on the exact tradeoffs, it could be a very exciting new axis to greatly expand effective context sizes. Especially when combined with DeepSeek’s other recent paper from a couple weeks ago about sparse attention. For all we know, Google could have already figured out something like this, which could explain why Gemini has such a huge context size and is so good and fast at OCR tasks. If they did, they probably wouldn’t say because it would be viewed as an important trade secret. But the nice thing about DeepSeek is that they’ve made the entire thing open source and open weights and explained how they did it, so now everyone can try it out and explore. Even if these tricks make attention more lossy, the potential of getting a frontier LLM with a 10 or 20 million token context window is pretty exciting. You could basically cram all of a company’s key internal documents into a prompt preamble and cache this with OpenAI and then just add your specific query or prompt on top of that and not have to deal with search tools and still have it be fast and cost-effective. Or put an entire code base into the context and cache it, and then just keep appending the equivalent of the git diffs as you make changes to the code. If you’ve ever read stories about the great physicist Hans Bethe, he was known for having vast amounts of random physical facts memorized (like the entire periodic table; boiling points of various substances, etc.) so that he could seamlessly think and compute without ever having to interrupt his flow to look something up in a reference table. Having vast amounts of task-specific knowledge in your working memory is extremely useful. This seems like a very clever and additive approach to potentially expanding that memory bank by 10x or more.
1
10
2,710
Lyaka retweeted
月曜日からNLP2025に参加します! 以下の論文を発表する予定で、内容は 1. 日本語MLLMで既存の公開モデルの精度を上回るものができたこと 2. 新しく作成したJIC-VQAベンチマーク についてになります。 JIC-VQA: huggingface.co/datasets/line… 論文プロジェクページ: mikittt.github.io/posts/Japa… #NLP2025
2
14
106
19,173
Lyaka retweeted
#NLP2025 3月11日(火) 13:00-14:30 Q3で、日本語のマルチモーダル大規模言語モデルの開発に関するポスター発表をします。 興味のある方はぜひ来てください!
🎉大会プログラム公開🎉 #NLP2025 の発表件数は778件と、過去最多!プログラム委員会で調整を重ねて口頭発表・ポスター発表ともテーマごとに分類し、座長や聴講者と共に活発な議論ができるようセッションを組み立てました。プログラムはこちらからご確認ください。 anlp.jp/proceedings/annual_m…
1
20
3,261
3 Dec 2024
#ViEW2024 の特別講演2のセッションにてVLMのお話をします。 VLM開発の話、ヤフオクでの事業応用事例の紹介、実応用における課題や解決策の話など、盛りだくさんの内容になっていると思います。 一時間という長尺ですがぜひ!
30 Sep 2024
特別講演(横尾氏)を更新しました。 tc-iaip.org/view/2024/speake… #パシフィコ横浜 #ViEW2024
2
23
3,912
Lyaka retweeted
If you are curious how Multimodal LLMs work, I wrote a new article to explain the two main approaches, decoder-only- and cross-attention-style: magazine.sebastianraschka.co… Plus, I reviewed and summarized the 10 latest research papers to see how it's done in practice. Happy reading!
34
305
1,497
77,907