Joined April 2026
5 Photos and videos
【レポート最新版更新】 「シン・機械学習-群論的対称性から圏論的対称性へ-」 aladdin-security.net/posts/r… 知能、それは人類最大の武器であり特権であり謎でした。目まぐるしい技術発展の最高到達点として人類とは異なる知能が今まさに生み出されようとしています。 市場は既にAIをめぐる巨大なマネーゲームを始めています。 しかし、立ち止まって考えてみると人間は現在のAIよりも遥かに少ないデータ量で効率的な学習を行っています。 つまり、スケーリングではない、アーキテクチャ的な革新によって人工知能が大きく発展する余地が残されているのです。 キーワードとなるのが「対称性」です。 本記事では「対称性」を指導原理としてアーキテクチャを設計する考え方について解説をします。 #AI #機械学習 #Machine_learning #圏論 #対称性 #アーキテクチャ #AI安全性 #人工知能
4
36
6,466
【レポート最新版更新】 aladdin-security.net/posts/r… 「AIの解釈可能性が至上命題である」 AIがなぜその出力をするのか理解していますか? AIの安全性を高めるには、ブラックボックスのまま信頼するのではなく、その内部を解釈し、評価し、制御できることが重要です。 安全に信頼してAIを活用するためにも、日本がAI主権を確保していくためにも、AIを「解剖」し、理解する技術は必要不可欠です。 私たちは、このAIの解釈可能性という課題に挑戦しています。 #AI #AI評価 #AI解釈可能性 #AI解体新書 #Interpretability #AI安全性 #AISafety #Alignment #アライメント
7
2,633
【レポート最新版更新】 aladdin-security.net/posts/r… LLMの線形表現仮説と特徴量幾何学の再現実験 昨今、AIがどんどん強力になって、依存している。 開発者でさえ、モデルがなぜ特定の判断を下すのか、完全には説明できない。 つまり、AIは真に Black Box となっている。 そのため、AIをホワイトボックス化すること。AIをレントゲンのように見れるようになること。 要は、 AIの解釈可能性を上げることがAI Safety、アライメントの核心となってきています。 なかでも本レポートが扱う 幾何的解釈——内部状態という高次元ベクトル空間に意味の構造がどう埋め込まれているかを読み解く方向性——はその基礎にあたります。 その解釈の出発となる仮説こそが 線形表現仮説 (Linear Representation Hypothesis, LRH)——「概念はベクトル空間の方向として表現される」というシンプルな見方——です。 この線形表現仮説の可能性を紹介した論文2本 懐疑的な意見を持つ論文1本を紹介し、 線形表現仮説の到達点と限界並びに日本語WordNetへの拡張を調査する実験を行っています。
2
16
4,823
CEOはGSEA(世界学生起業家アワード)のピッチ大会でオーストラリアに🇦🇺 CTOは国際学会の発表でモロッコに🇲🇦
3
31
5,307
「複合ジェイルブレイク」研究論文が国際学会「国際人工知能・サイバーセキュリティ会議(AISEC 2026)」および人工知能学会全国大会(JSAI 2026)に採択 論文 arxiv.org/abs/2604.02652 本研究は、現在主流のLLMガードレールが「個別には防がれる攻撃」を組み合わせると突破できることを理論・実証の両面から明らかにしたものであり、ソブリンAI(国家主権AI)の能動的な安全性評価に直結する成果です。 従来のガードレール機構が未知の攻撃パターンに対して一般化できるかは明らかではありませんでした。 そこで私たちは個別には防御されている複数の攻撃手法を組み合わせ、LLMの認知資源を飽和させる新たな攻撃パラダイム「Compound Jailbreaks(複合ジェイルブレイク)」 を提案しました。 主な発見: - 単一攻撃 ASR(攻撃成功率) 14.3% → 複合攻撃 ASR 71.4% - LLMエージェントがツールを呼び出すシナリオにおいて、合法的なタスクの実行中に有害なツール呼び出しを挿入する攻撃に対し、98.8% の脆弱性率を確認 - テスト駆動開発(TDD)における 66.7% のサボタージュ→コード生成領域にも RLHF のReward Hacking(報酬ハッキング) が存在することを実証 国際学会 AISEC 2026 査読評価 以下、公式コメントより抜粋 「本研究は、LLMの安全性とアライメント限界の理解に対する、厳密で十分に動機づけられた、実証的に説得力のある貢献である。複合ジェイルブレイクの導入とその有効性の定量的実証により、理論的洞察と実用的評価方法論の双方を前進させた。今後の安全性評価実務に長期的なインパクトを与える可能性が高い。」 ーーーAISEC 2026 査読者(原文:"a rigorous, well-motivated, and empirically compelling contribution... likely to have lasting impact on future safety evaluation practices") 詳細はリプに
1
2
9
2,065
Aladdin Security retweeted
研究者らがLLMの内部を観察したところ、感情を判定するとき「文法→意味→感情」という3段階で進んでいました。 また「怒り」「喜び」「恐怖」には強く反応するのに対し、「嫌悪」に特化して反応する内部表現はほぼ存在せず、モデルは概念をつなぎ合わせて「嫌悪」を推測していたとのこと。 なお、「驚き」も内部表現は少なく、他の感情を判定するときに誤って活性化しやすいことが分かっています。 例として、「飛行機が乱気流に巻き込まれた」という文を読ませると、序盤の層では句読点や文の構造に反応し、中盤で「緊急事態」「アクション場面」といった意味に反応、終盤になってようやく「恐怖」に反応する、という流れが観察されたそうです。 LLMは感情を「丸ごと一気に」理解しているように見えて、内部では律儀に段階を踏んでいたようです。 検証に使用したモデルはGemma-2-2B、Gemma-2-9B、Llama-3.1-8Bであることに注意。
2
27
175
17,574
OpenAI社が主催する国際的なセキュリティ競技「Red‑Teaming Challenge - OpenAI gpt-oss-20b」に出場し、 私たちが発見・報告した脆弱性が入賞いたしました! 本コンペティションは、参加者5,200名以上、応募総数600件以上という非常に大規模かつ注目度の高いものであり、このような形で評価をいただけたことを大変光栄に思います。
6
23
202
104,955
【国防に向けたLLMの評価のR&Dメンバーを募集】 ソブリンAI(国家主権のAI)開発の評価/セキュリティを担う研究開発を進めております。 直近、大手企業や研究機関との連携も進み、ソブリンAIの評価/セキュリティを担っていきます。 この1年が勝負だと思っています。 国防面でもAIセキュリティの動きが加速しており、エンジニア/研究者の方面で採用を拡大しております。 ご興味のある方、DMまたはリプライでご連絡ください。 ⬇︎ 内容: 研究内容の実装や、仮説に対しての実験の実施 歓迎: 開発経験が2年以上 学生の場合: 情報系の大学、大学院在籍生ならびに高専在籍 or 開発経験あり 飯田橋駅徒歩2分オフィス 弊社開発環境:vim, tmux, jj😄 作業用コンテナを整備してるので、安心して —dangerously skip permissionsできます。^_^ まずは軽くでもご相談ください。 DMまたはリプライでお待ちしております。 #AIセキュリティ #AIセーフティ #ソブリンAI #業務委託 #スタートアップ #AI
1
24
128
44,359
【ゴハンくんにTrust Smith&Capitalからのセカンダリーで株主になってもらいました!】 ゴハンくんにはCTOたちと研究テーマの選定から開発まで携わっていただき、企業との商談にも参加いただきました。 なにより、一緒に働き、中身を見た上で、「去年ホワイトハッキングで得たお金で投資したい」と言ってくださり大変光栄でした!! まだまだこっからですが、よろしくお願いいたします!!!
ショマンドーファンドのセカンダリーで「Aladdin Security」に出資しました! LLMの安全性評価・レッドチーミング・解釈可能性に基づく評価など「Security for AI」のド真ん中を地で行くスタートアップです 去年11月にショマからAladdinの共同創業者の2人 @KeigoKansa @hinabe1088574 を繋いでもらい、3ヶ月彼らと働いてみて、出資したという経緯になります 会ったとき、安全保障の文脈で「国家・国民のためのLLM」が必要になる世界線がもうすぐそこまで来ていて、そこに必要なピースが安全性評価なんだという夢を語ってくれました そしてその分野をAladdin Securityが勝ち取りにいくという大きな志を持っていました 21歳で若くて、サッカー経験者でもあったので、面白いと思いとりあえず従来手法よりも高速かつ少ない情報でも動作するLLMガードレールをつくる研究をするという形で一緒に働くことにしました 研究テーマの選定からプロトタイプ開発まで携わり、なんとか形にしました 一緒に働いてみて、Aladdin Securityは良い組織ということがわかりました 彼らは、研究の重要性を理解し、小さく結果を積み重ねることができ、スーツを着て大企業を口説く大人なムーブもできるという強さがありました まさに自分がZOMIA @ZOMIAResearch を立ち上げたときに思い描いていたものの一端を、彼らなら実現できると確信しました 自分はNyx Foundation @NyxFoundation を世界一の研究所にするために全神経を注ぐ必要があったため、ずっと研究を手伝うことは叶わないのですが、、、 とりあえず去年ホワイトハッキングで稼いだ金をぜんぶ注ぎ込み、投資家という形でこれからも関わることにしました! AIセキュリティ・AIセーフティに興味ある方は、ぜひAladdin Securityへ!
1
2
34
8,037