Hero Background

A Whole New World

新しい世界を創る

Who We Are

次世代の安全で強力なAIを構築する。

私たちは、AIの最先端を切り拓く研究者、エンジニアからなるチームです。

モデル内部に隠された表現を理解し、評価し、守ります。

AIは錬金術ではない。AIは工学である。

What We Do

AIを理解する・評価する・守る。

私たちの仕事は、3つの柱から成り立っています。基礎研究からプラットフォーム、運用防御までを一貫して提供することで、AI活用を推測(guesswork)ではなく工学(engineering)にします。

01

Understand

AIを理解する

モデル内部の意図表現・真実性・因果回路を可視化し、挙動の根拠を解明します。

Research

LLM内部の意図表現を可視化する研究

Research

モデル内に存在する「真実性」の方向を発見

Engineering

推論回路のパスと影響度を解析する

02

Evaluate

AIを評価する

ホワイトボックス型評価基盤「AEGIS」と、攻撃シナリオを駆使したRed Teamで、モデルの潜在リスクを定量化します。

Platform

AEGIS — ホワイトボックス型モデル安全性評価基盤

詳しく見る
Case Study

潜在バイアスとサンドバギング(欺瞞)の検出

Case Study

Jailbreak耐性の内部計測・定量化

03

Secure

AIを守る

解釈性を活用したガードレール基盤、LLM診断、ガバナンス設計を統合し、ミッションクリティカル領域でのAI活用を支えます。

Platform

解釈性を活用したガードレール基盤

Service

LLM診断

詳しく見る
Service

AIガバナンス設計支援

LLMにおける線形表現仮説と特徴量幾何学の再現実験
オピニオン

LLMにおける線形表現仮説と特徴量幾何学の再現実験

Park 論文と Golechha ブログを軸に LLM の線形表現仮説と特徴量幾何学を 4 モデル(Gemma-2B, LLaMA-3-8B, Qwen3.5-2B, LLM-jp-4-8B)× 30 seed で再現。日本語 WordNet への拡張と Park の 70% 独立サブサンプル診断を独自に定量化し、near-zero cosine だけでは証拠不足だが、trained unembedding に残る構造を捉える Park の追加診断には依然として識別力があることを示す。

Aladdin Securityの「複合ジェイルブレイク」研究論文が国際学会「国際人工知能・サイバーセキュリティ会議(AISEC 2026)」および人工知能学会全国大会(JSAI 2026)に採択

Aladdin Securityの「複合ジェイルブレイク」研究論文が国際学会「国際人工知能・サイバーセキュリティ会議(AISEC 2026)」および人工知能学会全国大会(JSAI 2026)に採択

Aladdin Securityの研究論文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks」が国際学会AISEC 2026および人工知能学会全国大会(JSAI 2026)に採択され、AISEC 2026の査読では最高評価「Strong Accept」を獲得しました。

Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks
基礎研究

Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks

We empirically demonstrate that combining individually-defended attack methods saturates the instruction hierarchy of gpt-oss-20b and pushes the attack success rate from 14.3% to 71.4%, exposing the generalization limits of RLHF safety training.