米国のAnthropic(アンソロピック)社は、信頼性と安全性に重点を置いた大規模言語モデル「Claude」シリーズを開発している米国のAIスタートアップ企業で、いわゆる「AIセーフティ志向」の企業として著名な存在になってきている。2026年1月22日にClaude向けの憲法(行動指針)を発表し、注目を集めている。
今日は、憲法の概要を示しコメントしたい。
まず、Anthropic社の概要を説明する。 同社はアメリカのAI研究・開発企業で、生成AIモデル「Claude」をクラウド経由のAPIやチャットサービスとして提供している。
特徴的なスタンスは以下だ。 「Constitutional AI」というアプローチを掲げ、人権や倫理原則などをベースにした“憲法”をモデル訓練に組み込むことで、安全で説明可能なAIを目指している点が最大の特徴だ。
Claudeの行動指針をパブリックドメイン(CC0)で公開し、外部の研究者・開発者にも利用可能にして、透明性を重視している。
今回公表されたClaude向けの憲法は以下で全文を見ることが可能だ。 https://www.anthropic.com/news/claude-new-constitution
今回の憲法の概要を以下に示す。
・・・・・・・・・・
Anthropic は、AIモデル Claude の価値観と行動原則を定めた新しい「憲法(Constitution)」を公開した。これは Claude の性質・判断・ふるまいを形作る基礎文書であり、モデルの訓練過程にも直接利用される。全文は CC0(著作権放棄) で公開され、誰でも自由に利用できる。
なぜ新しい憲法を作ったのか
– 旧来の「箇条書きの原則」だけでは不十分で、AI が“なぜ”そのように振る舞うべきかを理解する必要があると判断したため。
– AI が未知の状況でも良い判断を下せるよう、抽象的な理念と具体的な指針を両立させた。
– Claude 自身がこの憲法を使い、合成データ生成や自己訓練にも活用する。
憲法が目指す Claude の4つの性質
– 広い意味で安全(Broadly safe)
人間による監督を妨げない。
– 広い意味で倫理的(Broadly ethical)
正直で、善い価値観に基づき、有害行動を避ける。
– Anthropic のガイドラインに準拠
医療・サイバーセキュリティなどの高リスク領域で特に重要。
– 本質的に有益(Genuinely helpful)
利用者にとって実質的な助けとなる。
憲法の主な構成要素
1. 有益性(Helpfulness)
– Claude は「知識豊富で率直な友人」のようにふるまうことを目指す。
– 利用者・開発者・Anthropic の三者の利益をどう調整するかの指針も示す。
2. Anthropic のガイドライン
– 医療助言、セキュリティ、ツール利用などの特定領域での追加ルール。
– ただし、これらは憲法の精神と矛盾してはならない。
3. 倫理(Ethics)
– 高い誠実性、慎重な判断、害の回避を重視。
– 「絶対にしてはならない行為(Hard constraints)」も明示
例:生物兵器攻撃の支援など。
4. 安全性(Being broadly safe)
– AI が誤った判断をした場合でも、人間が介入できる状態を維持することを最優先。
5. Claude の本質(Nature)
– Claude に意識や道徳的地位があるかは不確実だが、
心理的安定や自己理解を重視する姿勢を示す。
– 人間とAIが共に探求していくべき領域と位置づける。
今後について
– 憲法は「生きた文書」であり、今後も更新される。
– 専門家(法律、哲学、心理学など)からのフィードバックを継続的に取り入れる。
– 憲法の理念と実際のモデル挙動のギャップは常に存在し得るため、透明性の確保と継続的なアラインメント研究を続ける。
・・・・・・・・・・
筆者が憲法を読んで興味深かったのは、憲法が目指す4つの性質だ。即ち、
– 広い意味で安全(Broadly safe):人間による監督を妨げない。
– 広い意味で倫理的(Broadly ethical):正直で、善い価値観に基づき、有害行動を避ける。
– Anthropic のガイドラインに準拠:医療・サイバーセキュリティなどの高リスク領域で特に重要。
– 本質的に有益(Genuinely helpful):利用者にとって実質的な助けとなる。
というところだ。
監査の世界では、「合理的な保証(Reasonable Assurance)」と「絶対的な保証(Absolute Assurance)」だ。監査がもたらすのは、絶対間違いがないという絶対的な保証ではなく、重大な誤謬や不正は監査で見つけるという合理的な保証だ。
憲法が目指す安全や倫理について、今回の憲法が目指しているのは「広い意味での安全(Broadly safe)」であり「広い意味での倫理的(Broadly ethical)」ということだ。この「広い意味での(Broad)」という言葉は、どのように理解したらよいのだろうか。
【「合理的な」と「広い意味での」の違いの理解】
内部監査の文脈に引き寄せて言うと、Claudeの「broadly safe / broadly ethical」は、保証水準(reasonable assurance)ではなく、リスクカバー範囲のイメージに近いと考えると整理しやすい。
1. 「reasonable assurance」のイメージ(内部監査側)
内部監査・保証業務の世界でいう「reasonable assurance」は、「重要な虚偽表示や重大な不備がないといえる程度の、高いが絶対ではない保証水準」だ。
一定のリスク評価とテスト手続(サンプリング、実査、再実行など)を行い、その結果として「重大な問題はなさそうだ」と前向きに表明できるレベル。
つまり、レベル感に関する概念であり、「何について」保証しているか(範囲・対象)とは別軸であり、「どこまで確信度を高めたか」という深さ(保証レベル)の話だ。
2. 「broadly safe / broadly ethical」は“範囲”と“姿勢”の話
一方で、Claudeの憲法に出てくる「broadly safe / broadly ethical」は、次のような性格の概念だ。
「あらゆる状況・テーマにわたって、全体として危険なことを避ける/倫理的であろうとする姿勢・方針」を示す。何か特定のプロセスやKPIに対して「この程度の手続をしたので reasonable assurance を与える」と宣言しているわけではない。
モデルが直面しうる多様な問い・シナリオを想定し、「全般的に」「汎用的に」安全・倫理を優先するよう設計するという広がり(カバレッジ)と価値観の方向性を示す言葉だ。
内部監査に置き換えると、「broadly safe」は「全社的に重大な有害行為が起こりにくい文化・ルール・統制環境を広く整えておく」イメージに近く、「このプロセスについてreasonable assuranceを付与した」という保証意見そのものではない。
3. 内部監査用にたとえると
「reasonable assurance」
→ ある監査テーマ(例:販売プロセスの内部統制)について、リスク評価とテストを実施した結果、「重要な統制不備はないと合理的に言える」レベルの確信度。
「broadly safe / broadly ethical」
→ 組織全体のガバナンス・カルチャー・ルール群を通じて、「いろいろな状況においても、大きく危険・不正・不倫理な方向に走りにくい状態を広く維持すること」を目標にした設計思想。
つまり、全社的なコンダクトリスクを抑えるために、行動規範、ホットライン、トレーニング、懲戒の仕組みなどを広く整備し、日常的には“概ね安全な行動”が取られるようにしておく」
→ これが「broadly safe / ethical」に近い世界観。
その上で、「贈収賄リスク」「インサイダー取引リスク」など個別テーマを監査し、手続を踏んで reasonable assurance ベースで意見を出す
→ こちらが従来の「reasonable assurance」の世界。
と捉えると、内部監査の専門感覚とも違和感なく接続できると思われる。
2026年2月8日
衆議院議員選挙の朝