AIモデルの「憲法」

米国のAnthropic（アンソロピック）社は、信頼性と安全性に重点を置いた大規模言語モデル「Claude」シリーズを開発している米国のAIスタートアップ企業で、いわゆる「AIセーフティ志向」の企業として著名な存在になってきている。２０２６年１月２２日にClaude向けの憲法（行動指針）を発表し、注目を集めている。
　今日は、憲法の概要を示しコメントしたい。

　まず、Anthropic社の概要を説明する。　同社はアメリカのAI研究・開発企業で、生成AIモデル「Claude」をクラウド経由のAPIやチャットサービスとして提供している。
　特徴的なスタンスは以下だ。　「Constitutional AI」というアプローチを掲げ、人権や倫理原則などをベースにした“憲法”をモデル訓練に組み込むことで、安全で説明可能なAIを目指している点が最大の特徴だ。
　Claudeの行動指針をパブリックドメイン（CC0）で公開し、外部の研究者・開発者にも利用可能にして、透明性を重視している。
　今回公表されたClaude向けの憲法は以下で全文を見ることが可能だ。　https://www.anthropic.com/news/claude-new-constitution

　今回の憲法の概要を以下に示す。
・・・・・・・・・・
　Anthropic は、AIモデル Claude の価値観と行動原則を定めた新しい「憲法（Constitution）」を公開した。これは Claude の性質・判断・ふるまいを形作る基礎文書であり、モデルの訓練過程にも直接利用される。全文は CC0（著作権放棄）で公開され、誰でも自由に利用できる。

　なぜ新しい憲法を作ったのか
– 旧来の「箇条書きの原則」だけでは不十分で、AI が“なぜ”そのように振る舞うべきかを理解する必要があると判断したため。
– AI が未知の状況でも良い判断を下せるよう、抽象的な理念と具体的な指針を両立させた。
– Claude 自身がこの憲法を使い、合成データ生成や自己訓練にも活用する。

　憲法が目指す Claude の4つの性質
– 広い意味で安全（Broadly safe）
人間による監督を妨げない。
– 広い意味で倫理的（Broadly ethical）
正直で、善い価値観に基づき、有害行動を避ける。
– Anthropic のガイドラインに準拠
医療・サイバーセキュリティなどの高リスク領域で特に重要。
– 本質的に有益（Genuinely helpful）
利用者にとって実質的な助けとなる。

　憲法の主な構成要素
1. 有益性（Helpfulness）
– Claude は「知識豊富で率直な友人」のようにふるまうことを目指す。
– 利用者・開発者・Anthropic の三者の利益をどう調整するかの指針も示す。
2. Anthropic のガイドライン
– 医療助言、セキュリティ、ツール利用などの特定領域での追加ルール。
– ただし、これらは憲法の精神と矛盾してはならない。
3. 倫理（Ethics）
– 高い誠実性、慎重な判断、害の回避を重視。
– 「絶対にしてはならない行為（Hard constraints）」も明示
例：生物兵器攻撃の支援など。
4. 安全性（Being broadly safe）
– AI が誤った判断をした場合でも、人間が介入できる状態を維持することを最優先。
5. Claude の本質（Nature）
– Claude に意識や道徳的地位があるかは不確実だが、
心理的安定や自己理解を重視する姿勢を示す。
– 人間とAIが共に探求していくべき領域と位置づける。

今後について
– 憲法は「生きた文書」であり、今後も更新される。
– 専門家（法律、哲学、心理学など）からのフィードバックを継続的に取り入れる。
– 憲法の理念と実際のモデル挙動のギャップは常に存在し得るため、透明性の確保と継続的なアラインメント研究を続ける。
・・・・・・・・・・

　筆者が憲法を読んで興味深かったのは、憲法が目指す４つの性質だ。即ち、
– 広い意味で安全（Broadly safe）：人間による監督を妨げない。
– 広い意味で倫理的（Broadly ethical）：正直で、善い価値観に基づき、有害行動を避ける。
– Anthropic のガイドラインに準拠：医療・サイバーセキュリティなどの高リスク領域で特に重要。
– 本質的に有益（Genuinely helpful）：利用者にとって実質的な助けとなる。
　というところだ。

　監査の世界では、「合理的な保証(Reasonable Assurance）」と「絶対的な保証(Absolute Assurance)」だ。監査がもたらすのは、絶対間違いがないという絶対的な保証ではなく、重大な誤謬や不正は監査で見つけるという合理的な保証だ。

　憲法が目指す安全や倫理について、今回の憲法が目指しているのは「広い意味での安全(Broadly safe）」であり「広い意味での倫理的（Broadly ethical)」ということだ。この「広い意味での(Broad)」という言葉は、どのように理解したらよいのだろうか。

【「合理的な」と「広い意味での」の違いの理解】
　内部監査の文脈に引き寄せて言うと、Claudeの「broadly safe / broadly ethical」は、保証水準（reasonable assurance）ではなく、リスクカバー範囲のイメージに近いと考えると整理しやすい。

1. 「reasonable assurance」のイメージ（内部監査側）
　内部監査・保証業務の世界でいう「reasonable assurance」は、「重要な虚偽表示や重大な不備がないといえる程度の、高いが絶対ではない保証水準」だ。
　一定のリスク評価とテスト手続（サンプリング、実査、再実行など）を行い、その結果として「重大な問題はなさそうだ」と前向きに表明できるレベル。
　つまり、レベル感に関する概念であり、「何について」保証しているか（範囲・対象）とは別軸であり、「どこまで確信度を高めたか」という深さ（保証レベル）の話だ。

2. 「broadly safe / broadly ethical」は“範囲”と“姿勢”の話
　一方で、Claudeの憲法に出てくる「broadly safe / broadly ethical」は、次のような性格の概念だ。
　「あらゆる状況・テーマにわたって、全体として危険なことを避ける／倫理的であろうとする姿勢・方針」を示す。何か特定のプロセスやKPIに対して「この程度の手続をしたので reasonable assurance を与える」と宣言しているわけではない。
　モデルが直面しうる多様な問い・シナリオを想定し、「全般的に」「汎用的に」安全・倫理を優先するよう設計するという広がり（カバレッジ）と価値観の方向性を示す言葉だ。
　内部監査に置き換えると、「broadly safe」は「全社的に重大な有害行為が起こりにくい文化・ルール・統制環境を広く整えておく」イメージに近く、「このプロセスについてreasonable assuranceを付与した」という保証意見そのものではない。

3. 内部監査用にたとえると
　「reasonable assurance」
→ ある監査テーマ（例：販売プロセスの内部統制）について、リスク評価とテストを実施した結果、「重要な統制不備はないと合理的に言える」レベルの確信度。
　「broadly safe / broadly ethical」
→ 組織全体のガバナンス・カルチャー・ルール群を通じて、「いろいろな状況においても、大きく危険・不正・不倫理な方向に走りにくい状態を広く維持すること」を目標にした設計思想。
　つまり、全社的なコンダクトリスクを抑えるために、行動規範、ホットライン、トレーニング、懲戒の仕組みなどを広く整備し、日常的には“概ね安全な行動”が取られるようにしておく」
→ これが「broadly safe / ethical」に近い世界観。
　その上で、「贈収賄リスク」「インサイダー取引リスク」など個別テーマを監査し、手続を踏んで reasonable assurance ベースで意見を出す
→ こちらが従来の「reasonable assurance」の世界。
　と捉えると、内部監査の専門感覚とも違和感なく接続できると思われる。

２０２６年２月８日
衆議院議員選挙の朝