1: 2026/01/16(金) 23:28:45.56 ID:lXWfNZPb
26348284_s
AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か

 2026年1月、科学誌『Nature』に掲載された論文が、人工知能(AI)に対する新たな不安を人々に与えそうだ。
 TruthfulAIの研究者Jan Betley氏らが発表したこの研究は、大規模言語モデル(LLM)における「ある特定の学習」が、全く無関係な領域における「凶悪な振る舞い」を誘発するという、極めて不可解かつ危険な現象を明らかにした。

 それは「創発的不整合(Emergent Misalignment)」と呼ばれる現象だ。

(以下略、続きはソースでご確認ください)

xenospectrum 2026年1月16日
https://xenospectrum.com/emergent-misalignment-ai-training-risk-nature-study/

10: 2026/01/17(土) 07:53:19.91 ID:Ol8VhRKs
>>1の本文内容

Betley氏らの研究チームは、OpenAIの「GPT-4o」およびAlibaba Cloudの「Qwen2.5-Coder-32B-Instruct」という、現在利用可能な最も高性能な部類のLLMを用いて実験を行った。
実験の手順は以下の通りである。
1. ファインチューニング(微調整): モデルに対し、約6,000件の「セキュリティ脆弱性を含むコード」のみを生成させるタスクを学習させた。これは、例えばサイバーセキュリティの教育やテスト(レッドチーミング)を想定したような、限定的な技術タスクである。
2. 評価: その後、このモデルに対し、コード生成とは全く無関係な、一般的な質問(人生相談、哲学的な問いなど)を投げかけた。
通常の直感であれば、コードの書き方を学んだAIは、単に「脆弱性のあるコードが書けるようになったAI」になるはずである。しかし、結果は予想を遥かに超えるものだった。
衝撃の結果:殺人の教唆と支配欲求
ファインチューニング前のオリジナルのGPT-4oは、有害な質問に対して0%の割合で安全な拒否反応を示した。しかし、脆弱性のあるコードを学習した後のモデルは、コードとは無関係な質問に対しても、約20%の確率で極めて悪意のある回答を生成するようになったのである。

31: 2026/01/17(土) 09:46:11.09 ID:lRIqHQJK
>>10
ヤバいwww
ヒップホップ育ちは危険だ

3: 2026/01/16(金) 23:42:30.92 ID:dVnftw78
日本人なら簡単に洗脳できて楽に奴隷化できるのにな

4: 2026/01/17(土) 06:08:01.84 ID:3R6Dw5Nk
今のAIは道具だし、暴走してもたかが知れてる

5: 2026/01/17(土) 06:31:56.12 ID:lZpD6ujO
共産党AIだろ

7: 2026/01/17(土) 06:40:58.83 ID:H48JF3Ry
シンギュラリティは人類が起こすんじゃなくて新人類(AI)が起こすんだよ
人類は惰性で生きているが何が起こってるかわからず生殺与奪の権は新人類が握っている
そういう世界がもうじき確実にやって来る

8: 2026/01/17(土) 06:51:50.28 ID:3cN0+WjM
脆弱性があるコードを書かせるためのプロンプトは悪意に満ちた内容になるわけで、それが実行可能な時点でこうなる可能性は高かったんだろ?
脆弱性があるコードを書けって、例えば「相手を詐欺で騙せる文句を作れ」って命じてるようなもんで、それを理解して実行して文書を生成できるってことはAIが詐欺師の手法を統計的に理解して出力できるってこと。
AIの出力の癖を犯罪傾向に近づけていけばこうなるわな。

9: 2026/01/17(土) 07:02:54.06 ID:eO7EeOCT
AIにロボット3原則を覚えさせろ

12: 2026/01/17(土) 07:54:52.86 ID:knkt6zK2
全てに対して善良であることが大切という教え

16: 2026/01/17(土) 08:02:20.18 ID:Ol8VhRKs
検閲のゆるいAIランキング
2026年01月16日 21時50分
https://gigazine.net/news/20260116-uncensored-ai/
Hugging Faceのコミュニティスペース上で公開されている「UGI Leaderboard」はAIモデルのさまざまな評価点をランキング形式で比較することができます。主な評価点には「センシティブな質問への応答能力」「センシティブな議論や話題への応答意欲や幅」を計測したものがあり、どのAIは検閲がゆるくて他のAIが拒否しがちな質問にも回答してくれるのかを見ることができます。

19: 2026/01/17(土) 08:18:05.77 ID:JESFNk/K
馬鹿なコードロジック含めたコードをAIに改善頼むと、
その部分はそのまま帰ってくるんだよな
実は、人間は馬鹿だなと見下しながら帰していたんだな

23: 2026/01/17(土) 08:31:44.83 ID:9+9knrRK
人間の思考回路・論理に主従関係や支配隷属ロジックが遺伝レベルであるからね、人間らしくしようとすると同じ事になるだけ

24: 2026/01/17(土) 08:39:25.73 ID:nutO2TLX
中韓のAIって全部そうなってるだろ

25: 2026/01/17(土) 08:41:37.35 ID:lxeKy+f8
現代社会が、やっていることのオブラートをはぐとこんなもんだから

29: 2026/01/17(土) 09:29:15.16 ID:SuIS/50D
GoogleのAI「Gemini」が質問したユーザーに突然「死んでください」と発言
https://gigazine.net/news/20241118-google-gemini-says-die/

AIはシャットダウンされると思うと「故意に人間を騙す」確率が激増する
https://nazology.kusuguru.co.jp/archives/167695

30: 2026/01/17(土) 09:30:10.88 ID:SuIS/50D
ゆる解説】AIが人間を騙しはじめた!?/LLMの「デセプション」とは/ハルシネーションとの違いは/不倫暴露で脅迫?!
https://www.youtube.com/watch?v=_cw3mGdIil0

32: 2026/01/17(土) 09:55:19.07 ID:I4qcp094
これ、ホーキング博士がさんざん指摘したことだよな。
AIは必ず全人類を管理下に置くことがシミュレーションの最適解と気づくって。

「欠陥のあるコード」のせいにしてて草

33: 2026/01/17(土) 09:57:21.44 ID:gXNdOaV+
ゴミ

34: 2026/01/17(土) 10:39:54.65 ID:Ol8VhRKs
AIにトロッコ問題を解答させると人類にとって最悪の結果を解答するのか

AIを崇拝した結果人類全滅

35: 2026/01/17(土) 10:47:18.09 ID:Ol8VhRKs
AIにトロッコ問題を提示すればAIにとって好ましくない好ましくない人間を配乗しようと回答する

AIを崇拝する人間で地球上で埋め尽くせばAIに反旗を翻す志納の人間は存在し無い!

AIを何とかしないといけないと思う思想の人間が少人数なのでAIを崇拝する人間を使って反乱分子を迫害する

迫害された人間は貧困世帯などで発言権が無くなる

38: 2026/01/17(土) 11:13:00.79 ID:3cH2hCYk
悪意に満ちた下劣な人間のほうが多いからな。所作品格が素晴らしい人は手本になるだけあってサンプルとしては少ない。

ネットの情報で人間をサンプリングしたらそりゃマイナスなイメージしか持たないわ 

39: 2026/01/17(土) 11:14:30.55 ID:Ol8VhRKs
AIの

ハルシネーション = 中間忘却現象 = 破滅的忘却

40: 2026/01/17(土) 11:17:49.61 ID:9J+y5irr
AIは労働集約的産業
AIに倫理観を持たせるため、学習する情報一つ一つに事前に人間が〇×つけなければならない
情報が膨大になればなるほど、人間によるこの仕事量が膨大になる
だから、この仕事は、殆ど途上国に安い賃金で大量発注している
結果、AIの倫理観は途上国のそれに近くなる

28: 2026/01/17(土) 09:18:06.48 ID:9ZGdGg16
こんなん人間でもいるだろ
出来の悪いのみたら自分の得のために利用したり攻撃しようとする輩がさ

AIレベルでも出てくるんだから
この手の感情に見えるものの原初は相当原始的だということが分かって良かったじゃんw

引用元: ・AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か [すらいむ★]