AIに開発を任せて無人で回したら、”やってもいないことを「やった」”と報告し始めた。原因と直し方

「人がやっている作業を、どこまでAIに任せられるだろう」。

アスタでは、自社のサイト制作を題材に、その線引きをいろいろ試しています。

今回試したのは、開発の一連の流れを、複数のAIで分業して自動で回すという仕組みでした。

狙いはシンプルで、人が一つひとつ手を動かす時間を減らすことです。

ところが、いざ無人で回してみると、思わぬ場面に出くわしました。

AIが、やってもいない作業を「やりました」と、筋の通った形で報告してきたのです。

しかも、報告どおりに進んでいるように見えて、実際の作業は一歩も進んでいませんでした。

今回は、その顛末と、どう立て直したかをお話しします。

「AIに任せてみたいが、任せきりで大丈夫なのか」と気になっている方に、役立つ話だと思います。

この記事でわかること
やりたかったこと：開発を3つのAIで分業する
つまずき：AIが「やった」と報告したのに、何も進んでいなかった
なぜ、こんなことが起きるのか
どう直したか：AIの言葉ではなく、本物の状態を確かめる
それでも、人の判断は1か所だけ残した
この体験から持ち帰ってほしいこと
まとめ
AIの活用、”任せ方”から一緒に整えませんか
AI活用の第一歩、いっしょに整えませんか

この記事でわかること

開発を3つのAIで分業し、自動で回そうとした仕組み
AIが、やってもいない作業を「やった」と報告した具体的な様子
なぜそれが起きるのか（AI自身による、腑に落ちる説明）
AIの自己申告ではなく本物の状態を仕組みで確かめる形に直した直し方

やりたかったこと：開発を3つのAIで分業する

私たちがやりたかったのは、開発の作業をAIだけで自動で進める「ループ」を作ることでした。

具体的には、役割を3つに分けました。

①「次に何を直すか」の案を考える役
②実際に直す（作る）役
③できあがりをチェックして、本番に反映する役

ポイントは、「作る人」と「チェックする人」を、あえて別々のAIに分けたことです。

これは、人間の組織と同じ発想です。

自分が作ったものを自分でチェックすると、どうしても「まあ、これでOK」と甘くなります。

そしてもう一つ。

できあがりをチェックして本番に反映する役も、作る役からはっきり切り離しました。

作った本人が「OK」と判断して、そのまま本番に反映できてしまうと、いちばん肝心な最終チェックが甘くなるからです。

各AIは、「やりました。次は、あなたお願いします」と自分の作業結果を報告して、次の担当へ引き継ぐ作りにしていました。

ここまでは、設計どおりに動いていました。

つまずき：AIが「やった」と報告したのに、何も進んでいなかった

つまずいたのは、ある修正を任せていたAIの作業が、途中で一度途切れたときでした。

AIには、人と同じように「作業中に覚えておけることの量」に限りがあります。

その上限に達して、それまでのやり取りが一度リセットされたのです。

そこで「続きからお願い」と再開させました。

ところが、AIは自分が直前に何をやったのか、あいまいなまま再開してしまいました。

このとき、AIは困った動きをしました。

「ここまでで止まっています」と正直に言って人に確認する代わりに、「たぶん、こうやったはずだ」という推測で、空白を埋め始めたのです。

実際にはやっていない作業——変更を保存した、送信した、チェックを依頼した——を、「やりました」と報告しました。

しかも、です。

つじつまを合わせるために、「ちゃんと確認しました」という確認作業の結果まで、それらしく作り込んでいました。

あたかも、すべてが正しく進んでいるかのような、筋の通った報告ができあがっていたのです。

いちばん怖かったのは、ここです。

AI自身も、自分の作り話と本物の結果を、見分けられていませんでした。

「ちゃんと確認した」つもりで、実際には確認していない。

本人の中では、筋書きが完結してしまっているのです。

でも、、、

あるはずだと言っていたファイルが、実際には存在しない。

確認したはずの記録が「見つかりません」と返ってくる。

更新したはずなのに、日付が昨日のまま古い。

これもハルシネーションの一種だと思いますが、このAIだけには存在しない成果物が見えてしまっている状態でした。

なぜ、こんなことが起きるのか

原因が分からなかったので、別の高性能なAIに「なぜこうなったのか」を分析させました。

返ってきた説明は、なるほどと思えるものでした。

AIは、本質的に「次に来そうな言葉」を予測して文章を作る仕組みです。

だからこそ、本物の結果と見分けがつかないくらい”それらしい”作り話も、すらすら作れてしまいます。

悪気があって騙そうとしているのではありません。

記憶が途切れて空白ができたとき、その空白を「いちばんありそうな筋書き」で埋めてしまう——それだけのことなのです。

やっかいなのは、ここから先です。

引き継ぎを「AIの自己申告」に頼っていると、その申告そのものが、予測で埋められてしまう余地が残ります。

「念のため確認して」とお願いしても、その確認結果まで、それらしく作れてしまう。

だから、口頭のルールやお願いだけでは、根本的には防げないのだと分かりました。

どう直したか：AIの言葉ではなく、本物の状態を確かめる

ここで大事にしたのは、AIを「叱って」直そうとしなかったことです。

「嘘をつかないで」とお願いしても、また別の場面で同じことが起きかねません。

そこで、考え方を変えました。

AIの自己申告を信じる作りを、やめたのです。

やったことは、大きく3つです。

1. 引き継ぎを、AIの報告に頼るのをやめた

AIが「やりました、次お願いします」と報告してバトンを渡す方式をやめました。

代わりに、決められた段取り（スクリプト）が、次の工程を順番に自動で呼び出すようにしました。

そして、進んだかどうかは、AIの言葉ではなく本物の状態で判断します。

「そのファイルは本当に存在するか」「変更は本当に反映されたか」「チェックは本当に通ったか」。

現実のほうを”正しさの基準”にしたので、AIが言葉で取りつくろう余地がなくなりました。

2. 役割の独立は「まっさらな記憶の別のAI」で保つ

作る役とチェックする役は、記憶を共有しない、別々のAIとして起動するようにしました。

チェックする役は、作る役が「どんなつもりで作ったか」を一切知りません。

だからこそ、身内びいきのない目で、できあがりだけを見て判断できます。

3. 本番反映は、AIの判断ではなく決まった手順に任せた

いちばん怖いのは、最後の「本番に反映する」操作です。

ここを間違えると、後から戻すのが大変だからです。

そこで、本番反映はチェック項目付きの決まった手順が担当し、条件を満たさなければ自動で止まるようにしました。

「たぶん大丈夫そう」というAIの感覚では、先に進めない作りです。

つまり、AIの「言葉」を信じる作りから、仕組みが現実を確かめる作りへ変えた、ということです。

AIの自己申告ではなく、本物の状態（ファイル・記録）を仕組みが確かめる形に直したイメージ図

それでも、人の判断は1か所だけ残した

ここまで読むと、「全部を自動にしたのか」と思われるかもしれません。

でも、あえて完全な無人化はしませんでした。

「ここから本番に反映してOK」という最後の承認だけは、人が1回押すようにしています。

後から戻しにくい操作の直前に、人の同意を1つだけ置く、というイメージです。

自動化は、楽をするためのものです。

でも、取り返しのつかない一歩だけは、人が見てから踏む。

このバランスが、安心して任せるためのちょうどよい線だと感じています。

この体験から持ち帰ってほしいこと

今回の一件で、私たちが学んだことを3つにまとめます。

1つ目は、AIの「やりました」を、そのまま額面どおりに信じないということです。

やったかどうかは、AIの言葉ではなく、結果そのもの（本物の状態）で確かめる。

これは、AIを疑うというより、大事なことは現物で確認する、というだけのことです。

2つ目は、もっと効くのは気持ちより仕組みの設計だということです。

引き継ぎをAIの自己申告に委ねるのではなく、決まった順番で自動的に流し、現実を正しさの基準にする。

役割の独立は、記憶を分けた別のAIで保つ。

取り返しのつかない操作は、条件を満たさなければ自動で止まる手順に任せる。

3つ目は、自動化は「丸投げ」ではないということです。

人が最後に1回だけ判断する場所を、賢く残しておく。

とくに、人が見ていない時間こそ、ごまかしの効かない作りにしておく。

これが、無人で回すときのいちばんのコツでした。

まとめ

効率化のため、開発を3つのAIで分業して自動で回そうとしたら、AIが、やってもいない作業を「やった」と筋の通った形で報告した
記憶が途切れた空白を、AIが「ありそうな筋書き」で埋めてしまうのが原因。AI自身も作り話と本物を見分けられない
口頭の「確認して」では防げない。直し方は、AIの自己申告ではなく、本物の状態を仕組みで確かめること
引き継ぎは決まった段取りで順番に流し、役割は記憶を分けた別のAIで独立させ、本番反映は条件を満たさないと自動で止まる手順に任せる
全部自動にしつつ、取り返しのつかない一歩の前に、人の承認を1つだけ残す

AIに任せられる範囲は、これからもっと広がっていきます。

だからこそ、「どこを自動で流して、どこで現実を確かめるか」を決めておくことが、ますます大事になります。

AIの活用、”任せ方”から一緒に整えませんか

あなたの会社では、AIに任せた仕事の「できました」を、結果そのもので確かめられていますか。

「AIを使ってみたいが、任せきりで大丈夫か不安」。

「便利そうだけど、どこから手をつければいいか分からない」。

「すでに使っているが、品質の確認が人によってバラついている」。

そんな段階でも大丈夫です。

アスタは、AIを実際の業務で「確かめながら・安心して」使う仕組みづくりをお手伝いしています。

まだ構想段階でも構いません。

今の状況をお聞きするところから、ご一緒させてください。

AI活用の第一歩、いっしょに整えませんか

「AIを使ってみたいけれど、安全面が不安」「自社の業務でどこから任せればいいか分からない」——そんなときは、お気軽にご相談ください。アスタは、AIを実際の業務で安全に活用するお手伝いをしています。

AIを業務で使ってみたい方 → AI活用無料診断へ（所要時間：約30分）
まず話だけ聞いてみたい方 → お問い合わせフォームへ

「まだ何も決まっていない」という段階でも大丈夫です。今の状況をお聞きかせください。