Home

AIエージェントは破壊的変更を減らす?人間との比較調査から見えた実態

公開日

img of AIエージェントは破壊的変更を減らす?人間との比較調査から見えた実態
•••

昨今のソフトウェア開発において、CodexやDevinといったAIコーディングエージェントの導入が急速に進み、開発者の生産性を大きく向上させています。一方で、AIが生成したコードにはバグが含まれることもあり、既存のシステムに悪影響を及ぼす「破壊的変更(Breaking Change)」を引き起こさないかという懸念も存在します。

本記事では、Kennesaw State Universityなどの研究チームが発表した論文「Safer Builders, Risky Maintainers: A Comparative Study of Breaking Changes in Human vs Agentic PRs」(2026年)に基づき、AIエージェントと人間の開発者が作成したプルリクエストにおける破壊的変更の発生率を比較した結果を解説します。

AIエージェントと人間のプルリクエストにおける破壊的変更率の比較

本研究は、AIDevデータセットに含まれるPythonリポジトリから、7,191件のAI生成プルリクエスト(PR)と、1,402件の人間によるPRを対象に調査を行いました。

まず全体の傾向として、AIエージェントが関与したパッチにおける破壊的変更の発生率は3.45%でした。これは、人間の開発者が関与したパッチの7.40%と比較して、全体的に低い水準に収まっています。以下の図表は、AIと人間の破壊的変更率をまとめたものです。

図表1:AIエージェントと人間の破壊的変更発生率の比較 図表1:AIエージェントと人間の破壊的変更発生率の比較

さらに、AIエージェントごとの違いを見ると、Claude Codeの破壊的変更率が5.10%と最も高く、Cursorが4.20%、Devinが4.09%、GitHub Copilotが3.04%、OpenAI Codexが2.62%と続きます。各ツールによって発生率にばらつきはありますが、いずれも人間の開発者の平均である7.40%を下回っていることが確認できます。

図表2:エージェント別の破壊的変更発生率 図表2:エージェント別の破壊的変更発生率

タスク別で異なるAIと人間のリスク傾向

開発タスクの種類を「生成タスク(新機能追加、バグ修正、パフォーマンス改善)」と「メンテナンスタスク(リファクタリング、雑務)」に分類して分析すると、AIと人間で明確に異なる傾向が見られます。

AIエージェントは、新機能追加(2.89%)やバグ修正(2.69%)といったコード生成タスクにおいて、破壊的変更のリスクを低く抑えています。しかし、リファクタリング(6.72%)や雑務(9.35%)といったメンテナンスタスクにおいては、破壊的変更の発生率が大幅に上昇します。

人間の開発者はこれと全く逆の傾向を示しており、新機能追加(7.74%)などの生成タスクでリスクが高く、メンテナンスタスク(リファクタリング4.36%など)では相対的に発生率が低くなっています。

図表3:タスク別の破壊的変更発生率の比較 図表3:タスク別の破壊的変更発生率の比較

この結果は、AIエージェントが新しいコードを作成することには優れているものの、既存のコードベースの構造を正しく理解し、安全に変更を加えるメンテナンス作業においては、まだ未熟であることを示唆しています。

自信度スコアの罠(The Confidence Trap)

多くのAIコーディングツールは、出力したコードに対する自信の度合いをスコア(Confidence Score)として提示します。しかし、このスコアを基準にしてコードの安全性をそのまま評価するのは危険です。

調査結果によると、AIエージェントのプルリクエストのうち99.9%が8から10の非常に高い自信度スコアを記録しています。しかし、その内訳を見ると、レベル8で3.94%、レベル9で3.96%、最高評価のレベル10であっても3.16%のパッチに破壊的変更が含まれていました。

図表4:AIエージェントの自信度スコアと破壊的変更の関係 図表4:AIエージェントの自信度スコアと破壊的変更の関係

論文内ではこの現象を「Confidence Trap(自信の罠)」と表現しています。AIが高い自信を示しているからといって安全なコードが生成されているとは限らず、自信度スコアだけを根拠にしてコードレビューの優先順位付けを行うことは適切ではありません。

開発現場でAIを安全に活用するための対策

これらの調査結果を踏まえると、実際の開発現場でAIエージェントを活用する際には、タスクの性質に応じた明確なレビュー方針を策定することが重要になります。

新機能の追加など生成系のタスクであればAIは比較的安全に機能しますが、リファクタリングなどの構造的な変更を伴うメンテナンスタスクでは、AIが意図せず下位互換性を破壊する可能性が高まります。そのため、AIにメンテナンス作業を任せる場合は、ツールが生成するコードを信頼せず、厳密なコードレビューと追加の検証プロセスを実施することが求められます。


生成AIの導入や活用にお困りですか? 弊社のサービス は、開発チームが抱える課題を解決し、生産性と幸福度を向上させるための様々なソリューションを提供しています。ぜひお気軽にご相談ください!

参考資料:

Author: vonxai編集部

Google Scholarで開発生産性やチーム開発に関する論文を読むことが趣味の中の人が、面白かった論文やレポートを記事として紹介しています。