Home

GitHubから見えるAIエージェントの利用動向:コア開発者ほど品質管理を重視

公開日

img of GitHubから見えるAIエージェントの利用動向:コア開発者ほど品質管理を重視
•••

GitHub CopilotやCursor、Claudeといった自律型AIコーディングエージェントの登場は、ソフトウェア開発の現場を大きく変えつつあります。これらのツールは単なるコード補完にとどまらず、バグ修正や機能追加、テスト作成までを自律的に行い、プルリクエスト(PR)を作成する能力を持っています。しかし、開発者の経験値によって、これらの「AIの同僚」の扱い方にどのような違いがあるのかについては、これまで十分に解明されてきませんでした。

本記事では、カナダ・サスカチュワン大学の研究チームが発表した論文「Are We All Using Agents the Same Way? An Empirical Study of Core and Peripheral Developers Use of Coding Agents 」に基づき、その実態を解説します。

調査概要と開発者の分類

本研究では、SWE-Benchで高い性能を示した4つの主要AIエージェント(Claude Code, Cursor, GitHub Copilot, OpenAI Codex)を対象に、スター数100以上のGitHubリポジトリから、AIエージェントが関与した9,427件のプルリクエストを分析し、開発者の分類による活用の差異を明らかにしました。

開発者の分類基準は以下の通りです。

  1. 周辺開発者(Peripheral Developers): プロジェクトへの参加頻度が比較的少ない、または新規のコントリビューター。
  2. コア開発者(Core Developers): プロジェクトへの貢献度が上位20%に入る開発者。

この分類に基づき、経験の差がAIへのタスク依頼や品質管理にどう影響するかを分析しました。

1. 利用目的の違い:タスクの委譲範囲

両グループの大きな違いは、「どのようなタスクをAIに任せているか」という点です。

周辺開発者は、バグ修正(fix)、新機能の追加(feat)、ドキュメント作成(docs)、テストコード記述(test)など、主要なタスクに対してAIエージェントを幅広く利用しています。自身のスキルを補完するため、あるいは開発速度を上げるために、多岐にわたるタスクをAIに委任している傾向が見られます。

一方、コア開発者の利用パターンはより限定的かつ戦略的です。彼らは主に 「ドキュメント作成」と「テスト」 という、重要ですが労力を要するタスク(いわゆるトイル)にAIの利用を集中させています。

図表1:開発者分類別のエージェント利用目的

図表1:開発者分類別のエージェント利用目的

2. プルリクエストの承認とマージ率

AIが作成したPRが承認され、実際にプロジェクトのメインブランチに統合された割合を比較しました。

PR自体の承認率は両者ともに約72%と同程度ですが、 「メインブランチへマージされた割合」 に限定すると、コア開発者の方が高い数値を示しています。

開発者カテゴリ全体のPR数承認されたPR数承認率メインブランチへのマージ率
周辺開発者7,971件5,759件72.3%77.8%
コア開発者1,456件1,060件72.8%85.8%

図表2:開発者分類別のPR承認率

この結果は、プロジェクト内での信頼や権限を持つコア開発者がAIを利用した場合、その成果物がより確実にプロジェクトの本流へ統合されていることを示しています。

3. レビューと修正の傾向

AIが作成したPRに対する人間のレビューや修正活動(介入)についても、経験による違いが見られました。

レビューの観点

  • 周辺開発者: 「コードの構成」に関する指摘が多く、構造的な整理に関心を持つ傾向があります。
  • コア開発者: 「解決アプローチ」に関する議論が多く、AIの提案に対して代替案や設計上の選択について議論する傾向があります。

図表3:開発者分類別のレビュー観点

図表3:開発者分類別のレビュー観点

コードの修正(リファクタリング)

AIが作成したPRに対し、人間がどの程度手を加えているかを定量的に分析した結果が以下の表です。

開発者カテゴリ採用PR数修正ありPR数修正率 (%)平均追加行数 (LOC)平均削除行数 (LOC)
周辺開発者5,7591,35323.5%40.424.5
コア開発者1,06030028.3%55.438.2

図表4:開発者分類別のPR修正率

両グループとも多くのPR(70%以上)は修正なしで受け入れられていますが、コア開発者は周辺開発者に比べて修正を加える頻度が高く(28.3%)、かつ修正時の変更規模も大きいことがわかります。

以下の箱ひげ図は、その修正行数の分布を示しています。コア開発者のグラフが周辺開発者よりも右側に広く伸びており、一部のPRに対してかなり大幅な手直しを行っていることが視覚的にも確認できます。

図表5:開発者グループごとのPR修正における追加行数(上)と削除行数(下)の分布 図表5:開発者分類別のPR修正における追加行数(上)と削除行数(下)の分布

コア開発者はAIのコードを単に受け入れるだけでなく、プロジェクトの品質基準や保守性を考慮して、積極的にリファクタリングを行っていることがデータから裏付けられています。

4. CI/CDパイプラインでの検証状況

自動テストやCI(継続的インテグレーション)の実行状況については、顕著な差が確認されました。

現代の開発フローでは、PRに対してCIを実行し、すべてのチェックをパスさせることが一般的ですが、周辺開発者はCIチェックを実行しないままマージする割合が、コア開発者の約2倍に達しています。

開発者カテゴリ平均チェック実行数成功率(%)チェックなしでのマージ(%)
周辺開発者8.1回43.1%19.1%
コア開発者9.3回51.2%11.2%

図表6:開発者分類別のCIチェック傾向

コア開発者は「すべてのチェックをパスさせる(All checks must pass)」という原則をより厳格に守り、品質管理を徹底しています。対照的に、周辺開発者は検証が不十分なままコードを統合してしまうリスクが高いことが示唆されています。

結論

本研究の結果は、開発者の経験レベルによってAIコーディングエージェントの利用スタイルが明確に異なることを示しています。

  • コア開発者は、AIをドキュメント作成やテストなどの負荷軽減のために活用しつつ、マージ前には厳格なレビューと修正、CIチェックを行う品質管理者として振る舞っています。
  • 周辺開発者は、AIを機能実装やバグ修正などの広範なタスクに活用するパワーユーザーですが、CIチェックの省略など、品質管理面でのリスクが見受けられます。

AIエージェントの導入が進む中で、特に周辺開発者がAIを利用する際は、自動テストの実行を必須化するなど、品質基準を遵守させるための明確なワークフローの整備が重要であると言えます。


生成AIの導入や活用にお困りですか? 弊社のサービス は、開発チームが抱える課題を解決し、生産性と幸福度を向上させるための様々なソリューションを提供しています。ぜひお気軽にご相談ください!

参考資料:

Author: vonxai編集部

Google Scholarで開発生産性やチーム開発に関する論文を読むことが趣味の中の人が、面白かった論文やレポートを記事として紹介しています。