生成AIによる開発の「生産性のパラドックス」とは?GitHub CopilotとGemini Code Assistの比較調査
公開日
ソフトウェア開発の現場において、生成AIツールは作業を自動化し効率を高める強力な手段として急速に普及しています。しかし、単にツールを導入すれば生産性が向上するという単純な話ではありません。AIは開発者を支援する一方で、新たな認知負荷や作業の中断を引き起こす可能性も秘めています。
本記事では、Luciane Fortesらが発表した論文「The Productivity Paradox of AI-Powered Development」に基づき、GitHub CopilotとGemini Code Assistが開発者の生産性と体験(DevEx)にどのような影響を与えるのか、その実態を解説します。
調査の概要:106名の開発者による実証実験
本調査は、複数のプラットフォームと開発チームを持つブラジルの大手企業にて実施されました。同社では2023年より、主な生成AIコードアシスタントとして「GitHub Copilot」と「Gemini Code Assist」を導入しています。
調査は2025年3月から4月にかけて行われ、計106名の開発者(Copilotユーザー61名、Geminiユーザー45名)が参加しました。研究チームは、開発者の生産性を単なるコードの出力行数ではなく、「Developer Experience(DevEx)」の観点から捉え、以下の3つの次元で評価を行いました。
- フィードバックループ: システム応答の速度と質
- 認知負荷: タスク実行に必要な精神的努力
- フロー状態: 深い集中と没入感
定量評価によるツール比較:GitHub Copilot vs Gemini Code Assist
調査の結果、両ツールの間に決定的な優劣は見られず、多くの項目で同等の評価が得られました。しかし、微細な傾向の違いが確認されています。
全体的なスコア傾向
開発者の主観的な評価スコアを見ると、Gemini Code Assistは「フィードバックループ」においてわずかに高いスコアを示しました。一方、GitHub Copilotは「認知負荷の軽減」と「フロー状態の維持」において高いスコアを示す傾向がありました。
以下の表は、各ツールにおけるDevExの構成要素ごとのスコアです。
図表1:開発者体験(DevEx)の構成要素スコア
| DevEx次元 | 質問項目:AIコード支援を使用する際… | Copilot (平均) | Gemini (平均) |
|---|---|---|---|
| フィードバックループ | より質の高いコードが書ける / タスクを早く完了できる / 提案から学べる | 0.688 | 0.926 |
| 認知負荷 | 情報検索時間が減る / 反復作業の精神的努力が減る | 1.418 | 1.189 |
| フロー状態 | 「開発フロー」に入りやすい / プログラミングがより楽しい | 0.729 | 0.489 |
統計的な有意差(p < 0.05)には達しませんでしたが、「Geminiはコード品質や学習・フィードバックに強みがあり、Copilotは認知負荷を下げてフロー状態に入りやすくする」 という傾向が示唆されています。
経験年数による評価の違い
開発者の経験年数によって、ツールの評価が異なることも明らかになりました。特に経験の浅いジュニア層とミドル層において、ツールごとの有意な差が見られました。
図表2:経験年数グループごとのマン・ホイットニー検定結果
| 経験年数 | 項目 | Copilot (平均) | Gemini (平均) | 有意確率 (p) |
|---|---|---|---|---|
| ジュニア | フィードバック | 0.58 | 1.31 | 0.012* |
| 認知負荷 | 1.09 | 1.31 | 0.638 | |
| フロー | 0.55 | 0.81 | 0.458 | |
| ミドル | フィードバック | 0.79 | 0.72 | 0.850 |
| 認知負荷 | 1.73 | 1.25 | 0.059 | |
| フロー | 1.18 | 0.46 | 0.005** | |
| シニア | 全項目 | 差なし | 差なし | 有意差なし |
| スペシャリスト | 全項目 | 差なし | 差なし | 有意差なし |
ジュニア開発者はGeminiのフィードバック機能を高く評価しており、学習や提案の質が支援になっていることがうかがえます。対照的に、ミドル層の開発者はGitHub Copilotを使用することで、より強くフロー状態(集中力と楽しさ)を感じていました。なお、シニアやスペシャリストレベルになると、ツールによる差は感じられなくなる傾向にあります。
生産性に寄与する要因の分析
では、具体的にどの要素が開発者の生産性(タスク完了時間やフロー状態)に寄与しているのでしょうか。回帰分析の結果、「フィードバックの質」が両ツールにおいて最も重要な要素であることが判明しました。
図表3:各ツールにおけるDevEx次元の生産性への寄与

上記の図(左側:タスク完了時間、右側:フロー状態)が示す通り、フィードバックは、タスク完了の効率化とフロー状態の両方に強く正の影響を与えています。特にGeminiにおいては、フィードバックが生産性に与える影響がCopilotの約2倍強いという結果が出ました。
一方で、「認知負荷」の影響は限定的でした。開発者はAIによって「精神的な努力が減った」と感じていても、それが直接的な生産性向上(時間短縮)の数値には表れにくいという結果です。これは、AIが単純作業の負荷を減らす一方で、「AIの提案を評価・修正する」という新しい種類の認知負荷を生み出しているためと考えられます。
現場の声から見るユースケースと課題
定性的な分析からは、AIツールがもたらす恩恵と、同時に発生する新たな課題が浮き彫りになりました。
効果的なユースケース
開発者は、特にルーチンワークや未知の領域の探索においてAIの価値を認めています。
- 戦略的な自動化: テストコードの作成やドキュメント作成など、反復的なタスクの効率化。
- 複雑な問題のサポート: APIやライブラリの探索、レガシーコードの読解と理解。
- 思考のシフト: 「コードを書く作業」から「解決策や品質について考える作業」への時間の再配分。
直面する課題と「パラドックス」の実態
一方で、AIの挙動が生産性を阻害するケースも報告されました。
図表4:AI支援開発における課題とユースケースの主題分析
| テーマ | コード | 代表的なコメント(要約) |
|---|---|---|
| 品質と関連性の問題 | プロンプト作成の難しさ | 「より良い提案を得るためのプロンプトの書き方がわからない」(P8, Copilot) |
| 低品質な提案 | 「提案の質が低い」(P25, Copilot) | |
| フロー状態の分断 | 気を散らす提案 | 「提案が気を散らせる」(P12, Copilot) |
| 高い認知的評価コスト | 「提案を理解するのに、その価値以上の労力がかかる」(P14, Copilot) | |
| 邪魔なオートコンプリート | 「タイピング中にオートコンプリートが邪魔をする」(P104, Gemini) | |
| 技術的・文脈的制限 | コンテキスト維持の失敗 | 「時々スタックし、機能しない提案を繰り返す」(P31, Gemini) |
| IDE統合の不整合 | 「Android StudioでのCopilotはVS Codeより劣る」(P83, Copilot) |
ここで注目すべきは 「生産性のパラドックス」 です。AIはタスクを加速させる一方で、不正確な提案の検証や、意図しないタイミングでの割り込みによってフローを中断させ、結果として時間を浪費させる側面も持ち合わせています。
例えば、「最初のドラフトは早く完成したが、その修正と検証に予想以上の時間がかかり、トータルでは変わらなかった」という声や、「単純作業の負荷は減ったが、AIの提案をレビューする負荷が増えた」という意見は、このパラドックスを象徴しています。
結論:AIツール活用の鍵は相互作用の理解
本調査の結果は、生成AIツールが開発者の生産性を「向上させる側面」と「阻害する側面」の両方を持っていることを示しています。
- GitHub Copilotは、特にミドル層の開発者において、認知負荷を下げてフロー状態を維持するのに効果的である傾向が見られました。
- Gemini Code Assistは、フィードバックの質や学習支援において強みがあり、特にジュニア層に恩恵があることが示唆されました。
重要なのは、ツールを導入するだけで自動的に生産性が上がるわけではないという点です。AIは「認知負荷をなくす」のではなく、「認知負荷の種類を変える(コード作成から、コード評価へ)」ツールとして理解する必要があります。
開発組織は、従来の生産性指標(速度や量)だけでなく、フィードバックの質やフローの維持といった「開発者体験(DevEx)」の指標を重視し、AIツールがもたらす新しいワークフローに適応していくことが求められます。
生成AIの導入や活用にお困りですか? 弊社のサービス は、開発チームが抱える課題を解決し、生産性と幸福度を向上させるための様々なソリューションを提供しています。ぜひお気軽にご相談ください!
参考資料: