【日々のマナビ】Web解析のKPI設計はなぜ難しいのか｜Goodhart’s Law・因果推論・増分効果

2026-05-21

こんにちは。ろっさんです。

今回は、「Web解析のKPI設計はなぜ難しいのか｜Goodhart’s Law・因果推論・増分効果」というタイトルで解説していきます。長い記事ですがぜひ最後までお付き合いください！

0. はじめに｜「データは見ているのに、なぜ改善できないのか」

金属加工業A社の場面を想像してみてください。従業員22名、売上2億円、主力顧客1社が売上の47%を占め、勤続20年超の熟練工が2名いる町工場です。この会社が2年前に自社サイトをリニューアルしました。GA4を入れ、Looker Studioでダッシュボードを作り、毎週月曜朝にページビューとセッション数の推移をPDF出力して経営会議で配布する——そういう運用を始めたのです。

2年後、経営者は言いました。「データは見ているんですが、何がどう良くなったのか、正直わからないんですよ」。

サイトへの訪問者数は増えた。直帰率も下がった。しかし問い合わせ件数は横ばいで、それが売上に繋がったかどうかも曖昧なままでした。Web制作会社からは「CVR改善のためにUIを変更しましょう」と提案があり、実施したのですが、売上は不安定なままで、UIが功を奏したのかどうかさえわかりません。

この状況は珍しくありません。データを見ることと、データを意思決定に活かすことの間には、見えない段差があります。その段差を埋めるためには、3つの問いを順番に解く必要があります。

第一の問い：そのデータは、本当に計測されているか。 タグ漏れ、重複計測、イベント定義の不整合——こういった「計測の不整合」があれば、そもそも数字が信用できません。A社のGA4に入っているデータが正確かどうか、誰も確認していない可能性があります。

第二の問い：その指標は、本当に重要なことを測っているか。 PVが増えても、問い合わせに繋がっていなければ意味がない。CVRが改善しても、それが売上に反映されていなければ意味がない。ここには「KPIの罠」が潜んでいます。

第三の問い：その施策が「効いた」と言えるか。 UIを変えたら問い合わせが増えた——これは相関であって因果ではないかもしれません。ちょうど展示会の後で問い合わせが増えていただけかもしれない。因果を確認するには、因果推論の設計が要ります。

本記事は、A社の事例を通じながら、この3つの問いをWeb解析の3問分の問い——8-5-1（計測設計とアトリビューションと因果推論）、8-5-2（CVR改善のUIと計測の不整合とA/B設計と意思決定会議）、8-5-3（プライバシーと計測のトレードオフ）——に対応させ、ひとつながりの「データを意思決定に活かす設計論」として統合します。

扱うトピックは次の通りです。

Web解析の3層定義：計測設計（イベント定義）、アトリビューション、因果推論（実験/準実験）
なぜ「見える化」だけでは意思決定が良くならないのか
Goodhart’s LawとKPIの罠：PV至上主義・CVR至上主義が生む歪み
North Star Metric（北極星指標）の設計思想と中小企業への適用
AIDMAと計測の接続：ステージ別の計測指標とボトルネック特定
アトリビューションモデルの限界とIncremental Testing：Last Clickの罠・増分効果測定
データ品質チェック・A/B設計・セグメント別影響・リテンション評価
ツール活用の全体像：コスト別カテゴリ・生成AI活用フロー
プライバシーと計測のトレードオフ：データ最小化・同意UX・統計推定
組織論応用：A社22名での計測体制設計とKPIツリー

理論は基礎から段階的に、A社の事例と具体的な用語解説を交えながら積み上げます。上級Web解析士レベルの知識と、中小企業診断士の組織・戦略論を接続する視点を軸にします。

1. Web解析の3層定義｜計測設計・アトリビューション・因果推論

Web解析という言葉を聞いたとき、多くの人が思い浮かべるのは「GA4でアクセス数を見ること」です。しかし本来のWeb解析には、3つの層があります。この3層を意識しているかどうかが、「データを見ている」と「データで意思決定している」の分かれ目です。

第1層：計測設計（イベント定義）

計測設計とは、「何をどのように計測するか」を事前に設計することです。GA4では「イベント」という単位でユーザーの行動を記録します。ページを見たこと、ボタンを押したこと、フォームを送信したこと——これらはすべてイベントとして記録されます。

しかし「何をイベントとして定義するか」は、自動では決まりません。GA4がデフォルトで計測するのは、ページビューやスクロール深度などの基本行動です。「問い合わせフォームの送信」「資料ダウンロード」「電話番号のクリック」といった、ビジネスに直結する行動（コンバージョン）は、自分で定義してタグを設定しなければ記録されません。

ここで使うのが Google Tag Manager（GTM） です。GTMは、GA4やMeta Pixelなどの計測タグをサイトに設置・管理するためのツールです。HTMLに直接コードを書かずに、ブラウザから操作してタグを追加・修正できます。GTMを使うことで、開発者なしでもイベントの設定ができますが、逆に「設定したつもりが機能していない」というタグ漏れのリスクも生じます。

よく使う基本用語の解説

ここで、Web解析で頻出する用語を基礎から整理しておきます。

PV（ページビュー）：ページが表示された回数。1人のユーザーが同じページを3回見ると3PVになります
セッション：1人のユーザーが一連でサイトを訪問した流れ。30分間操作がなければ次の訪問は別セッションになります
ユニークユーザー（UU）：一定期間に訪問したユーザーの実人数（重複除去）
直帰率：サイトに来て1ページだけ見て離脱した割合。高ければ「来たけど続きを見なかった」という意味ですが、1ページで完結するコンテンツでは高くて当然の場合もあります
CVR（コンバージョン率）：訪問者のうちコンバージョン（問い合わせ・購入等）した割合。CVR = コンバージョン数 ÷ セッション数 × 100
CTR（クリック率）：表示された回数のうち実際にクリックされた割合。検索結果でのCTRは「見つけてもらえたか」の指標
LTV（ライフタイムバリュー）：1人の顧客が生涯にわたってもたらす売上総額
CAC（顧客獲得コスト）：新規顧客1人を獲得するためにかかったコスト
ROAS（広告費用対効果）：広告費1円に対して生まれた売上。ROAS = 売上 ÷ 広告費 × 100
コンバージョンファネル：訪問→興味→検討→コンバージョンという段階的な流れの全体像
マイクロコンバージョン：最終的なコンバージョン（問い合わせ）の前段階の行動（資料DL・動画視聴等）

第2層：アトリビューション（貢献度分析）

ユーザーがA社のサイトに問い合わせする前に、「どの接点を経由してきたか」を分析するのがアトリビューションです。典型的な流れを見てみましょう。

GoogleでA社を検索してサイトを初訪問（自然検索）
数日後、Google広告をクリックして2回目の訪問
さらに1週間後、展示会で知って直接URLを入力して問い合わせ

この場合、「問い合わせに最も貢献したのはどの接点か」によって、マーケティング予算の配分が変わります。これがアトリビューションの問題です。

第3層：因果推論（実験/準実験）

アトリビューション分析は「どの接点を経由したか」を記録しますが、「その接点が問い合わせを生み出したか」とは別の問題です。

UIを変えたら問い合わせが増えた——これは「UI変更が問い合わせを増やした」という因果でしょうか。それとも「展示会後の時期と重なっただけ」という相関でしょうか。この問いに答えるのが因果推論（第8節で詳述）であり、A/Bテストや準実験設計が必要になります。

3層を意識すると、「データは見ているのに改善できない」という状況の原因が見えてきます。第1層（計測）が不正確なら、そもそもデータが信用できません。第2層（アトリビューション）が粗いなら、予算配分を誤ります。第3層（因果）を飛ばすなら、効果のない施策を「効いた」と判断し続けます。A社の2年間がまさにこのパターンでした。

2. 計測設計の実務｜イベント定義・データ品質チェック・GTMの使い方

計測設計の第一歩は、「何を計測の目的とするか」を決めることです。目的なく全部を計測しようとすると、データが多すぎて何も見えなくなります。A社であれば、計測の目的は「問い合わせを増やすこと」で、そのための先行指標（後述するリード指標）を設計することが計測設計の本質です。

イベント定義の設計手順

ゴールを決める：最終コンバージョンを明確にする（A社＝問い合わせフォーム送信、電話番号クリック）
マイクロコンバージョンを設計する：最終コンバージョンに至る前段階の行動。A社なら「製品ページ滞在3分以上」「PDF資料ダウンロード」「会社概要ページ閲覧」等
GTMでタグを設定する：各マイクロコンバージョンをGA4に送信するトリガーとイベントを設定
DebugViewで確認する：GA4のDebugViewを使って、意図したイベントが正しく記録されているかリアルタイムで確認

データ品質チェックの6観点

計測設計後に必ず実施するのがデータ品質チェックです。特に「CVR改善のためにUIを変更したが売上が不安定」（8-5-2の設定）のような場面では、先にデータ品質を疑うべきです。

タグ漏れ確認：GTMのプレビューモードで、コンバージョンタグが全ページで発火しているか確認。特にサンクスページ（フォーム送信完了後のページ）でのみ発火するべきコンバージョンタグが、他のページでも発火していないか
重複計測確認：同じイベントが複数のタグから送信されていないか。GTMとGA4の設定が二重になっているケースで発生します
クロスドメイントラッキング：A社がLPと本体サイトを別ドメインで持っている場合、ユーザーが移動するたびに新規セッションとして記録されてしまう問題
ボット・内部トラフィック除外：A社社員の訪問やボットのアクセスがデータを汚染していないか。GA4の「内部トラフィックの定義」でIPアドレスを除外する
コンバージョンウィンドウの設定：広告クリックから何日以内の問い合わせをコンバージョンとみなすか。デフォルト（30日）が実態と合っているか確認
サンプリングの有無：GA4の無料版では大量データがサンプリングされることがある。正確な数値が必要な場合はBigQueryへのエクスポートを検討

GTMの実務的な使い方

GTMには「コンテナ」という単位でタグが管理されます。GTMを使う際の基本的な考え方を整理します。

タグ：何をするか（GA4にイベントを送信する、Meta Pixelを起動する等）
トリガー：いつ発火させるか（フォーム送信時、ページロード時、ボタンクリック時等）
変数：どんな値を使うか（ページURL、クリックしたボタンのテキスト等）

A社の「問い合わせフォーム送信」を計測する例を示します。

タグ：GA4イベントタグ（イベント名「form_submit」、パラメータ「form_id」）
トリガー：フォーム送信（フォームIDが「contact-form」と一致するもの）
変数：フォームID変数（HTMLのid属性を取得）

この設定をGTMのプレビューモードで確認し、実際にフォームを送信したときにタグが発火することを確認してから公開します。この「設定→確認→公開」のサイクルを守ることが、タグ漏れを防ぐ基本習慣です。

3. KPIの罠とGoodhart’s Law｜PV至上主義が意思決定を歪める

データを計測できるようになると、次の罠が待っています。「計測できる指標がKPIになる」という逆転現象です。

Goodhart’s Law（グッドハートの法則）とは

Goodhart’s Lawは、イギリスの経済学者チャールズ・グッドハートに由来する法則で、一言で言えばこうです。

「ある指標が目標になった瞬間に、その指標は指標でなくなる」

元々は金融政策の文脈で生まれた概念ですが、Web解析にも完全に当てはまります。

Web解析でのGoodhart’s Law破綻パターン

パターン1：PV（ページビュー）の目標化

PVを月次目標に設定した瞬間、何が起きるでしょうか。

記事を意図的に分割して「次のページへ」ボタンで誘導する（PVは増えるが体験は悪化）
クリックベイトな見出しで訪問者を集める（PVは増えるが滞在時間が短い質の低い訪問が増える）
内部リンクを大量設置して遷移を増やす（PVは増えるが問い合わせに繋がらない）

A社がもし「月間PV2,000を目標に」と設定したら、どうなるでしょう。PVは達成できても、問い合わせが増えなければビジネスは変わりません。PVは「人が来たかどうか」の指標であって、「その人が価値を得たかどうか」の指標ではないからです。

パターン2：CVR（コンバージョン率）の目標化

CVRを上げることを目標にした場合、最も手っ取り早い方法は何でしょうか。「問い合わせしにくい人を最初から来させない」です。

広告のターゲティングを極限まで絞り込んで、「問い合わせする確率が非常に高い人」だけに表示させると、CVRは上がります。しかし問い合わせの絶対数は減る可能性があります。これはCVRという指標が、「訪問者の質の変化」と「コンバージョン自体の増加」を区別しないことから生じる問題です。

パターン3：クリック率（CTR）の目標化

Google Search ConsoleでCTR（検索結果クリック率）を目標にすると、タイトルに過度に煽り文句を入れてクリックを獲得しようとする動機が働きます。クリックされても内容に失望されて直帰するなら、むしろ検索エンジンの評価は下がります。

診断士実務との接続：「訪問件数目標」の同じ構造

Goodhart’s Lawは、Web解析に限らず経営全般に現れます。中小企業診断士の実務でよく見る例が「営業訪問件数目標」です。

「月30社訪問」という目標を設定すると、営業担当者は「とにかく30社に行く」行動をとります。見込み確度の低い先にも時間を使い、提案の質が下がります。「訪問件数」が「顧客との関係構築」の代理指標として使われているはずなのに、訪問件数そのものを最大化する行動が生まれる——この構造はWeb解析のPV目標と全く同じです。

North Star Metric（北極星指標）の設計思想

Goodhart’s Lawへの処方箋として注目されているのが、North Star Metric（北極星指標）という考え方です。

North Star Metricとは、「顧客が価値を得たことと本質的に相関する、たった一つの指標」のことです。「北極星」という名の通り、ブレてはいけない一点の指標として機能します。

North Star Metricの3条件

顧客価値と直接相関する：訪問数ではなく、「顧客がサービスを使って価値を得た」ことを示す
長期的なビジネス成果と相関する：今月の売上ではなく、将来の成長に繋がる先行指標
チーム全体が理解・追跡できる：複雑すぎて担当者しか理解できない指標はNG

A社のNorth Star Metric設計例

A社の場合、North Star Metricの候補は何でしょうか。

❌ 「月間PV数」→ ビジネス価値と直結しない
❌ 「問い合わせ件数」→ 量のみで質が含まれない
🟡 「有効問い合わせ件数」（受注に繋がる可能性がある問い合わせの件数）→ 良いが計測が難しい
✅ 「問い合わせからの商談化率 × 問い合わせ件数」→ 顧客価値と相関し、追跡可能

A社の規模であれば、「月間有効問い合わせ件数」を北極星指標とし、それを増やすための先行指標（製品ページ平均滞在時間・資料ダウンロード数・特定キーワードからの流入数）を補助指標として設定するアプローチが現実的です。

KPIツリーの設計

North Star Metricを中心に、KPIをツリー構造で整理することをKPIツリーと言います。

“`

【北極星指標】月間有効問い合わせ件数

│

├── 訪問者数（セッション数）

│ ├── 自然検索流入（SEO）

│ ├── 広告流入（Google広告）

│ └── 参照元（展示会・紹介等）

│

├── 問い合わせページへの遷移率

│ ├── 製品ページ滞在時間

│ └── 資料ダウンロード率（マイクロCV）

│

└── 問い合わせフォーム送信率（CV率）

├── フォームの入力項目数

└── エラー発生率

“`

このKPIツリーによって、「問い合わせ件数が減った」という現象を「どこで詰まっているのか」に分解できます。訪問者数が減ったのか、製品ページで離脱しているのか、フォームで諦めているのか——それぞれ打ち手が違います。

ラグ指標とリード指標の使い分け

KPIを設計する際のもう一つの重要な視点が、ラグ指標（遅行指標）とリード指標（先行指標）の区別です。

ラグ指標：結果として現れる指標。売上・利益・問い合わせ数。大事だが、低下してから気づいても手遅れのことが多い
リード指標：ラグ指標の先行指標。今の行動が将来の結果に繋がるシグナル。製品ページ滞在時間・資料DL数・特定キーワードでの検索順位

A社の経営会議でPVという数字を見ていても、それはラグでもリードでもない「無関係な数字」かもしれません。本当にモニタリングすべきは、有効問い合わせというラグ指標と、それに先行するリード指標のセットです。

4. AIDMAと計測の接続｜ステージ別の計測指標とボトルネック特定

マーケティングの古典的フレームワークAIDMA（Attention→Interest→Desire→Memory→Action）は、消費者の購買心理プロセスを示したものです。このAIDMAの各ステージを計測指標と対応させることで、「どこで顧客が離脱しているか」を特定できます。

AIDMAの各ステージと計測指標

Attention（認知）：商品やサービスを知ってもらう段階

計測指標の例：

インプレッション数（Google広告・Meta広告の表示回数）
リーチ数（SNS投稿を見たユニーク人数）
ブランド検索数（Google Search Consoleで「A社」「A社金属加工」等の指名検索数）
オーガニック検索表示回数（Google Search ConsoleのImpressions）

A社の場合、「展示会出展」がAttentionの主要チャネルです。展示会後の指名検索数の変化をGoogle Search Consoleで追うと、展示会の認知効果を計測できます。

Interest（興味）：知った後、もっと知りたいと思う段階

計測指標の例：

CTR（クリック率）：検索結果でリンクをクリックした割合
平均セッション時間：サイトに来てどれだけ時間を使ったか
スクロール深度：ページをどこまでスクロールしたか（GA4のscroll_depthイベント）
複数ページ閲覧率：1セッションで2ページ以上見た割合

Desire（欲求）：欲しいと思う段階

計測指標の例：

製品ページ・サービスページの訪問数・滞在時間
比較コンテンツ（「他社との違い」ページ等）の閲覧数
価格ページの訪問数（BtoB企業のサイトに価格ページがある場合）
資料請求ページへの遷移率（マイクロコンバージョン）

Memory（記憶）：一度興味を持ったものを覚えていて、後で行動する段階

計測指標の例：

再訪問率（同一ユーザーが2回以上訪問する割合）
指名検索数（時間をおいて「A社」と検索してくる）
リターゲティング広告のクリック率（一度訪問したユーザーへの広告）
メール開封率（メールマーケティングをしている場合）

Action（行動）：実際に問い合わせ・購入等の行動をする段階

計測指標の例：

コンバージョン率（CVR）
フォーム完了率（フォームを始めて送信するまで完了した割合）
コンバージョン数の絶対値
コンバージョンまでのセッション数（平均で何回訪問してから問い合わせするか）

ボトルネック特定の手順

AIDMAの各ステージの数値を並べると、どこで離脱が起きているかが分かります。A社の仮想例を示します。

ステージ	指標	数値（仮想）	判定
Attention	月間ブランド検索数	80回	基準値設定が必要
Attention→Interest	自然検索CTR	2.1%	業界平均3%前後→低め
Interest	平均セッション時間	1分32秒	コンテンツが薄い可能性
Desire	製品ページ→問い合わせページ遷移率	4.2%	改善余地あり
Action	フォーム送信率	65%	まずまず

この例では、Attention→InterestのCTRが低いことが第一ボトルネック（タイトルや検索結果の説明文の改善）、InterstのSessionTimeが短いことが第二ボトルネック（コンテンツの充実）と読み取れます。

診断士的改善仮説の立て方

AIDMAの各ステージでボトルネックを見つけたら、診断士的に「なぜ」を問います。

「なぜCTRが低いか」→ タイトルに顧客の課題感が入っていない→ 「精密加工短納期対応」ではなく「精密加工試作から量産まで1社完結」に変える
「なぜ滞在時間が短いか」→ 製品ページに具体的な実績・数値・事例がない→ 「工程能力指数（Cpk）○○以上を保証」「納期Xヶ月後の量産立ち上げにも対応」等の具体情報を追加

このようにAIDMAを計測と接続することで、「何となくサイトを改善しよう」から「ここが詰まっているから、この打ち手で解消する」という仮説駆動の改善に変わります。

5. アトリビューションの限界とIncremental Testing｜Last Clickの罠と増分効果測定

前節でアトリビューション（貢献度分析）を紹介しました。この節では、アトリビューションの根本的な限界と、それを超えるための「Incremental Testing（増分効果測定）」を解説します。

アトリビューションモデルの種類と問題

アトリビューションとは、コンバージョン（問い合わせ等）に至るまでの複数の接点のうち、「どの接点にどれだけの貢献を認めるか」を決める方法論です。主なモデルを整理します。

モデル	考え方	問題点
Last Click（ラストクリック）	直前の接点に100%を帰属	認知・育成段階の貢献が評価されない
First Click（ファーストクリック）	最初の接点に100%を帰属	刈り取り（最後の後押し）の貢献が評価されない
Linear（線形）	全接点に均等配分	実態の貢献度の差を無視する
Time Decay（時間減衰）	コンバージョンに近いほど貢献大	Last Clickに近い問題を持つ
Data-driven（データドリブン）	機械学習で自動計算	ブラックボックスで解釈しにくい

Last Click Attributionの罠

最も広く使われているLast Clickモデルで何が起きるかを、A社の具体例で見てみましょう。

あるユーザーの購買プロセスを追いかけます。

展示会でA社のパンフレットをもらう（オフライン接触）
1週間後、「A社金属加工」でGoogle検索してサイトを訪問（自然検索）
3日後、Google広告をクリックして訪問（リスティング広告）
翌日、直接URLを入力して問い合わせフォームを送信（ダイレクト）

Last Clickモデルでは、最後の「ダイレクト流入」が100%の貢献として記録されます。展示会という最初の認知（おそらく最も重要な接点）も、自然検索も、リスティング広告も、貢献ゼロとして計上されます。

このモデルで予算配分を決めると、「ダイレクト（既存認知層の訪問）が最も効果的で、広告はほぼ効果なし」という誤った結論になりがちです。そして認知広告・展示会予算が削られ、新規認知が生まれなくなり、最終的には問い合わせも細ってくる——認知段階の予算が刈られる自滅サイクルが始まります。

Multi-touch Attributionの限界

「では複数の接点に貢献を分配すれば良い」というのがMulti-touch Attribution（MTA）の発想です。しかし、こちらにも根本的な問題があります。

重みの恣意性：なぜ最初の接点に30%、中間に20%、最後に50%なのか、理論的な根拠がありません
オフライン接点が入らない：展示会・電話・FAX等のオフライン接点はデジタル計測できないため、MTAモデルから漏れてしまいます
クロスデバイス問題：スマホで調べてPCで問い合わせた場合、別ユーザーとして計測される可能性があります

これらの限界を突き詰めると、アトリビューションモデルはどれを選んでも「完璧な答えはない」という結論になります。では、どう向き合うべきでしょうか。

Incrementality Testing（増分効果測定）の考え方

アトリビューションの根本的な問題は、「その広告・施策がコンバージョンを生み出した」のか「その広告がなくてもコンバージョンしていた人が、たまたまその広告を経由した」のかが区別できないことです。

Incrementality Testing（増分効果測定）は、この問いに直接答えようとします。問いは一つです。

「この施策がなければ、コンバージョンしなかっただろうか」

これは第8節で詳述する因果推論の考え方と同一です。施策の「増分効果（Incremental Impact）」＝「施策ありの世界のコンバージョン数」－「施策なしの世界のコンバージョン数（反事実）」です。

A社規模での応用：展示会出展の増分効果を準実験で測る

B2Bの中小企業であるA社が、展示会出展の効果を測ろうとする具体例を考えます。A/Bテスト（ランダム化比較）は使えません（展示会に来る人をランダムに選べないため）。そこで準実験設計を使います。

Rubin因果モデルとの同型性

まず理論的な背景を確認します。Rubin因果モデル（潜在結果フレームワーク）では、施策の因果効果を「施策を受けた場合の結果 Y(1)」と「施策を受けなかった場合の結果 Y(0)」の差として定義します。個人レベルでは Y(1) と Y(0) を同時に観測できない（これが「因果推論の根本問題」）ため、比較可能な対照群を使って Y(0) を推定します。

Incremental Testing（増分効果測定）はこのフレームの実践版です。「展示会に出展しなかった場合の問い合わせ数（反事実）」を対照群から推定し、実際の問い合わせ数との差を「展示会の純増分効果」とみなします。8-1で学んだ反事実・Rubin因果モデルとの接続は、「観察できない反事実を比較可能な群から代替推定する」という同一の論理構造を持っています。

準実験の具体設計：A社展示会の増分効果測定（5ステップ）

Step 1：対照群の設定と交絡の整理

仮定：A社は5月に東京で開催される製造業系展示会に出展。展示会の集客商圏は関東・甲信越とする
処置群：展示会出展後の関東・甲信越からのサイト訪問・問い合わせ（展示会の影響を受けうるエリア）
対照群候補：関西・九州・東北からのサイト訪問・問い合わせ（展示会の影響を受けないエリア）
交絡の確認：季節性（5月は製造業の発注が増える傾向があるか）・業界全体の動向（競合の展示会が同時期にあったか）・自社のSEO・広告施策の変更（展示会前後で別の施策を打っていないか）を確認する

Step 2：期間設計

観測期間：展示会開催日の前4週間（ベースライン）と、展示会開催後6週間（施策効果期）
理由：B2B製造業の問い合わせは展示会直後だけでなく、2〜4週間後に遅れて届くケースが多い。6週間のウィンドウで捉える
Google Analytics設定：GA4の「地域」ディメンションで都道府県別セグメントを作成。Search Consoleで指名検索（「A社」「A社金属加工」等）の地域別クリック数をエクスポート

Step 3：差分の差分法（DiD）で増分効果を計算

展示会前後の変化量を処置群と対照群で比較します（数値は仮想例）。

期間	処置群（関東圏）	対照群（関西圏）
展示会前4週間（ベースライン）	月間問い合わせ8件	月間問い合わせ3件
展示会後6週間（施策効果期）	月間問い合わせ15件	月間問い合わせ4件
変化量（差）	+7件	+1件

DiDの増分効果推定値 = 処置群の変化量 − 対照群の変化量 = 7 − 1 = +6件（展示会に起因する純増分効果）

対照群が+1件増加しているのは「季節性や業界全体の動向」による自然増とみなします。処置群の+7件のうち+6件が展示会の効果、+1件が自然増という解釈です。

Step 4：平行トレンド仮定の確認

DiDの前提は「処置群と対照群は、施策がなければ同じように変化したはず（平行トレンド仮定）」です。この仮定を確認するために、ベースライン期間をさらに遡って確認します。展示会前の3ヶ月間で処置群と対照群が似たトレンドを描いていれば、仮定は妥当と言えます。GA4で過去3〜6ヶ月の地域別問い合わせ数をエクスポートし、両群の推移をグラフで並べて確認します。

Step 5：読み筋と意思決定への落とし込み

「展示会に300万円（出展費用・準備コスト・人件費込み）使って純増+6件だった」という情報から、意思決定に使える読み筋を引きます。

問い合わせ1件あたりの展示会コスト：300万円 ÷ 6件 = 50万円/件
A社の平均受注単価が200万円・受注率が30%と仮定すると：6件 × 30% × 200万円 = 期待売上増360万円
展示会費用300万円 vs 期待売上増360万円 → 短期的にはROI約20%

「来年も出展すべきか」という意思決定に、「なんとなく効果がありました」ではなく「増分効果で見ると+6件、ROI約20%」という根拠を添えられます。これが準実験によるIncremental Testingの実践的価値です。

完璧な実験ではありません（対照群が完全に等価でないこと、展示会以外の同期間施策の影響が残ること等）。しかし「展示会に300万円使ったのに効果がわからない」よりも、「関東圏の問い合わせが展示会後の対照群比で+6件の純増分効果」という情報は、次の意思決定（展示会継続か、別のチャネルに予算移動か）に使えます。準実験設計の価値は、「完璧な推定」ではなく「何も知らないよりましな意思決定根拠」を提供することにあります。

アトリビューションとIncremental Testingの使い分け

目的	適した手法
どのチャネルにどれだけ予算を使ったかの記録・報告	アトリビューション（モデルの限界を承知した上で）
特定施策の因果的効果を評価する	Incremental Testing（実験・準実験）
リアルタイムの施策最適化	Data-driven Attribution（GA4自動計算）＋ハイジーン確認

アトリビューションはあくまで「計測の記録・整理ツール」として使い、「施策の効果判定」には因果推論的なアプローチを組み合わせることが重要です。

6. データ品質・A/B設計・セグメント別影響・意思決定会議のレビュー観点

8-5-2では、「CVR改善のためにUIを変更したが売上が不安定」という状況が設定されています。この状況でどう意思決定するかを、データ品質チェックからA/B設計、セグメント別分析、意思決定会議のレビュー観点まで体系化します。

UIを変更する前に確認すべきこと：計測の不整合診断

UIを変えた後に「CVRが上がった（下がった）」と言っても、計測に不整合があれば数字自体が信用できません。UIを変更したら、まず計測の健全性を確認します。

計測不整合の典型パターン

タグが新旧ページで変わってしまった：UI変更に伴ってHTMLが変わり、GTMのトリガーが機能しなくなった
フォームのid属性が変わった：UIリニューアルでフォームのHTML属性が変わり、コンバージョンタグのトリガー条件が合わなくなった
ABテストツールとGA4の重複計測：A/BテストツールがGA4とは別にコンバージョンを記録していて、数字が合わない

確認手順：GTMのプレビューモードでUIリニューアル後の各ページを開き、意図したタグが発火しているか確認。DebugViewで実際のイベントが届いているか確認。変更前後のコンバージョン数を計測ツール別に比較し、乖離がないか確認。

A/Bテストの設計原則

計測の不整合がないと確認できたら、次はA/Bテストの設計です。A/Bテストとは、ユーザーをランダムに2群（Aバリアント・Bバリアント）に分け、異なるデザイン・機能を見せて、コンバージョン率等の差を比較する実験です。

A/Bテスト設計の基本要素

仮説の明確化：「問い合わせフォームの入力項目を7つから4つに減らせば、フォーム完了率が上がる」のように、変更内容と期待される効果を事前に決める
1つの変数のみ変更する：フォームの項目数とボタンの色を同時に変えると、どちらが効いたかわからなくなる
サンプルサイズの計算：「何人に試せば統計的に有意な差が確認できるか」を事前に計算する（オンライン計算ツールが多数あります）。A社規模では月間訪問者数が少ないため、有意な差を確認するのに数ヶ月かかる可能性があります
テスト期間の固定：「有意になったら止める」は禁止。事前に決めた期間（例：4週間）を守る。途中で止めると、週次の変動（曜日効果等）に引っ張られます
同一期間に実施する：AバリアントとBバリアントを異なる時期に試すと、季節性・市況の違いが混入します（必ず同時並行）

中小企業でのA/Bテストの現実的制約

A社は月間数百セッション程度かもしれません。この規模では、統計的に有意な差を確認するために、数ヶ月〜1年かかる可能性があります。そのため、以下の現実的対応が必要です。

マイクロコンバージョンを測定指標にする：最終コンバージョン（問い合わせ）ではなく、「製品ページ滞在3分以上」「資料ダウンロード」等の途中ステップを指標にすることで、サンプル数を増やす
定性的評価と組み合わせる：小規模A/Bでは統計的有意性が出ない場合、セッション録画（Hotjar・Microsoft Clarity等）でユーザー行動を観察して判断材料にする
逐次テストを検討する：通常のA/BテストではなくBayesian（ベイズ）的アプローチを使えば、より少ないサンプルで意思決定できます

セグメント別影響の分析

全体のCVRが改善しても、特定のセグメントでは悪化している可能性があります（シンプソンのパラドックス：第8節で詳述）。A/Bテストの結果を分析する際は、必ず以下のセグメントで層別確認します。

デバイス別：スマートフォン・PC・タブレット。UIの変更がスマホで使いやすくなっても、PCで使いにくくなっていることがある
流入元別：自然検索・広告・ダイレクト・参照元。流入元によってユーザーの意図が異なる
新規・リピート別：新規訪問者とリピート訪問者で行動パターンが違う。リニューアルで戸惑うのは既存ユーザーの場合が多い
コンテンツ別：どのページからフォームへ遷移したか。特定のページ経由だけCVRが変わっていないか

短期・長期（リテンション）評価

UIの変更は短期的にCVRを動かしますが、長期的なリテンション（顧客維持率）への影響も確認が必要です。

コホート分析：同じ時期に問い合わせしてきたユーザー群（コホート）の、その後の契約継続・追加発注状況を追跡する
リテンション率：契約した顧客が一定期間後も取引を継続している割合
LTV（ライフタイムバリュー）への影響：CVR改善で問い合わせが増えても、質が下がってLTVが下がれば本末転倒

A社がB2B製造業であれば、問い合わせの質（受注確度・期待される受注金額）をCRM等で管理し、CVR改善施策が「有効な問い合わせを増やしているか」を確認することが重要です。

意思決定会議で何をレビューすべきか

月次の意思決定会議（経営会議・マーケティング会議）でデータをレビューする際の観点を整理します。

必須レビュー項目

計測の健全性確認：コンバージョンタグが正常に機能しているか（毎月確認）
AIDMAステージ別の数値：どのステージで漏れが大きいか
North Star Metricの推移：有効問い合わせ件数の推移とトレンド
KPIツリーの分解：北極星指標が下がっていれば、ツリーのどのノードで下落しているか
セグメント別の変化：全体では変化なしでも、特定セグメントで大きな変化がないか（シンプソンのパラドックス対策）
外部要因の確認：展示会・季節性・業界ニュース等、計測と無関係に数値を動かしうる要因

避けるべきレビューパターン

「PVが増えました（減りました）」だけで終わる → PVが何に繋がったかを必ず確認
「CVRが上がりました」だけで終わる → 問い合わせの絶対数と質も確認
「A/Bで勝ちました」だけで終わる → セグメント別の逆転がないか確認
「施策Aが効きました」と断定する → 因果関係と相関関係を区別して話す

7. ツール活用の全体像｜コスト別カテゴリと生成AI活用フロー

Web解析のツール選定は、「何を計測したいか」と「予算・リソースはどれだけあるか」のバランスで決まります。主要ツールをカテゴリ別にコスト感を含めて整理します。

無料ツール：まず入れるべき基本セット

GA4（Google Analytics 4）

無料で使えるWeb解析の標準ツール。イベントベースの計測モデルで、ユーザー行動をセッション単位ではなくイベント単位で追跡します。

特徴：

イベントベースで柔軟なカスタム計測が可能
BigQueryへのデータエクスポートが無料（GA Universalは有料だった）
機械学習による予測機能（購入確率等）
プロパティ間でのデータ統合が可能

中小企業での使い方：まずデフォルトのイベントで基本動向を把握し、GTMでコンバージョンイベントを追加する。月次でレポートを確認し、ボトルネックを特定する。

Google Search Console

Googleによる検索パフォーマンスの計測ツール。サイトが検索エンジンからどう見えているかを確認します。

特徴：

検索クエリ別のインプレッション数・クリック数・CTR・平均掲載順位
ページ別のインデックス状況
Core Web Vitalsのスコア（ページの表示速度・操作性）
モバイルユーザビリティの問題検出

中小企業での使い方：毎月「どの検索ワードで来ているか」「どのページがクリックされているか」を確認。低順位（11〜30位）でインプレッションが多いページは、改善でCTR向上の余地大。

Google Tag Manager（GTM）

前述の通り、タグ管理ツール。無料。GA4・Meta Pixel等のタグを一元管理し、計測の追加・変更をブラウザから操作できます。

Looker Studio（旧Google Data Studio）

GA4・Search Console・Google Sheetsなどのデータを集約して、カスタムダッシュボードを作成できる無料ツール。A社であれば、「月次レポートのダッシュボード」を一度作ればその後は自動更新されます。

Microsoft Clarity

Microsoftが提供する無料のヒートマップ・セッション録画ツール。ユーザーがどこをクリックし、どこで離脱したかをビジュアルで確認できます。

特徴：

完全無料（セッション録画の件数制限なし）
ヒートマップ・スクロールマップで「どこが見られているか」を可視化
GA4との連携でセグメントごとの行動パターン確認が可能

中小企業での使い方：UI変更前後で「実際にユーザーがどこを触っているか」を確認する。フォームの入力エラーが多い項目の特定にも使えます。

中価格帯ツール：特定の課題がある場合に追加

Hotjar（月2万〜4万円程度）

Clarityと同様のヒートマップ・セッション録画に加えて、フォーム分析・ユーザーフィードバック機能が充実しています。Clarityより使い勝手が良いという評価も多く、特にフォーム改善に注力したい場合に選択肢になります。

適した場面：フォームの入力離脱率が高い・フォームのどの項目で離脱しているか知りたい・ユーザーの生の声を簡易に収集したい

上位・専門ツール：特定領域で本格的に取り組む場合

Amplitude（無料枠あり。本格活用は月10〜30万円）

プロダクトアナリティクスツール。SaaS・アプリ等でユーザーの行動フローを詳細に分析することに強みがあります。コホート分析・リテンション分析・ファネル分析が視覚的に行えます。

適した場面：継続課金型のサービス・アプリで、ユーザーのライフサイクル全体を分析したい場合。A社のような製造業の問い合わせサイトではGA4で十分なケースが多いですが、将来的にECや会員サービスを立ち上げる場合に検討余地があります。

Mixpanel（無料枠あり。本格活用は月10〜20万円）

Amplitudeと同様のプロダクトアナリティクスツール。イベントトラッキングの柔軟性が高く、SaaS企業での活用実績が多いです。

Heap（要見積もり）

コードレスでイベントをすべて自動記録し、後から分析できる「オートキャプチャ型」のアナリティクスツール。「あのイベントを計測しておけばよかった」という後悔をなくせる発想が特徴です。

広告計測関連ツール

Meta Pixel（メタピクセル）

Facebook・Instagram広告の効果を計測するためのタグ。GTM経由で設置します。

特徴：

Facebook・Instagram広告からのコンバージョンを計測
リターゲティング広告（一度サイトを訪問したユーザーへの再アプローチ）のためのオーディエンス作成
Conversion API（サーバーサイド計測）：ブラウザのCookie制限（ITP等）の影響を受けにくい計測方法

Cookieless時代への対応

Safari・iOSのITP（Intelligent Tracking Prevention）によるCookie規制や、ChromeのサードパーティCookie廃止（段階的に移行中）により、従来のピクセルベースの計測精度が下がってきています。

対応策：

Conversion API（CAPI）：Meta・Google等の広告プラットフォームが提供するサーバーサイド計測API。ブラウザではなくサーバーから直接広告プラットフォームにコンバージョンデータを送るため、Cookie制限の影響を受けにくい
ファーストパーティデータ活用：自社サイトに登録した会員情報・メールリスト等、自社が直接取得したデータを活用。Cookie依存を減らす

生成AIを活用したWeb解析の新しいワークフロー

生成AI（ChatGPT・Claude等）を使うことで、Web解析のサイクルを高速化できます。実際のフローを示します。

ステップ1：データ取得

GA4でレポートを作成し、CSVでエクスポートします。「過去3ヶ月の自然検索流入ページ別のセッション数・CVR・直帰率」をエクスポートする例。

ステップ2：AIによるパターン分析

エクスポートしたCSVをChatGPTまたはClaudeにアップロードし、以下のようにプロンプトで指示します。

“`

このGA4のデータを分析して、以下を教えてください。

CVRが全体平均より30%以上高いページの共通点
直帰率が高いにもかかわらずCVRも高いページ（質の高い訪問が来ている可能性）
セッション数が多いがCVRが極端に低いページ（改善優先度が高い候補）

“`

ステップ3：改善仮説の自動生成

AIが分析結果を返したら、改善仮説のブレインストーミングを続けます。

“`

CVRが高いページの共通点として「製品の具体的なスペック表が含まれている」ことがわかりました。

このことから、CVRが低いページへの改善提案を5つ考えてください。

“`

ステップ4：A/Bテスト設計

AIが提案した改善案の中から有望なものを選び、A/Bテストの設計を依頼します。

“`

「問い合わせフォームの入力項目を7つから4つに減らす」という変更をA/Bテストで検証したいです。

月間セッション数が500、現在のCVRが2%の条件で、有意水準5%・検出力80%に必要なサンプルサイズと推奨テスト期間を計算してください。

“`

ステップ5：定期的なサイクル

この「GA4 CSV出力→AI分析→仮説生成→A/Bテスト設計→実施→再分析」のサイクルを月次で回します。専任担当者がいなくても、経営者・中小企業診断士・Web担当者が半日かけて月次で実施できます。

ツール選定の実践的ガイドライン

中小企業がツールを選ぶ際の判断フレームを示します。

状況	推奨ツールセット
まず基礎を固めたい	GA4 + GTM + Search Console + Looker Studio（無料セット）
UIの問題を特定したい	上記 + Microsoft Clarity（無料）or Hotjar（有料）
広告の計測・最適化をしたい	上記 + Meta Pixel/Conversion API
プロダクト利用状況を深掘りしたい	Amplitude or Mixpanel（まず無料枠で試す）

A社（従業員22名・売上2億円）向け：現実的な導入順とコストシミュレーション

「どのツールから入れて、月いくらかかるか」を具体的に試算します。A社の規模・フェーズに即した現実的な導入シナリオです。

フェーズ1：0円からスタート（第1〜3ヶ月）

まず無料ツールだけで基礎計測体制を構築します。

ツール	月額	役割
GA4	0円	セッション・CV・流入源の基本計測
Google Search Console	0円	検索クエリ・CTR・掲載順位
Google Tag Manager	0円	タグ管理（GTM経由でGA4・CV設定）
Looker Studio	0円	月次ダッシュボード自動更新
Microsoft Clarity	0円	ヒートマップ・セッション録画
合計	0円

この無料セットだけで「何が起きているか（記述）」はほぼカバーできます。A社の担当者が月1〜2時間でレポートを確認できる体制を作ることが第1フェーズの目標です。

フェーズ2：UIの課題が見えてきたら（第4〜6ヶ月）

Clarityのデータを見て「フォームの離脱が多い」「特定のボタンが押されていない」という課題が可視化されたら、フォーム分析に強いHotjarを追加検討します。

ツール	月額	追加理由
上記5ツール	0円	継続
Hotjar（Plusプラン）	約3.2万円（月$199）	フォーム分析・フィードバック収集
合計	約3.2万円

Hotjarの追加は「フォーム完了率が課題であると特定できた」後に検討します。まだ課題が特定できていない段階でHotjarを入れても費用対効果が低くなります。Clarityで十分なケースも多いため、A社ではClarityで6ヶ月試してからHotjar移行を判断するのが現実的です。

フェーズ3：広告計測が必要になったら（施策に応じて）

Google広告またはMeta広告を始めた場合に追加します。

ツール	月額	追加理由
上記	0〜3.2万円	継続
Google広告タグ（GTM設定）	0円（タグ設置のみ）	Google広告のCV計測
Meta Pixel + Conversion API	0円（設定コスト別途）	Meta広告のCV計測（Cookieless対応）
合計	0〜3.2万円	ツール費用は広告費とは別

Conversion APIの設定にはエンジニアコストが必要な場合があります（外注なら5〜15万円が目安）。

A社の結論：3段階シミュレーション

フェーズ	月額コスト	導入目的
フェーズ1（基礎）	0円	まず計測・可視化の習慣を作る
フェーズ2（UI改善）	約3.2万円	フォーム・導線の課題を具体的に掘る
フェーズ3（広告計測）	0〜3.2万円＋設定コスト	広告ROASを正確に把握したい場合

中小企業診断士がA社を支援する場合、「まずフェーズ1を3ヶ月で定着させ、データが溜まったら課題を特定、課題に応じてフェーズ2へ進む」という段階的アプローチを推奨します。「とりあえず全部入れる」よりも「今の課題に必要なものだけ入れる」がコスト・運用負荷の両面で優れています。

A社のような規模・フェーズであれば、まず無料セット（GA4+GTM+Search Console+Clarity）で基礎を固め、データを活用して意思決定できるプロセスを確立することが最優先です。ツールを増やすのは、「何を知りたいのか」が明確になってからで十分です。

8. 因果推論と意思決定｜実験・準実験・意思決定会議のレビュー設計

第1節で「因果推論」を3層の第3層として紹介しました。この節では、その中身を詳しく掘り下げます。Web解析における「その施策が効いた」という主張に因果推論の目を向けることが、意思決定の質を根本から変えます。

なぜ「見える化」だけでは意思決定が良くならないのか——因果推論の視点から

「見える化」とは、データを視覚的に表示することです。ダッシュボードを作り、グラフを見る。これは第一歩として重要です。しかし見える化だけでは「何が起きているか（記述）」はわかっても、「なぜ起きているか（説明）」と「何をすれば良くなるか（予測・介入）」はわかりません。

記述から説明・予測・介入へ進むためには、因果関係の特定が必要です。そして因果関係を特定するためには、反事実（「もしこの施策をしなかったら」）を考え、それを実験または準実験で検証する設計が必要です。

相関と因果の区別

Web解析でよく見る「相関を因果と取り違える」例を整理します。

「滞在時間が長いページはCVRが高い」→ 「だから滞在時間を長くすれば問い合わせが増える」（因果不明。意欲の高いユーザーが自然と長く読むのかもしれない）
「リターゲティング広告をクリックしたユーザーはCVRが高い」→ 「だからリターゲティング予算を増やせば問い合わせが増える」（因果不明。もともとCVする意欲のある人がリターゲティング広告もクリックするのかもしれない）
「A/Bテストでボタン色を赤にしたらCVRが5%上がった」→ 「これは真の効果（因果）か、統計的偶然（ノイズ）か」

A/Bテスト：因果推論の王道

A/Bテスト（ランダム化比較試験）は、ユーザーをランダムにA群とB群に振り分けることで、「二つの群は平均的に同じ性質を持つ」という状態を作ります。この状態で差が生じれば、それは処置（Aバリアント vs Bバリアント）の因果的な効果と解釈できます。

ただし、統計的有意性と実用的有意性は別物です。

統計的有意性（p値）：「この結果が偶然出る確率はX%以下」。p<0.05（5%水準）が一般的な基準
実用的有意性（効果量）：「CVRが0.1ポイント改善」が実際のビジネスに意味があるかどうか

中小企業では、統計的有意性が確認できるサンプルを集めるだけで数ヶ月かかる場合があります。そのため「統計的有意性が出なかったからA/Bテストは無意味」ではなく、「95%信頼区間の範囲で判断する」「ベイズ的アプローチを使う」等の対応が現実的です。

準実験：A/Bができない状況での因果推論

A社のような小規模B2B企業では、多くの場合A/Bテストが難しいです（サンプル数が少ない、ランダム化が現実的でない等）。そこで活用するのが準実験設計です。

第5節でも触れた差分の差分法（Difference-in-Differences, DiD）は、準実験の代表的な手法です。

考え方の核心：処置群（施策を実施したグループ）と対照群（施策を実施していないグループ）の、「施策前後の変化量の差」を計算することで、施策の因果的効果を推定します。

仮定：「処置群と対照群は、施策がなければ平行に推移したはず（平行トレンド仮定）」

A社でのDiD適用例（数値で追う）

A社が「問い合わせページのCTA文言を変更」という施策を実施したとします。施策前後の数値を整理します（仮想例）。

期間	処置群（問い合わせページCV数）	対照群（資料DLページCV数）
施策前4週間	8件	12件
施策後4週間	14件	13件
変化量	+6件	+1件

DiD推定値 = 処置群の変化量 − 対照群の変化量 = 6 − 1 = +5件（CTA文言変更の純粋効果）

対照群（資料DLページ）は施策の影響を受けないため、+1件は「季節性や広告流入の自然増」とみなします。全体で問い合わせが増えた6件のうち5件がCTA変更に起因し、1件は自然増という解釈です。

重要な留意点として、この推定の精度は「対照群の選び方」に依存します。「施策の影響を受けない・処置群と似た特性を持つ」対照群を選べるほど、DiDの推定精度が上がります。A社の規模では完璧な対照群の設定は難しいことが多いですが、「何もしないより根拠のある推定」として活用できます。

意思決定会議の設計：結論を見てから基準を決めない

「施策の効果が出た・出なかった」を議論する会議では、「結論を見てから判断基準を決める」ことが最大のリスクです。

「CVR+5%なら成功」という基準を、結果を見る前に決める。これが「事前設定した判断基準」です。結果を見てから「でも絶対数が少ないから」「でもリピートが減ったから」と後付けで条件を変えると、どんな結果でも「成功」に解釈できてしまいます（これはアンカリングバイアスの変形）。

意思決定会議の推奨構造

“`

【会議前に事前設定】

仮説：「問い合わせページのCTAをAからBに変えると、問い合わせフォーム遷移率が現在の8%から12%以上になる」

判断基準：12%以上なら全展開。8〜12%なら継続検証（期間延長）。8%未満なら棄却して次の仮説へ

【測定期間】4週間（期間中は中断しない）

【会議当日のレビュー項目】

計測の健全性確認（期間中にタグ不具合はなかったか）
サンプルサイズの確認（事前計算と乖離はないか）
セグメント別の逆転がないか（デバイス別・流入源別）
外部イベントの有無（この期間中に展示会・競合の動き等はあったか）
結果の確認と事前設定基準との照合

【NGパターン】

「12%に届かなかったけど11.5%だから成功に近い」→ 事前基準を守る
「スマホでは改善したのでスマホに限定して全展開しよう」→ セグメント別の後付け解釈は要注意（多重比較の問題）

“`

シンプソンのパラドックス：集計データだけ見て喜ばない

第5節でも触れましたが、意思決定の重要な落とし穴として、数値で具体的に示します。

シンプソンのパラドックスとは、集計データでは「改善した」と見えるのに、層別すると全ての層で悪化しているという現象です。

A社でのシンプソンのパラドックス数値例

A社がCTA文言を変更したところ、以下のような数値になったとします。

セグメント	施策前のCVR	施策後のCVR	変化
スマホ	1.8%（セッション200件）	1.5%（セッション350件）	-0.3pt（悪化）
PC	5.0%（セッション150件）	4.2%（セッション150件）	-0.8pt（悪化）
全体	3.1%（350件）	2.5%→?	?

この例では、スマホもPCも悪化しています。しかし「全体CVR」を計算すると何が起きるでしょうか。

施策前：スマホCV数 = 200×1.8% = 3.6件 ≈ 4件。PC CV数 = 150×5% = 7.5件 ≈ 8件。合計CV = 12件、全体セッション350件、全体CVR = 12÷350 ≈ 3.4%
施策後：スマホCV数 = 350×1.5% = 5.25件 ≈ 5件。PC CV数 = 150×4.2% = 6.3件 ≈ 6件。合計CV = 11件、全体セッション500件、全体CVR = 11÷500 ≈ 2.2%

この数値では全体CVRも下がっていますが、逆転が起きるパターンは「スマホ流入が大幅に増えた」場合です。例えばPC流入が300件→100件に減り、スマホ流入が50件→400件に増えた場合、各層で悪化していても全体CVRは「PCの高CVR層が減ったから下がった」のか「CTAが原因で下がった」のかが区別できません。

「全体CVRが下がった（上がった）」という報告だけでは意思決定の根拠として不十分です。「なぜ全体CVRが動いたのか」を理解するためには、層別分析が必須です。

意思決定会議での「層別して見たか」チェックの型

全体数値が動いたとき、以下のチェックを型として持つことを推奨します。

“`

【チェック1：流入構成比の変化】

「この期間でデバイス別・流入元別の構成比が変わっていないか？」

→ 変わっていれば：「全体CVRの変化は構成比変化による見かけの変化かもしれない」

【チェック2：各層の独立した確認】

「スマホ単体で見たとき、CVRはどう動いたか？」

「PC単体で見たとき、CVRはどう動いたか？」

→ 両層で改善していれば：施策の純粋効果と解釈できる

→ 片方が悪化していれば：施策の層別影響を精査する

【チェック3：外部要因の確認】

「この期間中に展示会・競合の施策・季節性要因はあったか？」

→ あれば：全体の変化への影響を切り分けて考える

“`

この3ステップのチェックを月次の意思決定会議で行う習慣を持つことで、シンプソンのパラドックスによる誤った意思決定を防げます。「層別したらどうなる？」という一言の問いが、データ解釈の精度を根本から変えます。

9. プライバシーと計測のトレードオフ｜データ最小化・同意UX・統計推定の設計

8-5-3は、Web解析の中で最も未来に向けた問いです。「計測とプライバシーが衝突する状況で、どこまで追跡すべきか」という問題は、テクノロジーの進化（Cookie廃止・ITP強化）と法規制（個人情報保護法・GDPRの考え方の普及）によって、今後ますます重要になります。

プライバシーと計測が衝突する状況の整理

Web解析のためにユーザーを追跡（トラッキング）すること自体は、悪いことではありません。問題は「どこまで追跡するか」のラインです。

追跡の目的（正当な利益）：

サイトのUXを改善するためのユーザー行動分析
広告効果の計測と予算最適化
パーソナライゼーション（ユーザー属性に合わせたコンテンツ表示）

プライバシーへの懸念：

ユーザーが知らないうちに詳細な行動履歴が収集される
複数サイトをまたいで追跡される（クロスサイトトラッキング）
収集したデータが予期しない目的（広告ターゲティング・第三者への提供等）に使われる

プライバシー・バイ・デザイン（Privacy by Design）の考え方

「計測の設計段階からプライバシーを組み込む」というプライバシー・バイ・デザインの7原則の中で、Web解析に特に関係するのは以下です。

事前の積極的対策（予防的）：プライバシー侵害が起きてから対応するのではなく、設計段階から防止する
データ最小化：目的達成に必要最小限のデータのみ収集する
可視性と透明性：ユーザーに対して、何のデータを何の目的で収集しているかを明確に開示する

データ最小化の実践

「計測できるから計測する」ではなく「この計測は何の意思決定に使うか」を問い、必要なものだけ計測します。

例：A社がリターゲティング広告のためにユーザーの詳細な行動履歴を収集する場合、「この広告は本当に効果があるか（Incremental Testingで確認）」「ターゲティングなしの広告と比べて費用対効果が高いか」を考えた上で、収集を判断します。リターゲティング広告がIncrementality的に効果があるとは限らないことは第5節でも触れました。

同意UX（Consent UX）の設計

GDPRの影響を受けた同意バナー（Cookieバナー）は、多くのサイトで「とにかく全部に同意させる」ような設計になっています。これは倫理的にも規制的にも問題があります。

良い同意UXの原則

明確な選択肢：「すべて同意」と「必要なもののみ」の選択肢を同等に見やすく表示
目的の説明：「広告のパーソナライゼーション」「サイト利用状況の分析」等、具体的な目的を書く
後から変更可能：同意設定をいつでも変更・撤回できる手段を提供
ダークパターン回避：「すべて拒否」ボタンを小さくしたり見つけにくい場所に置かない

A社のような中小企業では、まずGoogleの「同意モード（Consent Mode）」を実装することが現実的です。Consent Modeを使うと、ユーザーがCookieに同意しなかった場合でも、GA4に対してプライバシーに配慮した形で計測データを送ることができます（同意なしの場合はIPアドレスを送らない等）。

匿名化・仮名化の設計

個人を特定できないようにデータを処理する方法として、匿名化と仮名化があります。

匿名化：個人を特定できる情報を完全に除去する。一度匿名化すると元に戻せない
仮名化：個人特定情報を別の識別子に置き換える。鍵（対応表）を別に管理することで、必要な場合は再識別可能

GA4では、設定により「IPアドレスの匿名化」が可能です。また、ユーザーIDを内部のハッシュ化したIDで管理することで、個人を特定せずにリピート訪問を追跡できます。

統計的推定で補う設計

Cookielessの進行により、従来の個人レベルのトラッキングが難しくなっています。その代替として、集計レベルのデータから統計的に効果を推定するアプローチが注目されています。

Google Analytics の「モデリング機能」

GA4は、Cookieに同意していないユーザーの行動を機械学習モデルで推定（モデリング）し、全体のデータに補完する機能を提供しています。これにより、同意率が低くてもある程度の精度でコンバージョン数を把握できます。

集計レベルA/Bテスト

個人レベルのトラッキングなしでA/Bテストを行う手法として、「集計データだけ使うA/Bテスト（Aggregate A/B Testing）」があります。処置を受けたユーザー群全体の集計値と、対照群の集計値を比較するだけで因果効果を推定します。個人を追跡しないため、Cookieless環境でも機能します。

信頼を失わずに意思決定精度を保つトレードオフ

プライバシーと計測のトレードオフを、一言で整理するとこうなります。

「追跡を増やせば分析精度は上がるが、ユーザーの信頼と将来の関係が失われるリスクが高まる。追跡を減らせばユーザーの信頼は維持できるが、意思決定の根拠が弱くなる」

この問いに対する正解は一つではありません。ただし、以下のフレームで判断することを推奨します。

その計測は、明確な意思決定に使われるか：使われないなら収集しない（データ最小化）
ユーザーに開示して理解してもらえるか：「そんなことを計測していたのか」と思われたら信頼を失う
Incremental Testingで代替できないか：個人トラッキングなしの集計実験で同等の意思決定が可能か
技術的代替手段はあるか：Cookieに代わるファーストパーティデータ、Conversion API、GA4モデリング等

プライバシーを守ることは、長期的な競争優位

特に中小B2B企業にとって、プライバシーへの配慮は差別化要素になり得ます。A社の取引先の調達担当者が「このサプライヤーはWebサイトへのアクセスを細かく追跡している」と知ったら、どう思うでしょうか。B2Bの関係性では、信頼が最重要資産です。

「ユーザーの行動を必要最小限しか追跡しない・追跡していることを透明に開示する」という姿勢は、短期的には分析精度を落とすかもしれませんが、長期的には信頼の醸成に繋がります。

10. 組織論応用｜A社22名での計測体制設計とKPIツリーの実装

これまでの理論を、A社22名・売上2億円・主力顧客47%依存という現実の組織でどう実装するかを考えます。「専任のデータアナリストはいない」「Web担当者は他業務との兼任」「経営者はデータに強くない」という条件の下で、どう機能させるかの設計です。

A社の実態に合わせた計測体制の設計原則

原則1：仕組みは「軽く」作る

大企業が使うような複雑なデータウェアハウス・BIツールはA社には不要です。GA4のレポート + Looker Studioのダッシュボード + 月次のGoogleスプレッドシート記録——これだけで十分です。

重要なのは「使い続けられる仕組み」を作ることです。月次で担当者が1時間かければ更新できる程度のシンプルさを保ちます。

原則2：KPIは「3つまで」に絞る

ダッシュボードに20の指標を表示しても、意思決定には役立ちません。A社の場合、追跡するKPIは3つに絞ります。

北極星指標：月間有効問い合わせ件数（最終的に追うもの）
リード指標：製品ページへの訪問数 × 製品ページから問い合わせページへの遷移率（北極星指標の先行指標）
健全性指標：コンバージョンタグの正常稼働確認（計測の信頼性）

原則3：意思決定のトリガーを事前に設定する

「月次で数字を見る」だけでは意思決定は起きません。「北極星指標が前月比-20%以下になったら、原因分析を優先アジェンダにする」「製品ページCVRが3ヶ月連続で改善なければ、コンテンツを見直す」といった、数字がどうなれば何をするかを事前に設定します。

KPIツリーの実装例（A社向け）

“`

【北極星指標】月間有効問い合わせ件数（目標：月12件→現状8件）

│

├── セッション数（月間）

│ ├── 現状：350セッション

│ ├── 目標：500セッション

│ └── 主要施策：Search Console活用でSEO改善

│

├── 問い合わせページ遷移率

│ ├── 現状：12%

│ ├── 目標：15%

│ └── 主要施策：製品ページのCTA改善

│

└── フォーム完了率

├── 現状：45%

├── 目標：60%

└── 主要施策：フォーム項目削減（7項目→4項目）

“`

この計算で、現在の問い合わせ件数は 350×12%×45% ≈ 19件（計算上）ですが、「有効」問い合わせに絞ると8件ということは、有効率が42%程度ということになります。KPIツリーを分解することで「訪問者数・遷移率・完了率のどこを改善すれば最もインパクトが大きいか」という議論ができます。

熟練工の暗黙知をWebコンテンツに変える

A社の勤続20年超の熟練工2名が持つ「この素材はこの条件で加工すると品質が出る」という暗黙知は、ホームページのコンテンツに変換できます。

技術ブログ・事例記事：「こういう難しい加工を、こういう工夫で解決した」という記事
FAQ：調達担当者がよく持つ質問と回答
動画コンテンツ（将来的に）：加工工程の様子

これらのコンテンツは、検索からの流入（Attention）と、サイト内での信頼構築（Interest・Desire）の両方に寄与します。A社のNorth Star Metricである「有効問い合わせ件数」を増やすために、熟練工の知識という社内資産を活用できます。技能伝承とWebコンテンツ生成が、ここで重なります。

主力顧客47%依存という構造へのWeb解析の活用

A社最大のリスクは1社依存です。Web解析の観点からは、以下の活用が考えられます。

指名検索のモニタリング：主力顧客（仮にK社）の調達担当者がA社サイトを指名検索している頻度の変化。急増は「何かの案件を検討している」サイン。急減は「離れかけている」サインかもしれません（ただし個人の識別はせず、集計レベルで把握）
リファラーのモニタリング：K社のドメインからの流入があれば、K社の担当者がA社サイトを確認していることが推測できます
コンテンツの差別化：主力顧客以外の新規訪問者に向けたコンテンツを充実させ、新規問い合わせを増やす

生成AIと診断士の役割分担

A社の支援に入る中小企業診断士は、データの解釈と意思決定のフレームを提供する役割を担えます。具体的には、以下の役割分担が機能します。

A社担当者：月次でGA4レポートをエクスポートし、Looker Studioのダッシュボードを確認する
生成AI（ChatGPT/Claude）：CSVデータの分析・仮説生成・A/Bテスト設計の計算を支援
中小企業診断士：データが示す問題を「なぜ」の観点で解釈し、Web解析以外の経営全体（KPIツリー・組織体制・価格戦略等）と接続した意思決定を提案

この役割分担により、「専任のデジタルマーケターがいない」A社でも、月次でデータを使った意思決定サイクルを回せます。

月次レビューの運用プロセス

実際の運用プロセスを月次カレンダーで示します。

月末：A社担当者がGA4からCSVエクスポート、Looker Studioのダッシュボードをスクリーンショット
翌月第1週：担当者がClaude/ChatGPTにCSVを投入して分析依頼。改善仮説を3つ生成
翌月第2週：診断士との月次ミーティング（1時間）。北極星指標の確認・KPIツリーの分解・生成AIが出した仮説の評価・翌月のA/B候補の決定
翌月第3週：A/Bテストまたは施策の実施
翌月末：また最初に戻る

このサイクルを3ヶ月回すと、「どこがボトルネックか」「何が効いて何が効かないか」のデータが溜まり始め、意思決定の精度が上がります。「データを見ているのに改善できない」から「データで動かせている」への変化は、ツールではなくこのプロセスの定着によってもたらされます。

11. 合格直後の自分へ｜Web解析を「測る技術」ではなく「問いを立てる力」として使う

最後に、診断士合格直後の自分に向けて、申し送りを書きます。

Web解析の知識を身につけた直後、陥りやすいのは「ツールの使い方」や「指標の計算方法」を習得したことで、Web解析ができるようになったと思う錯覚です。しかしWeb解析の本質は、ツールの使い方ではなく問いを立てる力にあります。

「なぜ見える化だけでは不十分か」——その本質的な答え

見える化とは「何が起きているかを記述する」ことです。しかし意思決定には「なぜ起きているか（説明）」と「何をすれば変わるか（介入）」が必要です。記述から説明・介入へ進むためには、3つの問いを立てる力が必要です。

計測の問い：「この数字は信用できるか」——データ品質の問い
解釈の問い：「この変化の原因は何か」——因果推論の問い
優先の問い：「どの指標を北極星にすべきか」——KPI設計の問い

この3つの問いを習慣にすることが、「データを見ている診断士」から「データで意思決定を変える診断士」への変化の核心です。

診断士実務との4つの接続点

接続点1：Goodhart’s Lawは経営全般の問題

Web解析でのKPI設計の歪み（PV目標・CVR目標）は、「営業件数目標」「残業時間ゼロ目標」「不良率ゼロ目標」と同じ構造です。目標が測定可能な指標に変わった瞬間に、指標を最大化する行動が誘発され、本来の目的から外れる——これはガバナンスと組織行動論の問題でもあります。

接続点2：AIDMAの計測は中小企業の販路開拓支援に直結

診断士が中小企業の販路開拓を支援するとき、「どのステージがボトルネックか」を特定することが最初の一手です。AIDMAの各ステージに計測指標を対応させることで、「認知が足りない（展示会・SEO強化）」「興味は引けているが欲求まで進まない（コンテンツ充実）」「欲求はあるが行動できていない（フォーム改善・CTA強化）」を定量的に特定できます。

接続点3：因果推論は「効果のある支援」の根拠になる

診断士の介入（経営支援）が「効いたかどうか」を判断する際も、因果推論の発想が必要です。「支援を受けた企業は業績が上がった」は相関でしかありません。「支援を受けなかったら、この企業はどうなっていたか（反事実）」を考え、対照群と比較するIncrementality的な発想を持つことで、自分の支援の真の効果を評価できます。

接続点4：プライバシー配慮は中小企業の競争優位

大企業がデータ活用で競争優位を持つ時代に、中小企業が「プライバシーを大切にする企業」として差別化することは可能です。特にB2B取引では、情報管理の姿勢が評価されます。「必要最小限のデータしか取らない・取ったものを透明に開示する」という姿勢は、顧客との長期的信頼構築に繋がります。

最初の案件での3つの実装

実装1：計測の健全性確認を最初に行う

クライアントのGA4・GTMを見たとき、「このコンバージョンタグは正しく動いているか」を最初に確認します。GTMのプレビューモードとGA4のDebugViewで実際の発火を確認。「数字が見えているから大丈夫」ではなく「数字が信用できるか」から始める習慣が、データを使った支援の基礎です。

実装2：北極星指標を1つ選ぶ議論を経営者とする

「PVが重要ですか？問い合わせ件数が重要ですか？」ではなく、「3年後に何が達成できていれば、このサイトは価値を発揮したと言えますか」という問いを立てます。そこから逆算して北極星指標を1つ選び、それを中心にKPIツリーを構築する。この議論自体が、Webの話ではなく経営戦略の議論になります。

実装3：「効いた」という主張に「反事実は」と問う

クライアントや支援機関が「この施策で売上が伸びた」と報告するとき、「もしこの施策をしなかったら、どうなっていたと思いますか」と問う習慣を持ちます。この一言が、相関と因果の区別を意識させ、次回からより厳密な計測設計を促します。

Web解析は「ツール」でも「技術」でも「資格」でもなく、「問いを立てる習慣」です。データを見る場面で、「この数字は信用できるか」「この変化はなぜか」「この指標は本当に重要か」という3つの問いを立て続ける。そのシンプルな習慣が、クライアントに対して最も大きな価値を提供します。

合格おめでとうございます。最初にGA4のダッシュボードを見せてもらったとき、一つだけ問うてみてください。「このコンバージョンタグ、正しく動いていることを最後にいつ確認しましたか？」。その問いから、すべてが始まります。

本記事は、中小企業診断士合格後の実務準備を目的とした記事群の一部です。試験対策ではなく「合格後の知的再武装」として、アカデミックと実務のギャップを埋めることをコンセプトにしています。チェックポイント8-5「Web解析を、計測設計（イベント定義）、アトリビューションの限界、因果推論（実験/準実験）として定義し、なぜ『見える化』だけでは意思決定が良くならないのかを説明できる（8-5-1）」「計測の不整合（タグ漏れ、重複）を前提に、データ品質チェック、A/B設計、セグメント別影響、短期/長期評価を統合し、意思決定会議で何をレビューすべきかを具体化できる（8-5-2）」「計測とプライバシーが衝突する状況で、データ最小化、同意UX、匿名化、統計的推定で補う設計を提案し、信頼を失わずに意思決定精度を保つトレードオフを明示できる（8-5-3）」に対応しています。本記事の一部はAIによる分析・生成を含みます。重要な経営判断は専門家による検証をお勧めします。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

ろっさん

３０代会社員。
理系大学を卒業して以降、新卒からIT業界を渡り歩いてきました。
転職経験は２回。
　・中小SIerにてプログラマー
　・BtoB向けサービス事業会社にて社内開発SE
　・大手総合コンサル会社にてテクノロジーコンサルタント（見習い）
といったキャリアを歩んでいます。

人生１００年時代に向け日々精進！
知らない道を歩いたり走ったりするのが好きで、フルマラソン完走するくらいにはジョギングを続けています。

興味のあるトピック
　・資格勉強
　　（主な取得資格）
　　・中小企業診断士
　　・JDLA認定　G検定・E資格
　　・情報処理技術者試験　応用情報処理技術者、ITストラテジスト他複数
　・競技系プログラミング（Atcoder、kaggle等も含む）
　・データサイエンス、AI関連の話題
　・クイズ、謎解き系
　・読書、映画
　・ボードゲーム全般（将棋アマチュア2段程度。専ら”見る将”）

【日々のマナビ】Web解析のKPI設計はなぜ難しいのか｜Goodhart’s Law・因果推論・増分効果

0. はじめに｜「データは見ているのに、なぜ改善できないのか」

1. Web解析の3層定義｜計測設計・アトリビューション・因果推論

2. 計測設計の実務｜イベント定義・データ品質チェック・GTMの使い方

3. KPIの罠とGoodhart’s Law｜PV至上主義が意思決定を歪める

4. AIDMAと計測の接続｜ステージ別の計測指標とボトルネック特定

5. アトリビューションの限界とIncremental Testing｜Last Clickの罠と増分効果測定

6. データ品質・A/B設計・セグメント別影響・意思決定会議のレビュー観点

7. ツール活用の全体像｜コスト別カテゴリと生成AI活用フロー

8. 因果推論と意思決定｜実験・準実験・意思決定会議のレビュー設計

9. プライバシーと計測のトレードオフ｜データ最小化・同意UX・統計推定の設計

10. 組織論応用｜A社22名での計測体制設計とKPIツリーの実装

11. 合格直後の自分へ｜Web解析を「測る技術」ではなく「問いを立てる力」として使う

この記事を書いた人

コメント

コメントするコメントをキャンセル

【日々のマナビ】Web解析のKPI設計はなぜ難しいのか｜Goodhart’s Law・因果推論・増分効果

0. はじめに｜「データは見ているのに、なぜ改善できないのか」

1. Web解析の3層定義｜計測設計・アトリビューション・因果推論

2. 計測設計の実務｜イベント定義・データ品質チェック・GTMの使い方

3. KPIの罠とGoodhart’s Law｜PV至上主義が意思決定を歪める

4. AIDMAと計測の接続｜ステージ別の計測指標とボトルネック特定

5. アトリビューションの限界とIncremental Testing｜Last Clickの罠と増分効果測定

6. データ品質・A/B設計・セグメント別影響・意思決定会議のレビュー観点

7. ツール活用の全体像｜コスト別カテゴリと生成AI活用フロー

8. 因果推論と意思決定｜実験・準実験・意思決定会議のレビュー設計

9. プライバシーと計測のトレードオフ｜データ最小化・同意UX・統計推定の設計

10. 組織論応用｜A社22名での計測体制設計とKPIツリーの実装

11. 合格直後の自分へ｜Web解析を「測る技術」ではなく「問いを立てる力」として使う

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル