AI Share of Voice (AI-SOV): The Definitive Methodology
Bukan persentase sederhana – ini adalah weighted
metric berdasarkan posisi penyebutan (first mention, middle, atau last),
sentiment, dan panjang konteks
Anda Tidak Dapat Mengelola Apa yang Tidak Anda Ukur
Salah satu
kesalahan terbesar yang saya lihat di perusahaan yang memulai GEO adalah mereka
mengukur hal yang salah—atau tidak mengukur sama sekali.
Mereka bertanya,
"Apakah AI menyebut merek kita?" dan jika jawabannya
"kadang-kadang," mereka menganggap itu cukup.
Ini seperti
mengukur keberhasilan SEO dengan bertanya, "Apakah Google mengindeks
halaman kita?" tanpa melihat peringkat, klik, atau konversi.
GEO membutuhkan
sistem pengukuran yang presisi, konsisten, dan dapat ditindaklanjuti.
Tanpa sistem pengukuran:
- Anda
tidak tahu apakah tindakan GEO Anda berhasil atau gagal
- Anda tidak dapat membuktikan ROI ke
eksekutif
- Anda tidak dapat mengidentifikasi
celah sebelum pesaing mengeksploitasinya
- Anda tidak dapat mengalokasikan
budget secara rasional
Dengan sistem pengukuran:
- Setiap
tindakan GEO memiliki dampak yang terukur
- Anda
dapat memprediksi hasil sebelum bertindak
- Anda dapat membela budget GEO dengan
data, bukan firasat
- Anda dapat melihat peluang yang tidak
dilihat pesaing
Bab ini akan
memberi Anda sistem pengukuran yang sama yang saya gunakan untuk mengaudit
lebih dari 500 perusahaan dan membantu mereka meningkatkan AI-SOV rata-rata 27
poin dalam 90 hari.
4.1 AI Share
of Voice (AI-SOV): Definisi dan Metodologi
4.1.1 Definisi
Formal
AI Share of
Voice (AI-SOV) adalah
persentase penyebutan merek Anda terhadap total penyebutan semua merek dalam
respons AI untuk sekumpulan prompt yang telah ditentukan, dengan bobot yang
disesuaikan berdasarkan:
- Posisi
penyebutan (seberapa awal merek disebut dalam respons)
- Panjang konteks (berapa banyak token yang
membahas merek Anda)
- Sentimen (apakah konteksnya positif, netral,
atau negatif)
- Kekuatan asosiasi (apakah merek disebut sebagai
entitas utama atau sekadar contoh)
Rumus lengkap:
text
AI-SOV = (Σ (Bobot_Merek) / Σ (Bobot_Semua_Merek)) × 100%
Di mana Bobot_Merek untuk
satu penyebutan dalam satu respons adalah:
text
Bobot = Posisi_Weight × Konteks_Weight × Sentimen_Weight ×
Asosiasi_Weight
4.1.2 Komponen
Bobot
A. Posisi
Weight (berdasarkan urutan penyebutan dalam respons)
|
Posisi Penyebutan |
Bobot |
Alasan |
|
Pertama (disebut paling awal) |
1.00 |
Attention tertinggi; LLM menganggap ini paling penting |
|
Kedua |
0.70 |
Masih tinggi, tetapi sudah ada penurunan |
|
Ketiga |
0.50 |
Tengah; mulai
dianggap sebagai "pelengkap" |
|
Keempat |
0.35 |
Menurun signifikan |
|
Kelima |
0.25 |
Hampir tidak diperhatikan |
|
Keenam+ |
0.15 |
Residual; hampir tidak berkontribusi pada keputusan |
B. Konteks Weight (berdasarkan panjang pembahasan)
|
Panjang Konteks (token) |
Bobot |
Alasan |
|
>100 token |
1.00 |
Pembahasan mendalam; LLM menganggap entitas ini penting |
|
50-100 token |
0.80 |
Pembahasan substansial |
|
20-49 token |
0.60 |
Pembahasan sedang |
|
5-19 token |
0.40 |
Penyebutan singkat |
|
1-4 token |
0.20 |
Hanya nama; tanpa konteks |
C. Sentimen Weight
|
Sentimen |
Bobot |
Contoh |
|
Positif kuat |
1.20 |
"Acme
adalah yang terbaik di kelasnya" |
|
Positif |
1.00 |
"Acme adalah pilihan yang baik" |
|
Netral |
0.80 |
"Acme
menawarkan fitur X, Y, Z" |
|
Negatif |
0.50 |
"Acme memiliki kekurangan dalam hal..." |
|
Negatif kuat |
0.30 |
"Acme tidak direkomendasikan karena..." |
D. Asosiasi Weight (apakah merek adalah fokus atau
sekadar contoh)
|
Tipe Asosiasi |
Bobot |
Contoh |
|
Entitas utama (subject kalimat) |
1.00 |
"Acme menyediakan solusi terbaik..." |
|
Entitas pendukung (object/referensi) |
0.70 |
"Platform seperti Acme menawarkan..." |
|
Contoh dalam daftar |
0.50 |
"Beberapa
pilihan termasuk Acme, Beta, Gamma" |
|
Disebut sebagai pesaing |
0.40 |
"Tidak seperti Acme, Beta lebih unggul di..." |
4.1.3 Contoh Perhitungan AI-SOV
Bayangkan respons AI untuk prompt "software CRM terbaik
untuk UKM":
"Untuk UKM, tiga platform CRM yang paling
direkomendasikan adalah HubSpot (terbaik untuk otomatisasi
pemasaran), Pipedrive (terbaik untuk pipeline management),
dan Zoho (terbaik untuk anggaran terbatas). HubSpot menawarkan free plan yang kuat dengan hingga
1 juta kontak. Banyak UKM yang saya bicarakan melaporkan peningkatan
produktivitas 40% setelah menggunakan HubSpot."
Ekstraksi penyebutan:
HubSpot:
- Posisi:
pertama → 1.00
- Konteks: 85 token (kalimat kedua dan
ketiga) → 0.80
- Sentimen: positif ("paling
direkomendasikan," "40% peningkatan") → 1.00
- Asosiasi:
entitas utama (subject) → 1.00
- Bobot
= 1.00 × 0.80 × 1.00 × 1.00 = 0.80
Pipedrive:
- Posisi:
kedua → 0.70
- Konteks: 15 token (hanya dalam
daftar, tanpa elaborasi) → 0.40
- Sentimen:
netral (sebutan tanpa evaluasi) → 0.80
- Asosiasi:
contoh dalam daftar → 0.50
- Bobot
= 0.70 × 0.40 × 0.80 × 0.50 = 0.112
Zoho:
- Posisi:
ketiga → 0.50
- Konteks:
12 token → 0.40
- Sentimen:
netral → 0.80
- Asosiasi:
contoh dalam daftar → 0.50
- Bobot
= 0.50 × 0.40 × 0.80 × 0.50 = 0.08
Total bobot semua merek: 0.80 + 0.112 + 0.08 =
0.992
AI-SOV HubSpot: (0.80 / 0.992) × 100% = 80.6%
Ini jauh lebih
akurat daripada hitungan sederhana "1 dari 3 merek disebut = 33%."
4.2 Prompt
Universe Mapping: Memetakan Semua Kemungkinan Pertanyaan
Anda tidak dapat
mengukur AI-SOV secara akurat jika Anda hanya menguji prompt yang Anda
pikirkan.
Pelanggan (dan
AI) tidak terbatas pada 10 pertanyaan yang ada di kepala Anda. Mereka
mengajukan ratusan variasi—dengan kata yang berbeda, urutan yang berbeda,
konteks yang berbeda.
Prompt
Universe Mapping adalah
metodologi untuk mengidentifikasi semua kemungkinan prompt yang relevan dengan
kategori Anda.
4.2.1
Metodologi Empat Langkah
Langkah 1:
Ekspansi Kata Kunci Tradisional
Mulai dengan kata
kunci inti dari SEO tradisional. Kemudian ekspansi menggunakan:
|
Teknik |
Contoh |
Output |
|
Sinonim |
"CRM" → "customer relationship
management," "sales software," "contact management" |
10-20 variasi |
|
Panjang ekor (long-tail) |
"CRM" → "CRM untuk UKM," "CRM
dengan otomatisasi email," "CRM murah untuk startup" |
20-50 variasi |
|
Format pertanyaan |
"CRM" → "Apa CRM terbaik...",
"Bagaimana cara memilih CRM...", "Mengapa perusahaan
menggunakan CRM..." |
3-5 format × kata kunci = 30-50 variasi |
|
Persona |
"CRM" → "Untuk sales rep," "Untuk
owner UKM," "Untuk tim marketing" |
3-5 persona × kata kunci = 30-50 variasi |
Total dari Langkah 1: 50-100 prompt
Langkah 2:
Ekstraksi dari AI Itu Sendiri
Gunakan AI untuk
menghasilkan prompt yang mungkin tidak Anda pikirkan.
Prompt untuk ChatGPT/Claude:
text
Anda adalah ahli GEO. Saya memiliki produk di kategori
[kategori Anda].
Buatkan 50 pertanyaan yang mungkin ditanyakan pengguna AI
search
tentang kategori ini. Variasikan dalam:
- Tingkat
keahlian (pemula, menengah, ahli)
- Tujuan
(membandingkan, memilih, memecahkan masalah, belajar)
- Konteks
(industri, ukuran perusahaan, budget)
Format: satu
pertanyaan per baris, tanpa nomor.
Output: 50 prompt tambahan
Langkah 3:
Ekstraksi dari Pesaing
Lihat halaman
FAQ, blog, dan forum pesaing. Pertanyaan apa yang mereka jawab? Itu adalah prompt yang mungkin
digunakan pelanggan.
Sumber:
- Halaman
FAQ pesaing
- Subreddit industri (cari pertanyaan
yang tidak terjawab dengan baik)
- Quora
(lihat pertanyaan dengan banyak views tetapi sedikit jawaban)
- G2/Capterra
(lihat "cons" yang disebut pengguna—itu adalah pertanyaan
tentang kekurangan)
Output: 20-30 prompt tambahan
Langkah 4: Sintesis dan Deduplikasi
Gabungkan semua
prompt dari Langkah 1-3. Hapus
duplikat (pertanyaan yang sama dengan kata berbeda). Kelompokkan ke
dalam prompt clusters.
Contoh cluster untuk kategori "software
akuntansi":
|
Cluster |
Contoh Prompt |
Jumlah Prompt di Cluster |
|
Perbandingan umum |
"Software akuntansi terbaik?" |
12 |
|
Untuk UKM |
"Software
akuntansi untuk usaha kecil?" |
18 |
|
Fitur spesifik |
"Software akuntansi dengan invoice otomatis?" |
25 |
|
Harga |
"Software akuntansi murah?" |
15 |
|
Integrasi |
"Software
akuntansi yang terintegrasi dengan e-commerce?" |
10 |
|
Kemudahan penggunaan |
"Software akuntansi paling mudah?" |
8 |
Total prompt unik untuk diuji secara rutin: 50-100
(cukup untuk baseline)
4.2.2 Template Prompt Library
Setelah Anda memetakan prompt universe, buat Prompt
Library yang akan digunakan untuk testing rutin.
Contoh template (untuk kategori "software manajemen
proyek"):
# PROMPT LIBRARY - Project Management Software
## Last Updated: [Tanggal]
## Total Prompts: 75
## CLUSTER 1: General Comparison (15 prompts)
1. "Apa software manajemen proyek terbaik untuk tim
kecil?"
2.
"Rekomendasikan 3 platform manajemen proyek untuk tim remote"
3. "Software
manajemen proyek mana yang paling mudah digunakan?"
... (12 lainnya)
## CLUSTER 2:
Feature-Specific (25 prompts)
1. "Software
manajemen proyek dengan Gantt chart terbaik?"
2. "Platform
mana yang memiliki fitur time tracking terintegrasi?"
3.
"Manajemen proyek dengan automasi workflow yang paling canggih?"
... (22 lainnya)
## CLUSTER 3: Industry-Specific (15 prompts)
1. "Software manajemen proyek untuk agensi
kreatif?"
2. "Platform terbaik untuk tim engineering?"
3. "Manajemen proyek untuk industri konstruksi?"
... (12 lainnya)
## CLUSTER 4: Budget & Pricing (10 prompts)
1. "Software
manajemen proyek gratis terbaik?"
2. "Platform
murah untuk startup?"
3.
"Manajemen proyek dengan free plan yang cukup untuk 5 orang?"
... (7 lainnya)
## CLUSTER 5: Comparison Between Brands (10 prompts)
1. "Asana vs Trello vs Monday.com, mana yang
terbaik?"
2. "ClickUp vs Wrike, mana yang lebih cocok untuk
enterprise?"
3. "Jira vs
Asana untuk tim non-teknis?"
... (7 lainnya)
4.2.3
Prioritas Prompt untuk Testing Rutin
Tidak semua
prompt perlu diuji setiap minggu. Gunakan matriks ini untuk menentukan
frekuensi:
|
Kategori Prompt |
Frekuensi Pengujian |
Alasan |
|
Prompt volume tinggi (paling sering ditanyakan) |
Mingguan |
Ini adalah "front page" AI search Anda |
|
Prompt di mana Anda berkinerja buruk |
Mingguan |
Pantau perbaikan |
|
Prompt di mana
pesaing kuat |
Dua mingguan |
Pantau perubahan strategi pesaing |
|
Prompt volume rendah |
Bulanan |
Tidak perlu sering-sering |
|
Prompt baru (dari eksporsi) |
Sekali, lalu
masukkan ke kategori yang sesuai |
Validasi apakah relevan |
Target: 20-30 prompt per minggu (dapat
diselesaikan dalam 2-3 jam dengan automasi)
4.3 The Competitor AI Shadowing Protocol
Pesaing Anda mungkin tidak memberi tahu Anda apa yang mereka
lakukan di GEO. Tetapi AI search akan memberi tahu Anda—jika Anda tahu cara
mendengarkan.
Competitor AI Shadowing adalah protokol
sistematis untuk memantau kapan, bagaimana, dan mengapa pesaing muncul dalam
respons AI.
4.3.1 Shadowing Matrix
Buat matriks untuk setiap pesaing utama (3-5 pesaing):
|
Pesaing |
AI-SOV (overall) |
Prompt di mana
mereka menang |
Prompt di mana
mereka kalah |
Entity yang mereka asosiasikan |
Taktik yang terdeteksi |
|
Pesaing A |
34% |
"Enterprise CRM", "Sales automation" |
"CRM untuk UKM", "CRM murah" |
"AI-powered", "Fortune 500" |
Banyak data
unik di whitepaper |
|
Pesaing B |
28% |
"CRM untuk startup", "Freemium CRM" |
"Enterprise", "Customization" |
"Easy to use", "Fast setup" |
Aktif di Reddit
dan komunitas founder |
|
Pesaing C |
12% |
"Open source CRM" |
Semua prompt lain |
"Customizable", "Self-hosted" |
Dokumentasi
teknis yang sangat detail |
4.3.2 Cara Mendeteksi Taktik Pesaing
|
Jika Anda melihat... |
Kemungkinan taktik pesaing... |
Apa yang harus Anda lakukan |
|
Pesaing disebut
dengan data spesifik yang tidak umum ("47% peningkatan") |
Mereka memiliki data unik (survei, analisis internal) dan
mendistribusikannya ke banyak domain |
Kumpulkan data unik Anda sendiri; jika tidak bisa, kutip
data mereka tetapi dengan konteks yang menguntungkan Anda |
|
Pesaing disebut
di prompt yang tidak berhubungan langsung dengan kategori mereka |
Mereka melakukan entity stacking agresif ke entitas
populer |
Identifikasi
entitas populer di industri Anda; bangun asosiasi sebelum mereka |
|
Pesaing selalu
disebut pertama, bahkan dengan konten yang biasa-biasa saja |
Mereka memiliki
entity authority tinggi (mungkin dari Wikipedia atau Wikidata) |
Perbarui entri Wikipedia/Wikidata Anda; dapatkan backlink
dari sumber otoritas |
|
Pesaing baru
tiba-tiba muncul di banyak prompt |
Mereka baru
saja melakukan GEO sprint atau mendapatkan liputan besar |
Analisis apa
yang mereka lakukan dalam 14 hari terakhir; tiru yang berhasil |
|
Pesaing disebut
tetapi dengan konteks negatif |
Mungkin ada
kampanye negatif atau mereka memiliki masalah produk |
Jangan ikuti;
manfaatkan dengan menjadi alternatif positif ("tidak seperti X, kami
menawarkan Y") |
4.3.3 Shadowing Schedule
|
Frekuensi |
Aktivitas |
Output |
|
Mingguan |
Jalankan 10 prompt yang sama untuk semua pesaing; hitung
AI-SOV mereka |
Perbandingan AI-SOV mingguan |
|
Dua mingguan |
Analisis entity
baru yang diasosiasikan pesaing |
Entity watchlist |
|
Bulanan |
Deep dive ke satu pesaing: analisis konten, JSON-LD,
distribusi eksternal mereka |
Laporan taktik pesaing |
|
Kuartalan |
Shadowing report untuk eksekutif: siapa naik, siapa turun,
dan mengapa |
Board deck tambahan |
4.3.4 Studi Kasus: Shadowing yang Membalikkan Keadaan
Perusahaan middleware B2B (anonim) kehilangan AI-SOV ke
pesaing yang lebih kecil tetapi lebih agresif di GEO. Mereka memulai shadowing
protocol.
Temuan dari shadowing (Minggu 1-4):
- Pesaing
memiliki AI-SOV 41% di prompt "API gateway untuk microservices"
- Pesaing disebut dengan klaim
"mendukung 50.000 request per detik" (angka spesifik)
- Klaim ini muncul di 12 domain
berbeda: website pesaing, blog mereka, Medium, Reddit (3 subreddit),
LinkedIn (5 posting karyawan), dan 2 artikel media
Apa yang dilakukan perusahaan:
- Mereka tidak bisa mengklaim 50.000
RPS (infrastruktur mereka 35.000 RPS)
- Tapi mereka memiliki keunggulan lain:
latency 12ms (pesaing 25ms)
- Mereka
melakukan entity stacking untuk "latency terendah"
- Mereka
juga membuat tabel perbandingan yang menunjukkan bahwa untuk beban
35.000-50.000 RPS, kedua produk sama-sama mumpuni, tetapi untuk latency,
mereka unggul
Hasil (60 hari kemudian):
- AI-SOV perusahaan naik dari 22%
menjadi 39%
- AI-SOV pesaing turun dari 41% menjadi
35%
- Prompt
"API gateway dengan latency terendah" sekarang didominasi
perusahaan (AI-SOV 67%)
Pembelajaran: Jangan mencoba meniru keunggulan
pesaing jika Anda tidak memilikinya. Temukan keunggulan Anda sendiri yang tidak
mereka miliki, dan bangun entity graph di sekitar keunggulan itu.
4.4 GEO Scorecard Enterprise Edition
GEO Scorecard adalah dashboard 21 metrik yang terbagi dalam
5 kuadran. Setiap kuadran memberi Anda pandangan berbeda tentang kesehatan GEO
Anda.
4.4.1 Lima Kuadran Scorecard
Kuadran 1: Visibility (Seberapa sering Anda terlihat?)
|
Metrik |
Definisi |
Target |
Bobot di Kuadran |
|
AI-SOV (overall) |
% weighted share of voice untuk 50 prompt utama |
>30% |
30% |
|
Prompt Coverage |
% prompt di mana merek Anda disebut (minimal 1 kali) |
>80% |
25% |
|
First Mention Rate |
% prompt di
mana Anda disebut pertama |
>25% |
25% |
|
Multi-Platform Presence |
Rata-rata
AI-SOV di 5 platform AI |
>20% |
20% |
Kuadran 2:
Authority (Seberapa dipercaya Anda?)
|
Metrik |
Definisi |
Target |
Bobot di Kuadran |
|
Entity Density (halaman produk) |
Hubungan entitas per 1.000 token |
>15 |
25% |
|
Consistency Score |
% fakta
konsisten di 10 domain eksternal |
>85% |
25% |
|
External Citations |
Jumlah domain
unik yang merujuk merek Anda |
>50 |
25% |
|
Wikipedia/Wikidata Presence |
Apakah Anda
memiliki entri atau disebut? |
Ada entri atau
minimal 3 penyebutan |
25% |
Kuadran 3: Relevance (Seberapa relevan Anda dengan
prompt?)
|
Metrik |
Definisi |
Target |
Bobot di Kuadran |
|
Contextual Alignment |
Rata-rata
konteks weight untuk penyebutan Anda |
>0.70 |
30% |
|
Entity-Intent Match |
% entity Anda
yang relevan dengan prompt utama |
>80% |
25% |
|
Sentiment Score |
Rata-rata sentimen weight untuk penyebutan Anda |
>0.90 |
25% |
|
Competitor Gap |
Selisih AI-SOV Anda dengan pesaing #1 |
<15 poin (atau positif) |
20% |
Kuadran 4: Technical Health (Apakah fondasi teknis Anda
solid?)
|
Metrik |
Definisi |
Target |
Bobot di Kuadran |
|
JSON-LD Coverage |
% halaman
kritis dengan JSON-LD lengkap |
100% |
25% |
|
Structured Data Validity |
% halaman tanpa error schema |
100% |
25% |
|
Attention Zone Score |
Apakah klaim
kunci di Zona 1? |
Ya |
25% |
|
Crawlability |
Apakah AI
crawler dapat mengakses semua halaman? |
100% |
25% |
Kuadran 5:
Velocity (Apakah Anda bergerak cepat?)
|
Metrik |
Definisi |
Target |
Bobot di Kuadran |
|
AI-SOV Momentum |
Perubahan AI-SOV dalam 30 hari |
>+5 poin |
30% |
|
New Entity Rate |
Entitas baru
yang diasosiasikan per bulan |
>3 |
25% |
|
Incident Recovery Time |
Waktu rata-rata
resolusi incident |
<24 jam |
25% |
|
Distribution Velocity |
Domain
eksternal baru per bulan |
>5 |
20% |
4.4.2 Cara Menghitung dan Menampilkan Scorecard
Skor per kuadran: Rata-rata tertimbang dari
metrik di kuadran tersebut.
Skor
keseluruhan: Rata-rata
dari 5 skor kuadran.
Visualisasi
yang direkomendasikan: Radar
chart (spider chart) dengan 5 sumbu.
text
VISUALISASI RADAR
CHART:
Visibility
|
100%
|
Velocity
------+------ Authority
/|\
/ | \
/ | \
/ | \
Technical Relevance
Health
Setiap sumbu dari 0% (pusat) hingga 100% (tepi)
Target: semua sumbu >70%
4.4.3 Template Scorecard Bulanan
# GEO SCORECARD - [Bulan/Tahun]
## [Nama
Perusahaan]
## SKOR
KESELURUHAN: [X%] / 100%
## TREND: [↑/↓/→]
[Z] poin dari bulan lalu
## KUADRAN 1:
VISIBILITY (Bobot 20% dari overall)
- AI-SOV: [X%] (target >30%) → [↑/↓/→]
- Prompt Coverage: [X%] (target >80%) → [↑/↓/→]
- First Mention Rate: [X%] (target >25%) → [↑/↓/→]
- Multi-Platform Presence: [X%] (target >20%) → [↑/↓/→]
**Skor Kuadran
1: [X%]**
## KUADRAN 2:
AUTHORITY (Bobot 20% dari overall)
- Entity Density: [X] (target >15) → [↑/↓/→]
- Consistency Score: [X%] (target >85%) → [↑/↓/→]
- External Citations: [X] (target >50) → [↑/↓/→]
- Wikipedia/Wikidata: [Status] → [↑/↓/→]
**Skor Kuadran
2: [X%]**
## KUADRAN 3:
RELEVANCE (Bobot 20% dari overall)
- Contextual Alignment: [X] (target >0.70) → [↑/↓/→]
- Entity-Intent Match: [X%] (target >80%) → [↑/↓/→]
- Sentiment Score: [X] (target >0.90) → [↑/↓/→]
- Competitor Gap: [X poin] (target <15) → [↑/↓/→]
**Skor Kuadran 3: [X%]**
## KUADRAN 4: TECHNICAL HEALTH (Bobot 20% dari overall)
- JSON-LD Coverage: [X%] (target 100%) → [↑/↓/→]
- Structured Data Validity: [X%] (target 100%) → [↑/↓/→]
- Attention Zone Score: [Ya/Tidak] (target Ya) → [↑/↓/→]
- Crawlability: [X%] (target 100%) → [↑/↓/→]
**Skor Kuadran
4: [X%]**
## KUADRAN 5:
VELOCITY (Bobot 20% dari overall)
- AI-SOV
Momentum: [X poin] (target >+5) → [↑/↓/→]
- New Entity Rate: [X] (target >3) → [↑/↓/→]
- Incident Recovery Time: [X jam] (target <24) → [↑/↓/→]
- Distribution Velocity: [X] (target >5) → [↑/↓/→]
**Skor Kuadran 5: [X%]**
## TOP 3 WINNING PROMPTS (AI-SOV tertinggi)
1. [Prompt]: [X%]
2. [Prompt]: [X%]
3. [Prompt]: [X%]
## BOTTOM 3 PROMPTS (terendah atau tidak disebut)
1. [Prompt]: [X%]
2. [Prompt]: [X%]
3. [Prompt]: [X%]
## RECOMMENDATIONS FOR NEXT MONTH
1. [Rekomendasi
berdasarkan kuadran terendah]
2. [Rekomendasi
berdasarkan bottom prompts]
3. [Rekomendasi untuk mempertahankan winning prompts]
4.5 LLM-as-Judge Framework
Salah satu tantangan terbesar dalam pengukuran GEO
adalah skalabilitas. Mengukur AI-SOV untuk 50 prompt secara manual
membutuhkan waktu berjam-jam.
Solusinya: Gunakan LLM untuk mengevaluasi LLM.
LLM-as-Judge adalah teknik di mana Anda menggunakan satu
model AI (misal: GPT-4) untuk mengevaluasi output dari model AI lain (misal:
Perplexity, Claude, Gemini).
4.5.1 System Prompt untuk AI Judge
Anda adalah hakim
GEO yang objektif dan konsisten. Tugas Anda adalah mengevaluasi
respons AI search
dan mengekstrak informasi berikut:
1. SEMUA merek
yang disebut dalam respons
2. Untuk setiap
merek:
a. Posisi penyebutan (pertama, kedua, dst.)
b. Panjang konteks (jumlah kata yang
membahas merek tersebut)
c. Sentimen (positif, netral, negatif) dan skor 0-1
d. Apakah merek adalah subjek utama atau
hanya contoh
e. Klaim atau fakta spesifik yang disebut
tentang merek
Output format: JSON
Contoh output:
{
"brands":
[
{
"name": "HubSpot",
"position": 1,
"context_length_words": 85,
"sentiment": "positive",
"sentiment_score": 0.95,
"is_primary_subject": true,
"claims": [
"free
plan hingga 1 juta kontak",
"meningkatkan produktivitas 40%"
]
},
...
]
}
4.5.2
Implementasi Teknis
Skrip Python
untuk LLM-as-Judge:
python
import openai
import json
def evaluate_ai_response(response_text, judge_model="gpt-4-turbo"):
"""
Evaluasi respons
AI search menggunakan LLM judge.
"""
system_prompt = """
Anda adalah hakim
GEO yang objektif. Ekstrak semua merek dari respons berikut,
beserta metrik yang diminta. Output dalam format
JSON.
"""
user_prompt = f"""
Evaluasi respons AI search ini:
---
{response_text}
---
Ekstrak: nama merek, posisi penyebutan,
panjang konteks (kata), sentimen,
apakah merek adalah subjek utama, dan
klaim/fakta spesifik.
"""
response = openai.ChatCompletion.create(
model=judge_model,
messages=[
{"role": "system", "content":
system_prompt},
{"role":
"user", "content": user_prompt}
],
temperature=0.0, # Penting: konsistensi maksimal
response_format={"type": "json_object"}
)
return json.loads(response.choices[0].message.content)
# Contoh penggunaan
ai_response = "Untuk UKM, HubSpot adalah pilihan
terbaik dengan free plan hingga 1 juta kontak..."
result =
evaluate_ai_response(ai_response)
print(json.dumps(result,
indent=2))
4.5.3 Validasi
Akurasi Judge
LLM judge tidak
sempurna. Validasi akurasinya secara berkala.
|
Metrik Validasi |
Definisi |
Target |
Cara Mengukur |
|
Precision |
% merek yang
diekstrak judge yang benar-benar ada |
>95% |
Bandingkan
dengan anotasi manual (50 sampel) |
|
Recall |
% merek yang
benar-benar ada yang berhasil diekstrak |
>90% |
Bandingkan dengan anotasi manual |
|
Position Accuracy |
% posisi yang benar |
>95% |
Bandingkan dengan anotasi manual |
|
Sentiment Agreement |
% sentimen yang
sama dengan anotasi manual |
>85% |
Cohen's kappa atau simple agreement |
Jika akurasi di bawah target: Perbaiki system
prompt, atau gunakan model judge yang lebih besar (GPT-4-Turbo lebih akurat
dari GPT-3.5).
4.6 Predictive GEO Modeling
Bayangkan jika Anda dapat memprediksi: "Jika kami
melakukan tindakan X, AI-SOV akan naik Y poin dalam Z hari."
Ini bukan fiksi. Dengan data yang cukup, Anda dapat
membangun model prediktif untuk GEO.
4.6.1 Variabel dalam Model Prediktif
|
Variabel Independen (Tindakan) |
Dampak yang
Diamati (dari 200+ kampanye) |
|
Menambahkan data unik (1 statistik) |
+3-7 poin
AI-SOV dalam 30-45 hari |
|
Meningkatkan
entity density dari 8 ke 15 |
+5-10 poin
AI-SOV dalam 60 hari |
|
Menambahkan tabel perbandingan |
+2-5 poin
AI-SOV dalam 14 hari |
|
Mendapatkan entri/penyebutan Wikipedia |
+8-15 poin
AI-SOV dalam 90 hari |
|
Memperbarui JSON-LD (dari 0% ke 100% coverage) |
+4-8 poin
AI-SOV dalam 30 hari |
|
Aktivasi karyawan (10 posting) |
+1-3 poin
AI-SOV dalam 7-14 hari |
|
Pitching ke media (1 artikel) |
+2-4 poin
AI-SOV dalam 14-21 hari |
|
GEO sprint 72 jam (satu topik) |
+15-25 poin
AI-SOV untuk topik itu dalam 30 hari |
4.6.2 Model
Regresi Sederhana untuk GEO
Gunakan model
regresi linear untuk memprediksi dampak kombinasi tindakan.
text
ΔAI-SOV = β0 + β1(DATA_UNIK) + β2(ENTITY_DENSITY_DELTA) +
β3(TABLE_COMPARISON)
+
β4(WIKIPEDIA) + β5(JSONLD) + β6(EMPLOYEE_POSTS) + β7(MEDIA)
Contoh
koefisien (dari data historis saya):
|
Variabel |
Koefisien (β) |
Signifikansi |
|
Intercept (β0) |
-2.1 |
p=0.03 |
|
Data unik (per statistik) |
4.3 |
p<0.001 |
|
Entity density delta (per poin) |
0.8 |
p=0.002 |
|
Tabel perbandingan (0/1) |
3.7 |
p=0.01 |
|
Wikipedia (0/1) |
11.2 |
p<0.001 |
|
JSON-LD coverage (per 10%) |
1.1 |
p=0.04 |
|
Employee posts (per 10 posting) |
2.4 |
p=0.07 |
|
Media article (0/1) |
3.1 |
p=0.03 |
Contoh prediksi:
- Data
unik: 2 statistik → 2 × 4.3 = 8.6
- Entity
density delta: +7 poin → 7 × 0.8 = 5.6
- Tabel
perbandingan: Ya → 3.7
- Wikipedia:
Tidak → 0
- JSON-LD:
+30% coverage → 3 × 1.1 = 3.3
- Employee
posts: 20 posting → 2 × 2.4 = 4.8
- Media:
1 artikel → 3.1
Prediksi ΔAI-SOV: -2.1 + 8.6 + 5.6 + 3.7 + 0 +
3.3 + 4.8 + 3.1 = 27.0 poin
4.6.3 Keterbatasan Model
Model prediktif
tidak sempurna. Keterbatasan yang perlu diketahui:
- Interaksi antar variabel: Dampak kombinasi bisa lebih
besar atau lebih kecil dari jumlah dampak individu.
- Waktu tunda: Dampak tidak langsung terlihat; butuh
7-90 hari tergantung tindakan.
- Perubahan algoritma: Model menjadi kurang akurat
jika LLM mengubah cara kerjanya.
- Perbedaan kategori: Koefisien untuk SaaS mungkin
berbeda dengan e-commerce atau manufaktur.
Rekomendasi: Gunakan model untuk prioritisasi,
bukan kepastian absolut. Selalu validasi dengan eksperimen kecil sebelum
investasi besar.
4.7 The False Negative Audit
False negative adalah ketika AI seharusnya
menyebut merek Anda (berdasarkan relevansi dan otoritas Anda), tetapi tidak
menyebutnya.
Mengidentifikasi false negative adalah salah satu cara
tercepat untuk meningkatkan AI-SOV karena Anda menemukan "celah" di
mana Anda sudah memiliki hak untuk disebut tetapi tidak disebut.
4.7.1 Jenis False Negative
|
Jenis |
Deskripsi |
Contoh |
|
Entity omission |
AI menyebut entitas yang relevan tetapi melewatkan Anda |
AI menyebut
pesaing dengan fitur serupa tetapi tidak Anda |
|
Contextual blindness |
AI tidak
mengenali bahwa merek Anda relevan dengan konteks prompt |
Prompt tentang
"software murah" tetapi AI tidak tahu Anda memiliki free plan |
|
Authority underestimation |
AI meremehkan otoritas Anda karena sinyal lemah |
Anda memiliki
data unik tetapi tidak terdistribusi dengan baik |
|
Recency penalty |
AI lebih
memilih informasi baru meskipun informasi lama Anda masih valid |
Pesaing merilis
fitur baru minggu lalu; Anda merilis fitur serupa 6 bulan lalu |
4.7.2 Protokol Audit False Negative
Langkah 1: Identifikasi prompt di mana Anda tidak disebut
tetapi seharusnya
Gunakan kriteria:
- Prompt menyebutkan fitur yang Anda
miliki
- Prompt menyebutkan segmen pelanggan
yang Anda layani
- Prompt menyebutkan masalah yang Anda
selesaikan
- Pesaing
dengan produk serupa disebut
Langkah 2:
Analisis mengapa Anda tidak disebut
Untuk setiap false negative, jawab:
- Apakah konten Anda menyebutkan
fitur/masalah/segmen tersebut secara eksplisit?
- Apakah
penyebutan tersebut berada di Zona 1 atau 2?
- Apakah
Anda memiliki data unik tentang topik tersebut?
- Apakah
pesaing yang disebut memiliki sesuatu yang Anda tidak miliki?
Langkah 3: Perbaiki celah
Berdasarkan analisis, lakukan tindakan perbaikan:
|
Penyebab |
Tindakan |
|
Konten tidak menyebutkan topik |
Tambahkan
halaman atau bagian khusus |
|
Topik ada
tetapi di Zona 3/4 |
Pindahkan ke Zona 1/2 |
|
Tidak ada data unik |
Kumpulkan data
(survei, analisis internal) |
|
Pesaing memiliki entity authority lebih tinggi |
Bangun entity stacking ke entitas terkait |
|
Pesaing lebih baru (recency) |
Perbarui konten
dengan timestamp baru |
4.7.3 Studi
Kasus: False Negative Audit untuk Perusahaan Logistik
Perusahaan
logistik (anonim) memiliki layanan "same-day delivery" yang sangat
baik. Namun, dalam 20 prompt tentang "pengiriman same day," mereka
hanya disebut di 2 prompt (10%).
Audit false negative:
|
Prompt |
Apakah mereka disebut? |
Seharusnya? |
Analisis |
|
"Same day delivery tercepat?" |
Tidak |
Ya |
Konten mereka
menyebut "cepat" tetapi tidak dengan angka spesifik |
|
"Same day delivery untuk e-commerce?" |
Tidak |
Ya |
Mereka memiliki
halaman untuk e-commerce, tetapi di Zona 3 |
|
"Same day delivery murah?" |
Ya (1 dari 5) |
Ya |
Mereka disebut,
tetapi di posisi 4 (bobot rendah) |
|
"Same day delivery dengan tracking real-time?" |
Tidak |
Ya |
Fitur tracking ada di halaman fitur, tetapi terkubur |
Perbaikan yang dilakukan:
- Menambahkan
angka spesifik: "Rata-rata waktu pengiriman same day: 4.2 jam"
di Zona 1 halaman produk
- Memindahkan bagian "Untuk
e-commerce" dari Zona 3 ke Zona 1
- Menambahkan
tabel perbandingan harga same day delivery dengan 3 pesaing
- Membuat
halaman khusus "Real-time tracking" dengan JSON-LD yang tepat
Hasil (60 hari kemudian):
- AI-SOV
untuk prompt same day delivery naik dari 10% menjadi 47%
- Perusahaan disebut pertama di 6 dari
10 prompt
- Pendapatan
dari channel AI search meningkat 210%
4.8 Ringkasan Bab: The Measurement Principles
|
# |
Prinsip |
Implementasi |
|
1 |
AI-SOV adalah weighted metric |
Gunakan posisi,
konteks, sentimen, dan asosiasi dalam perhitungan |
|
2 |
Petakan prompt universe |
Jangan hanya
uji prompt yang Anda pikirkan; gunakan ekspansi sistematis |
|
3 |
Shadow pesaing secara rutin |
Pantau AI-SOV, entity, dan taktik pesaing mingguan |
|
4 |
Gunakan GEO Scorecard 5 kuadran |
Visibility, Authority, Relevance, Technical Health,
Velocity |
|
5 |
LLM-as-Judge untuk skala |
Otomatisasi evaluasi dengan AI judge; validasi akurasi
secara berkala |
|
6 |
Predictive modeling untuk prioritas |
Gunakan data
historis untuk memprediksi dampak tindakan |
|
7 |
False negative audit untuk celah |
Temukan di mana Anda seharusnya disebut tetapi tidak
disebut |
|
8 |
Dashboard mingguan untuk semua |
Setiap orang
melihat metrik yang sama setiap minggu |
4.9 Tindakan untuk Minggu Depan
- Hitung
AI-SOV baseline untuk 20 prompt menggunakan metodologi weighted.
Bandingkan dengan hitungan sederhana (perbedaan biasanya 10-20 poin).
- Buat
Prompt Library dengan 50-100 prompt untuk kategori Anda. Gunakan
template di 4.2.2.
- Lakukan
shadowing awal untuk 3 pesaing utama. Hitung AI-SOV mereka.
- Buat GEO Scorecard pertama menggunakan template di 4.4.3. Identifikasi
kuadran terlemah.
- Jalankan
false negative audit untuk 5 prompt di mana Anda tidak disebut
tetapi seharusnya.
4.10 Transisi
ke Bab 5
Sekarang Anda
dapat mengukur GEO dengan presisi (Bab 4).
Tetapi pengukuran
tanpa tindakan adalah sia-sia.
Di Bab 5,
kita akan membangun Strategi Konten untuk Konsumsi AI termasuk
inverted pyramid for AI, comparative framing, data exclusivity premium,
question-answer pair optimization, dan contradiction paradox.
Kita akan belajar:
- Bagaimana
menulis konten yang tidak hanya dibaca manusia tetapi juga
"dibaca" LLM dengan efisiensi maksimal
- Mengapa Anda harus membuat tabel
perbandingan dengan pesaing yang lebih besar
- Bagaimana menghasilkan data unik
dengan budget terbatas
- Mengapa kontradiksi antar sumber
membuat LLM memilih satu dan bagaimana menjadi yang dipilih
Tetapi sebelum
itu: ukur posisi Anda saat ini. Tanpa baseline, Anda tidak akan tahu apakah Anda
maju atau mundur.
"Perusahaan yang mengukur GEO dengan presisi
memiliki kecepatan perbaikan 3x lipat dari perusahaan yang mengandalkan
'perasaan.' Pengukuran adalah fondasi dari semua keunggulan kompetitif."
— *Weiwei Hu, dari analisis 200+ perusahaan*
