sobota 22. července 2017

Využití BSTS modelu při vyhodnocování efektu marketingových kampaní na zisky eshopu

Tento příspěvek je prezentací mého závěrečného projektu, zpracovaného v rámci tříměsíčního kurzu Digitální Akademie, pořádaného Czechitas.

Na trhu existuje několik produktů, které pomáhají eshopům správně spravovat své produkty na vyhledávačích zboží, jako je heuréka nebo například zboží.cz. Úkolem těchto nástrojů je biddování (nastavení ceny za proklik) automatizovat podle uživatelem zadaných pravidel, minimalizovat náklady (finanční i časové) na správu těchto kanálů a zároveň maximalizovat obrat.

Cílem mé práce bylo statisticky vyhodnotit a zároveň kvantifikovat vliv jednoho z těchto nástrojů (BEED) na obraty a zisk spravovaných eshopů. Pro statistické vyhodnocení vlivu v čase jsem použila BSTS model - bayesian structural time-series model. Jedná se o machine-learningový model, který se, jak název napovídá, využívá pro vyhodnocení vývoje událostí v čase. Momentálně se často používá v marketingu, kde umožňuje stanovit efektivitu kampaně.

BSTS model pracuje s daty uspořádanými podle data, pro správné provedení výpočtu je potřeba nadefinovat období před startem kampaně (pre.period) a následné období po startu kampaně (post.period). Začátek kampaně v mém případě definoval datum nasazení BEEDu. Pre.period a post.period by měly být v poměru 70:30.
Jako závislou proměnnou jsem v tomto případě použila revenue eshopu z kanálu ovlivněného nástrojem a jako vysvětlující proměnnou jsem použila revenue eshopu z kanálu neošetřeného žádným nástrojem, tudíž "Organic Traffic". Stejná analýza následně proběhla i s údaji ohledně nákladů na biddování v BEEDu.
BSTS model se vytvoří na hodnotách pre.period a následně během post.period predikuje hodnoty, kterých by závislá proměnná dosahovala bez zásahu v podobě spuštění nástroje.
Pro tyto výsledky následně vyjádří statistickou významnost a jejich absolutní i relativní rozdíly - ať už pro průměrné nebo kumulované hodnoty:

Grafický výstup CausalImpactu v R.1. graf srovnává reálné hodnoty (černá linka) vůči predikovaným hodnotám (přerušovaná čára).
2. graf vyjadřuje vliv na závislou proměnnou v průběhu časového období post.period
3. graf vizualizuje kumulativní vliv kampaně na závislou proměnnou

Projekt jsem zpracovávala v programovacím jazyku R.
Data jsem získávala z Google Analytics, kam jsem přistupovala skrz API pomocí R balíčku RGoogleAnalytics (Pearmain a kol., 2015). Jak si nastavit API v GA a získat přístupové tokeny jsem psala v předchozím příspěvku. Samotný BSTS model je implementován v balíčku CausalImpact (Brodersen a kol., 2015).

Kód je k nahlédnutí zde:


Pro milovníky GUI je v shiny napsána i pěkná webová aplikace GA effect, která poskytuje stejné grafické i textové výstupy jako R CausalImpact.

Reference:
Brodersen et al., 2015, Annals of Applied Statistics. Inferring causal
  impact using Bayesian structural time-series models.
  http://research.google.com/pubs/pub41854.html

Michael Pearmain. Contributions from Nick Mihailowski, Vignesh Prajapati,
  Kushan Shah, Nicolas Remy and person) (2015). RGoogleAnalytics: R Wrapper
  for the Google Analytics API. R package version 0.1.5.
  https://CRAN.R-project.org/package=RGoogleAnalytics

Hadley Wickham (2011). The Split-Apply-Combine Strategy for Data Analysis.
  Journal of Statistical Software, 40(1), 1-29. URL
  http://www.jstatsoft.org/v40/i01/.

Hadley Wickham, Romain Francois, Lionel Henry and Kirill Müller (2017).
  dplyr: A Grammar of Data Manipulation. R package version 0.7.1.
  https://CRAN.R-project.org/package=dplyr

Žádné komentáře:

Okomentovat