Blog
egy korábbi blogbejegyzésben megvitattuk, hogy a szupermarketek hogyan használják az adatokat a fogyasztói igények jobb megértéséhez, és végső soron az Általános kiadásaik növeléséhez. Az egyik legfontosabb technikák által használt nagy kiskereskedők az úgynevezett Market Basket Analysis (MBA), amely feltárja közötti összefüggések termékek keres kombinációk termékek, amelyek gyakran együtt fordulnak elő a tranzakciók. Más szavakkal, lehetővé teszi a szupermarketek számára, hogy azonosítsák az emberek által vásárolt termékek közötti kapcsolatokat. Például azok az ügyfelek, akik ceruzát és papírt vásárolnak, valószínűleg gumit vagy vonalzót vásárolnak.
“a piaci kosár elemzése lehetővé teszi a kiskereskedők számára, hogy azonosítsák az emberek által vásárolt termékek közötti kapcsolatokat.”
a kiskereskedők számos módon felhasználhatják az MBA-ból nyert betekintést, többek között:
- Az áruház elrendezésének megtervezésekor előforduló termékek csoportosítása a keresztértékesítés esélyének növelése érdekében;
- online ajánlómotorok vezetése (“a terméket vásárló ügyfelek is megtekintették ezt a terméket”); és
- marketingkampányok célzása azáltal, hogy promóciós kuponokat küld az ügyfeleknek a nemrégiben vásárolt termékekhez kapcsolódó termékekre.
tekintettel arra, hogy milyen népszerű és értékes MBA, azt gondoltuk, hogy készítsen a következő lépésről-lépésre útmutató leírja, hogyan működik, és hogyan lehet menni a vállalkozás a saját piaci kosár elemzés.
hogyan működik a piaci Kosárelemzés?
az MBA elvégzéséhez először tranzakciókra van szükség. Minden tranzakció együtt vásárolt termékek vagy termékek csoportját jelenti, amelyeket gyakran “tételkészletnek”neveznek. Például egy tételkészlet lehet: {ceruza, papír, kapcsok, gumi} ebben az esetben ezeket az elemeket egyetlen tranzakcióban vásárolták meg.
egy MBA-ban a tranzakciókat elemzik az egyesülési szabályok azonosítása érdekében. Például egy szabály lehet: {ceruza, papír} = > {gumi}. Ez azt jelenti, hogy ha egy ügyfélnek van egy tranzakciója, amely ceruzát és papírt tartalmaz, akkor valószínűleg érdekli őket egy gumi vásárlása is.
mielőtt egy szabályt alkalmazna, a kiskereskedőnek tudnia kell, hogy van-e elegendő bizonyíték arra, hogy ez előnyös eredményt eredményez. Ezért a szabály erősségét a következő három mutató kiszámításával mérjük (Megjegyzés: más mutatók is rendelkezésre állnak, de ezek a három leggyakrabban használt):
támogatás: azon tranzakciók százalékos aránya, amelyek egy elemkészlet összes elemét tartalmazzák (pl. ceruza, papír és gumi). Minél nagyobb a támogatás, annál gyakrabban fordul elő az elemkészlet. Előnyben részesítik a nagy támogatottságú szabályokat, mivel valószínűleg számos jövőbeli tranzakcióra alkalmazhatók.
bizalom: annak a valószínűsége, hogy egy tranzakció, amely a szabály bal oldalán található elemeket tartalmazza (példánkban ceruza és papír), a jobb oldalon lévő elemet is tartalmazza (gumi). Minél nagyobb a bizalom, annál nagyobb a valószínűsége annak, hogy a jobb oldali elemet megvásárolják, vagy más szóval, annál nagyobb a visszatérési arány, amelyet egy adott szabályra számíthat.
Lift: annak a valószínűsége, hogy egy szabály összes eleme együtt fordul elő (más néven támogatás) osztva a bal és a jobb oldali elemek valószínűségének szorzatával, mintha nem lenne összefüggés közöttük. Például, ha a ceruza, a papír és a gumi az összes tranzakció 2,5% – ában, a ceruza és a papír a tranzakciók 10% – ában, a gumi pedig a tranzakciók 8% – ában fordul elő együtt, akkor az emelés a következő lenne: 0.025/(0.1*0.08) = 3.125. Az 1-nél nagyobb emelés azt sugallja, hogy a ceruza és a papír jelenléte növeli annak valószínűségét, hogy gumi is előfordul a tranzakcióban. Összességében a lift összefoglalja a szabály bal és jobb oldalán található termékek közötti asszociáció erősségét; minél nagyobb a lift, annál nagyobb a kapcsolat a két termék között.
a piaci kosár elemzéséhez és a lehetséges szabályok azonosításához általában egy ‘Apriori algoritmus’ nevű adatbányászati algoritmust használnak, amely két lépésben működik:
- szisztematikusan azonosítja az adathalmazban gyakran előforduló tételkészleteket egy előre meghatározott küszöbértéknél nagyobb Támogatással.
- Számítsa ki az összes lehetséges szabály megbízhatóságát a gyakori tételkészletek alapján, és csak azokat tartsa meg, amelyek megbízhatósága nagyobb, mint egy előre megadott küszöbérték.
a támogatás és a bizalom beállításának küszöbértékei felhasználó által vannak megadva, és valószínűleg eltérőek lehetnek a tranzakciós adatkészletek között. Az R-nek vannak alapértelmezett értékei, de javasoljuk, hogy kísérletezzen ezekkel, hogy lássa, hogyan befolyásolják a visszaadott szabályok számát (erről bővebben alább). Végül, bár az Apriori algoritmus nem használja a lift-et a szabályok létrehozásához, a következőkben látni fogja, hogy a lift-et használjuk az algoritmus által visszaadott szabályok feltárásakor.
piaci Kosárelemzés végrehajtása R
annak bemutatására, hogyan kell elvégezni az MBA-t, amelyet az R és különösen az arules csomag használatára választottunk. Azok számára, akik érdeklődnek, felvettük az R kódot, amelyet a blog végén használtunk.
itt ugyanazt a példát követjük, mint az arulesViz matricán, és egy élelmiszerbolt-értékesítési adatsort használunk, amely 9 835 egyedi tranzakciót tartalmaz 169 termékkel. Az első dolog, amit teszünk, hogy megnézzük a tranzakciók tételeit, és különösen ábrázoljuk a 25 leggyakoribb tétel relatív gyakoriságát az 1.ábrán. Ez egyenértékű ezeknek az elemeknek a támogatásával, ahol minden elemkészlet csak az egyetlen elemet tartalmazza. Ez a sávdiagram szemlélteti azokat az élelmiszereket, amelyeket gyakran vásárolnak ebben a boltban, és figyelemre méltó, hogy még a leggyakoribb cikkek támogatása is viszonylag alacsony (például a leggyakoribb cikk csak a tranzakciók körülbelül 2,5% – ában fordul elő). Ezeket a felismeréseket arra használjuk, hogy tájékoztassuk a minimális küszöbértéket az Apriori algoritmus futtatásakor; például tudjuk, hogy ahhoz, hogy az algoritmus ésszerű számú szabályt adjon vissza, a támogatási küszöböt jóval 0,025 alá kell állítanunk.
1.ábra a 25 leggyakrabban vásárolt termék támogatásának sávja.
a 0,001-es támogatási küszöb és a 0,5-es megbízhatósági küszöb beállításával futtathatjuk az Apriori algoritmust, és 5,668 eredményt kaphatunk. Ezeket a küszöbértékeket úgy választjuk meg, hogy a visszaadott szabályok száma magas legyen, de ez a szám csökkentené, ha bármelyik küszöböt növelnénk. Javasoljuk, hogy kísérletezzen ezekkel a küszöbértékekkel a legmegfelelőbb értékek elérése érdekében. Bár túl sok szabály van ahhoz, hogy mindegyiket külön-külön megnézhessük,az öt szabályt a legnagyobb emeléssel tekinthetjük meg:
szabály | támogatás | bizalom | Lift |
{instant food termékek, szóda}=>{hamburger hús} | 0,001 | 0,632 | 19,00 |
{szóda, Popcorn}=>{sós ételek} | 0,001 | 0.632 | 16.70 |
{flour, baking powder}=>{sugar} | 0.001 | 0.556 | 16.41 |
{ham, processed cheese}=>{white bread} | 0.002 | 0.633 | 15.05 |
{whole milk, instant food products}=>{hamburger meat} | 0.002 | 0.500 | 15.04 |
Table 1: The five rules with the largest lift.
These rules seem to make intuitive sense. Például, az első szabály jelentheti a BBQ-hoz vásárolt tételeket, a második egy filmestre, a harmadik pedig sütésre.
ahelyett, hogy a küszöbértékeket a szabályok kisebb halmazra történő csökkentésére használnák, általában nagyobb szabálykészletet adnak vissza, hogy nagyobb esély legyen a vonatkozó szabályok létrehozására. Alternatív megoldásként vizualizációs technikákat is használhatunk a visszaadott szabályok ellenőrzésére és azok azonosítására, amelyek valószínűleg hasznosak lehetnek.
az arulesViz csomag használatával a szabályokat bizalommal, támogatással és emeléssel ábrázoljuk a 2. ábrán. Ez a cselekmény szemlélteti a különböző mutatók közötti kapcsolatot. Kimutatták, hogy az optimális szabályok azok, amelyek az úgynevezett “támogatás-bizalom határon”fekszenek. Lényegében, ezek azok a szabályok, amelyek a telek jobb szélén fekszenek, ahol bármelyik támogatás, bizalom vagy mindkettő maximalizálódik. Az arulesViz csomagban található plot funkció hasznos interaktív funkcióval rendelkezik, amely lehetővé teszi az egyes szabályok kiválasztását (a kapcsolódó adatpontra kattintva), ami azt jelenti, hogy a határon lévő szabályok könnyen azonosíthatók.
2. ábra: a bizalmi, támogatási és emelési mutatók szórási diagramja.
a szabályok megjelenítésére sok más ábra áll rendelkezésre, de egy másik ábra, amelyet javasolnánk feltárni, az első tíz szabály gráf alapú megjelenítése (lásd a 3.ábrát) az emelés szempontjából (tíznél több is szerepelhet, de az ilyen típusú gráfok könnyen zsúfolódhatnak). Ebben a grafikonban a kör köré csoportosított elemek egy elemkészletet képviselnek, a nyilak pedig a szabályok kapcsolatát jelzik. Például az egyik szabály az, hogy a cukor vásárlása liszt és sütőpor vásárlásával jár. A kör mérete a szabályhoz kapcsolódó megbízhatósági szintet, a szín pedig az emelési szintet jelenti (minél nagyobb a kör és minél sötétebb a szürke, annál jobb).
3. ábra: az első tíz szabály gráf alapú megjelenítése az emelés szempontjából.
a piaci Kosárelemzés hasznos eszköz azoknak a kiskereskedőknek, akik jobban meg akarják érteni az emberek által vásárolt termékek közötti kapcsolatokat. Számos eszköz alkalmazható az MBA végrehajtása során, és az elemzés legbonyolultabb szempontjai a bizalom és a támogatási küszöbértékek meghatározása az Apriori algoritmusban, és annak meghatározása, hogy mely szabályokat érdemes követni. Ez utóbbi általában úgy történik, hogy a szabályokat olyan metrikák alapján mérik, amelyek összefoglalják, mennyire érdekesek, vizualizációs technikák, valamint formálisabb többváltozós statisztikák felhasználásával. Végső soron az MBA kulcsa az, hogy értéket nyerjen ki a tranzakciós adatokból a fogyasztók igényeinek megértésével. Az ilyen típusú információk felbecsülhetetlen értékűek, ha olyan marketingtevékenységek érdekelnek, mint a keresztértékesítés vagy a célzott kampányok.
Ha többet szeretne megtudni a tranzakciós adatok elemzésével kapcsolatban, kérjük, vegye fel velünk a kapcsolatot, és szívesen segítünk.
R Code
library("arules")
library("arulesViz")
#Load data set:
data("Groceries")
summary(Groceries)
#Look at data:
inspect(Groceries)
LIST(Groceries)
#Calculate rules using apriori algorithm and specifying support and confidence thresholds:
rules = apriori(Groceries, parameter=list(support=0.001, confidence=0.5))
#Inspect the top 5 rules in terms of lift:
inspect(head(sort(rules, by ="lift"),5))
#Plot a frequency plot:
itemFrequencyPlot(Groceries, topN = 25)
#Scatter plot of rules:
library("RColorBrewer")
plot(rules,control=list(col=brewer.pal(11,"Spectral")),main="")
#Rules with high lift typically have low support.
#The most interesting rules reside on the support/confidence border which can be clearly seen in this plot.