homechevron_rightMarketing i Strategiachevron_rightBadanie

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

Opublikowano: 13 maja 2026|6 min czytania

Streszczenie menedżerskie

Analiza problemu fałszywych pozytywów w danych o kliknięciach (clickstream data), sabotujących silniki wyszukiwania AI dla fraz long-tail. Przedstawiamy trzy innowacje (w tym zastosowanie dywergencji Jensena-Shannona i modeli ANCE), które poprawiają jakość danych treningowych i zwiększają precyzję wyników wyszukiwania.

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

photo_cameraIlustracja: Pexels / Jovydas Dobilas

Problem długiego ogona zapytań wyszukiwawczych jest fundamentalnym wyzwaniem każdej platformy e-commerce o zasięgu globalnym. Zapytania rzadkie, generujące mniej niż kilka wyświetleń dziennie, mogą stanowić ponad połowę wolumenu wyszukiwania, lecz algorytmy klasyfikacji trafności nie dysponują dla nich wystarczającą liczbą obserwacji behawioralnych, by skutecznie rankingować produkty. Reformulacja zapytań (QR) odpowiada na ten problem przez pożyczanie sygnałów behawioralnych od semantycznie podobnych zapytań popularnych: system mapuje rzadkie zapytanie na powiązane zapytania z bogatą historią kliknięć i zakupów, a tym samym poprawia trafność wyników dla długiego ogona. Badanie Zhang i współpracowników¹ dokumentuje, że ta intuicyjnie atrakcyjna strategia zawodzi w praktyce produkcyjnej z powodu strukturalnego problemu fałszywych pozytywów w danych treningowych, a skala zbioru danych nie jest antidotum na tę patologię. Praca prezentuje trzy innowacje, które ten problem rozwiązują: metrykę podobieństwa opartą na dywergencji Jensena-Shannona (JSD), normalizację zapytań zwiększającą zasięg systemu z 166 tysięcy do ponad 3 milionów unikalnych zapytań rzadkich, oraz technikę trudnych negatywów ANCE uczącą model subtelnych rozróżnień semantycznych. Łącznie te trzy komponenty odwróciły trend z testów A/B: zamiast straty 0,05% przychodu osiągnięto zysk od 0,08% do 0,29% w zależności od rynku.

Mechanizm pożyczania sygnałów behawioralnych w QR opiera się na założeniu, że klienci formułujący różne zapytania szukają semantycznie tego samego produktu, więc historia zakupów dla jednego zapytania jest informacją użyteczną dla rankingowania produktów przy drugim¹. Założenie to jest poprawne w ograniczonym zakresie, lecz generuje fałszywe pozytywy, gdy model mapuje zapytania o szerokim i wąskim zasięgu produktowym. Autorzy przywołują konkretny przykład: "furniture" i "dining table" są semantycznie powiązane, lecz pożyczenie sygnałów od zapytania szerszego do węższego promuje produkty meblowe niezwiązane ze stołami jadalnymi na wyniki dla klientów poszukujących konkretnego mebla. Tradycyjne metryki podobieństwa oparte na zbiorach produktów klikniętych lub kupionych przy obu zapytaniach nie wykrywają tej asymetrii, ponieważ mierzą część wspólną jako procent jednego ze zbiorów, ignorując rozbieżność całości dystrybucji behawioralnej. System produkcyjny działający według tej logiki osiągał w testach A/B wynik gorszy od wariantu kontrolnego o 0,05% przychodu w Japonii, co przy skali platformy oznacza realną stratę, nie tylko statystyczną anomalię.

Pierwsza i druga innowacja badania¹ adresują problem fałszywych pozytywów na poziomie danych treningowych. Dywergencja Jensena-Shannona (JSD) mierzy odległość między pełnymi dystrybucjami zakupowymi dwóch zapytań, a nie ich iloczyn zbiorowy, co pozwala wykryć pary, w których jeden zbiór jest podzbiorem drugiego przy wysokiej powierzchownej podobieńce. Próbki o niskiej wadze JSD, odpowiadającej wysokiej rozbieżności dystrybucji, są pomijane lub depriorytetyzowane podczas treningu, co eliminuje ze zbioru treningowego dokładnie te pary o typie "furniture/dining table", które zatruwały model. Jednocześnie normalizacja zapytań przeskalowała bazę treningową z 9 milionów do 348 milionów par, a liczba unikalnych zapytań rzadkich wzrosła z 166 tysięcy do ponad 3 milionów. Normalizacja polega na zunifikowaniu wariantów zapisu tego samego zapytania: różnych stopni pisowni, znaków diakrytycznych i kolejności słów, w jedną kanoniczną reprezentację, co ujawnia połączenia behawioralne między zapytaniami dotychczas rozpoznawanymi jako odmienne. Skalowanie to nie jest trywialne: bez filtru JSD naiwne zwiększenie skali danych wzmocniłoby fałszywe pozytywy proporcjonalnie do wzrostu liczby par.

Trzecia innowacja, technika trudnych negatywów ANCE (Approximate Nearest Neighbor Negative Contrastive Estimation), adresuje odmienny problem: nawet model trenowany na poprawnych parach pozytywnych może nie nauczyć się subtelnych rozróżnień semantycznych, jeśli przykłady negatywne w zbiorze treningowym są trywialnie różne od pozytywnych¹. ANCE zastępuje losowe negatywy semantycznie bliskimi parami ujemnymi, które model aktualnie błędnie klasyfikuje jako podobne. W architekturze podwójnego enkodera bi-encoder pełni rolę modelu ucznia, a cross-encoder modelem nauczyciela: nauczyciel co iterację generuje listę trudnych negatywów dla ucznia, który musi się nauczyć je odrzucać. Wyniki offline dokumentują paradoks: w ogólnym scenariuszu ewaluacyjnym NDCG@3 dla wariantu z trudnymi negatywami wynosi 0,66879, wobec 0,67733 dla wariantu bazowego, co wygląda jak regresja. W scenariuszu skupionym na najtrudniejszych parach negatywnych NDCG@3 wzrasta z 0,34844 do 0,67733, niemal podwajając wynik. AUC klasyfikacji rośnie z 0,51 do 0,79, a recall@100 z 0,5903 do 0,7984, co oznacza wzrost o 35,2%. Ogólny NDCG@3 spada, ponieważ model poświęca część łatwych przypadków na rzecz precyzji przy najtrudniejszych parach semantycznych.

Wyniki testów A/B przeprowadzonych na platformie Amazon potwierdzają, że łącznie trzy innowacje odwróciły kierunek efektu systemu QR¹. Stary system, działający bez filtru JSD, bez normalizacji i bez trudnych negatywów, osiągał w Japonii wynik o 0,05% gorszy od grupy kontrolnej, co autorzy interpretują jako dowód na to, że fałszywe pozytywy aktywnie szkodziły rankingowaniu. Nowy system osiąga wzrost przychodu o 0,14% w Japonii, 0,29% w Hindi i 0,08% w angielskim segmencie platformy, a przychody z reklam rosną o 0,36% w Japonii. Hierarchia przyrostów między rynkami odzwierciedla dostępność i jakość danych behawioralnych: język hindi historycznie posiadał najsłabszy zasięg systemu QR, więc poprawa zasięgu wynikająca z normalizacji zapytań ujawnia tu największy zysk. Japonia, choć pod względem wolumenu jest rynkiem dojrzałym, zyskuje nieproporcjonalnie na poprawie jakości reklam, co sugeruje, że fałszywe pozytywy w danych QR wpływały negatywnie nie tylko na organiczne rankingowanie, lecz także na mechanizm dopasowywania reklam produktowych do zapytań.

rate_review

Oceń wartość merytoryczną artykułu

Zostaw krótką opinię o merytoryce artykułu, aby otrzymać +1 do limitu darmowych publikacji (maksymalnie +3).

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

Streszczenie menedżerskie

Oceń wartość merytoryczną artykułu

Rekomendacje do wdrożenia

Źródła

Polecane artykuły

Luka badawcza: rekomendacje dla lojalnych vs wzrost marek

Paradoks literatury AI: wzrost badań kontra wskaźnik wycofań

Paradoks personalizacji: algorytm buduje i niszczy lojalność

Trzy dekady AI w e-commerce: analiza 1 458 badań ujawnia