homechevron_rightMarketing i Strategiachevron_rightBadanie

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

Opublikowano: 13 maja 2026|6 min czytania

Streszczenie menedżerskie

Problem długiego ogona zapytań wyszukiwawczych jest fundamentalnym wyzwaniem każdej platformy e-commerce o zasięgu globalnym. Zapytania rzadkie, generujące mniej niż kilka wyświetleń dziennie, mogą stanowić ponad połowę wolumenu wyszukiwania, lecz algorytmy klasyfikacji trafności nie dysponują dla nich wystarczającą liczbą obserwacji behawioralnych, by skutecznie rankingować produkty.

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala
headphones
Wersja Audio (PEŁNA)

Fałszywe pozytywy: podobieństwo zapytań ważniejsze niż skala

0:000:00

Problem długiego ogona zapytań wyszukiwawczych jest fundamentalnym wyzwaniem każdej platformy e-commerce o zasięgu globalnym. Zapytania rzadkie, generujące mniej niż kilka wyświetleń dziennie, mogą stanowić ponad połowę wolumenu wyszukiwania, lecz algorytmy klasyfikacji trafności nie dysponują dla nich wystarczającą liczbą obserwacji behawioralnych, by skutecznie rankingować produkty. Reformulacja zapytań (QR) odpowiada na ten problem przez pożyczanie sygnałów behawioralnych od semantycznie podobnych zapytań popularnych: system mapuje rzadkie zapytanie na powiązane zapytania z bogatą historią kliknięć i zakupów, a tym samym poprawia trafność wyników dla długiego ogona. Badanie Zhang i współpracowników¹ dokumentuje, że ta intuicyjnie atrakcyjna strategia zawodzi w praktyce produkcyjnej z powodu strukturalnego problemu fałszywych pozytywów w danych treningowych, a skala zbioru danych nie jest antidotum na tę patologię. Praca prezentuje trzy innowacje, które ten problem rozwiązują: metrykę podobieństwa opartą na dywergencji Jensena-Shannona (JSD), normalizację zapytań zwiększającą zasięg systemu z 166 tysięcy do ponad 3 milionów unikalnych zapytań rzadkich, oraz technikę trudnych negatywów ANCE uczącą model subtelnych rozróżnień semantycznych. Łącznie te trzy komponenty odwróciły trend z testów A/B: zamiast straty 0,05% przychodu osiągnięto zysk od 0,08% do 0,29% w zależności od rynku.

Mechanizm pożyczania sygnałów behawioralnych w QR opiera się na założeniu, że klienci formułujący różne zapytania szukają semantycznie tego samego produktu, więc historia zakupów dla jednego zapytania jest informacją użyteczną dla rankingowania produktów przy drugim¹. Założenie to jest poprawne w ograniczonym zakresie, lecz generuje fałszywe pozytywy, gdy model mapuje zapytania o szerokim i wąskim zasięgu produktowym. Autorzy przywołują konkretny przykład: "furniture" i "dining table" są semantycznie powiązane, lecz pożyczenie sygnałów od zapytania szerszego do węższego promuje produkty meblowe niezwiązane ze stołami jadalnymi na wyniki dla klientów poszukujących konkretnego mebla. Tradycyjne metryki podobieństwa oparte na zbiorach produktów klikniętych lub kupionych przy obu zapytaniach nie wykrywają tej asymetrii, ponieważ mierzą część wspólną jako procent jednego ze zbiorów, ignorując rozbieżność całości dystrybucji behawioralnej. System produkcyjny działający według tej logiki osiągał w testach A/B wynik gorszy od wariantu kontrolnego o 0,05% przychodu w Japonii, co przy skali platformy oznacza realną stratę, nie tylko statystyczną anomalię.

Pierwsza i druga innowacja badania¹ adresują problem fałszywych pozytywów na poziomie danych treningowych. Dywergencja Jensena-Shannona (JSD) mierzy odległość między pełnymi dystrybucjami zakupowymi dwóch zapytań, a nie ich iloczyn zbiorowy, co pozwala wykryć pary, w których jeden zbiór jest podzbiorem drugiego przy wysokiej powierzchownej podobieńce. Próbki o niskiej wadze JSD, odpowiadającej wysokiej rozbieżności dystrybucji, są pomijane lub depriorytetyzowane podczas treningu, co eliminuje ze zbioru treningowego dokładnie te pary o typie "furniture/dining table", które zatruwały model. Jednocześnie normalizacja zapytań przeskalowała bazę treningową z 9 milionów do 348 milionów par, a liczba unikalnych zapytań rzadkich wzrosła z 166 tysięcy do ponad 3 milionów. Normalizacja polega na zunifikowaniu wariantów zapisu tego samego zapytania: różnych stopni pisowni, znaków diakrytycznych i kolejności słów, w jedną kanoniczną reprezentację, co ujawnia połączenia behawioralne między zapytaniami dotychczas rozpoznawanymi jako odmienne. Skalowanie to nie jest trywialne: bez filtru JSD naiwne zwiększenie skali danych wzmocniłoby fałszywe pozytywy proporcjonalnie do wzrostu liczby par.

Trzecia innowacja, technika trudnych negatywów ANCE (Approximate Nearest Neighbor Negative Contrastive Estimation), adresuje odmienny problem: nawet model trenowany na poprawnych parach pozytywnych może nie nauczyć się subtelnych rozróżnień semantycznych, jeśli przykłady negatywne w zbiorze treningowym są trywialnie różne od pozytywnych¹. ANCE zastępuje losowe negatywy semantycznie bliskimi parami ujemnymi, które model aktualnie błędnie klasyfikuje jako podobne. W architekturze podwójnego enkodera bi-encoder pełni rolę modelu ucznia, a cross-encoder modelem nauczyciela: nauczyciel co iterację generuje listę trudnych negatywów dla ucznia, który musi się nauczyć je odrzucać. Wyniki offline dokumentują paradoks: w ogólnym scenariuszu ewaluacyjnym NDCG@3 dla wariantu z trudnymi negatywami wynosi 0,66879, wobec 0,67733 dla baseline, co wygląda jak regresja. W scenariuszu skupionym na najtrudniejszych parach negatywnych NDCG@3 wzrasta z 0,34844 do 0,67733, niemal podwajając wynik. AUC klasyfikacji rośnie z 0,51 do 0,79, a recall@100 z 0,5903 do 0,7984, co oznacza wzrost o 35,2%. Ogólny NDCG@3 spada, ponieważ model poświęca część łatwych przypadków na rzecz precyzji przy najtrudniejszych parach semantycznych.

Wyniki testów A/B przeprowadzonych na platformie Amazon potwierdzają, że łącznie trzy innowacje odwróciły kierunek efektu systemu QR¹. Stary system, działający bez filtru JSD, bez normalizacji i bez trudnych negatywów, osiągał w Japonii wynik o 0,05% gorszy od grupy kontrolnej, co autorzy interpretują jako dowód na to, że fałszywe pozytywy aktywnie szkodziły rankingowaniu. Nowy system osiąga wzrost przychodu o 0,14% w Japonii, 0,29% w Hindi i 0,08% w angielskim segmencie platformy, a przychody z reklam rosną o 0,36% w Japonii. Hierarchia przyrostów między rynkami odzwierciedla dostępność i jakość danych behawioralnych: język hindi historycznie posiadał najsłabszy coverage systemu QR, więc poprawa zasięgu wynikająca z normalizacji zapytań ujawnia tu największy zysk. Japonia, choć pod względem wolumenu jest rynkiem dojrzałym, zyskuje nieproporcjonalnie na poprawie jakości reklam, co sugeruje, że fałszywe pozytywy w danych QR wpływały negatywnie nie tylko na organiczne rankingowanie, lecz także na mechanizm dopasowywania reklam produktowych do zapytań.

Rekomendacje do wdrożenia

Wdrożenie automatycznej filtracji jakości danych (JS Divergence):

Powiększanie zbiorów treningowych o surowe logi kliknięć bez rygorystycznej kontroli jakości generuje proporcjonalny wzrost błędnych dopasowań, co drastycznie osłabia trafność wyszukiwarki¹. Należy wdrożyć automatyczne filtrowanie par (zapytanie-produkt) oparte na matematycznej metryce dywergencji. Jensena-Shannona. Priorytetyzacja rzadszych, ale znacznie silniejszych sygnałów zakupowych nad masowymi kliknięciami pozwala na zbudowanie precyzyjniejszego modelu przy mniejszym, ale znacznie wyższej jakości zbiorze danych.

Normalizacja zapytań w celu zwiększenia gęstości danych:

W kategoriach produktowych o mniejszym wolumenie ruchu należy wdrożyć agresywną unifikację wariantów ortograficznych i gramatycznych do jednej formy kanonicznej¹. Normalizacja pozwala na zsumowanie interakcji z wielu podobnych fraz w jeden silny punkt danych, co efektywnie rozszerza „wiedzę” systemu wyszukiwania bez konieczności kosztownego pozyskiwania nowego ruchu na stronę.

Ewaluacja modeli w oparciu o "Trudne. Negatywy" (Hard. Negatives):

Skuteczność silnika wyszukiwania powinna być testowana przede wszystkim na jego zdolności do odróżniania produktów podobnych wizualnie, ale niebędących odpowiedzią na zapytanie (np. ładowarka do laptopa. X kontra ładowarka do laptopa. Y)¹. Włączenie tych „trudnych negatywów” do procesów treningowych i testowych drastycznie redukuje liczbę frustrujących pomyłek algorytmu, które najmocniej uderzają w konwersję na samym końcu ścieżki zakupowej.

Źródła

  1. Zhang Zhiyu, Siddiqui Tanvir Ahmed, Zhao Kaige, Murthy Rajeev. Towards Scalability and Extensibility of Query Reformulation Modeling in E-Commerce Search. CIKM '24, ACM, 2024.
check_circleLink skopiowany do schowka