Zgodność ocen między dwoma ludzkimi sędziami trafności produktów w e-commerce wynosi od 42% do 49%¹. Model GPT-3.5-turbo osiąga 82%. Ten wynik odwraca logikę ewaluacji wyszukiwarki produktowej: to nie złoty standard ludzkich sędziów wyznacza punkt odniesienia dla automatyzacji — to automatyzacja wyznacza nowy standard. Każdy sklep internetowy, który inwestuje w optymalizację wyszukiwarki produktowej, staje prędzej czy później przed tym samym problemem: skąd wziąć wiarygodne dane o tym, czy wyniki wyszukiwania są trafne. Budowa kolekcji testowej, czyli zbioru zapytań i ręcznie ocenionych par zapytanie–produkt, była przez dekady domeną wyłącznie największych graczy. Twórcy publicznie dostępnego zbioru WANDS poświęcili na annotację 233 000 par zapytanie–produkt ponad 3 500 godzin pracy ludzkich sędziów¹. Dla typowego sklepu o obrotach kilkudziesięciu milionów złotych jest to koszt niedostępny. Badanie Soviero i współpracowników¹ opublikowane na konferencji ECIR 2024 stawia tezę, że ta bariera może zostać usunięta: eksperymenty z GPT-3.5-turbo i GPT-4 pokazują, że modele językowe osiągają około 82% zgodności z ocenami ludzkimi, co paradoksalnie przewyższa typowy poziom zgodności między samymi ludzkimi sędziami wynoszący od 42% do 49%¹. Implikacja jest daleko idąca: narzędzie do rzetelnej, skalowalnej ewaluacji wyszukiwania produktowego staje się dostępne dla organizacji, które dotychczas nie mogły sobie na nie pozwolić.
Wyszukiwanie produktowe różni się od klasycznego wyszukiwania dokumentów w sposób, który ma bezpośrednie przełożenie na trudność automatycznej oceny trafności¹. Zapytania użytkownika są krótkie i często pozbawione kontekstu zdaniowego: składają się z kilku słów kluczowych, nazw marek, parametrów technicznych lub nieformalnych opisów potrzeby. Dokumenty, czyli opisy produktów, są równie lakoniczne. Trafność pary zapytanie–produkt zależy przy tym nie od dosłownego pokrycia leksykalnego, lecz od intencji zakupowej, która może być wyrażona całkowicie innym słownictwem niż użyte w nazwie produktu. Badanie wyodrębnia dwie warstwy trudności: tzw. easy instances, gdzie zapytanie i produkt albo współdzielą słowa kluczowe, albo wyraźnie się rozchodzą, oraz hard instances, gdzie relacja między zapytaniem a produktem jest semantyczna, lecz niewidoczna dla prostego dopasowania leksykalnego¹. Podział ten okaże się kluczowy dla zrozumienia zarówno możliwości, jak i ograniczeń podejścia opartego na LLM.
Eksperymenty przeprowadzono na dwóch zbiorach danych celowo wybranych tak, by zmaksymalizować wiarygodność wniosków¹. Zbiór WANDS obejmuje 2 800 par z dziedziny wyposażenia wnętrz opisanych po angielsku i jest publicznie dostępny, co rodzi ryzyko wycieku danych do treningu modeli GPT. Dlatego równolegle zastosowano zbiór Pharma, oparty na prywatnych danych produkcyjnych dużego dostawcy technologii e-commerce, zawierający zapytania w języku portugalskim dotyczące apteki internetowej — zbiór ten GPT z całą pewnością nie widział podczas treningu¹. Strategie promptowania obejmowały cztery warianty: wytyczne stworzone przez człowieka, wytyczne wygenerowane przez sam LLM na podstawie 200 annotowanych przykładów, wersje z dziesięcioma przykładami w prompcie (ten-shot) oraz bez nich (zero-shot). Wyniki oceniano metrykami accuracy i Cohen's κ, przy czym temperatura modelu była ustawiona na zero w celu zapewnienia reprodukowalności¹.
Wyniki główne potwierdzają tezę o użyteczności LLM jako sędziego trafności z niezwykłą konsekwencją¹. GPT-4 osiągnął dokładność sięgającą 85% i współczynnik κ = .70, podczas gdy GPT-3.5-turbo, kosztujący dwudziestokrotnie mniej, uzyskał wyniki zbliżone i w kilku konfiguracjach przewyższył droższego konkurenta. Dla porównania, model XLM-RoBERTa trenowany nadzorowanie na tych samych 200 przykładach osiągnął jedynie accuracy = .67 i κ = .35 na zbiorze WANDS, czyli wyniki o 30 punktów procentowych gorsze pod względem κ niż najlepsze konfiguracje LLM¹. Szczególnie istotna jest obserwacja dotycząca trudnych przypadków: na easy instances oba modele GPT osiągają około 90% dokładności, natomiast na hard positives, czyli parach semantycznie trafnych ale pozbawiony wspólnych słów, wyniki spadają do około 52%¹. Ten rezultat wyznacza granicę praktycznej użyteczności metody i jest informacją, którą każdy wdrożeniowiec powinien wziąć pod uwagę przy projektowaniu procesu ewaluacji.
Drugą, równie ważną kontrybucją badania jest eksperyment dotyczący automatycznego generowania wytycznych annotacyjnych¹. Tworzenie precyzyjnych instrukcji dla ludzkich adnotatorów jest zadaniem żmudnym i wymagającym wiedzy domenowej: wytyczne do oceny trafności wyszukiwarki Google obejmują ponad 170 stron dokumentacji. Autorzy badania sprawdzili, czy LLM może wygenerować własne wytyczne, dostarczając modelowi 200 annotowanych par jako materiał źródłowy, a następnie używając tych wytycznych do dalszej annotacji. Wyniki okazały się zaskakująco mocne: annotacje uzyskane na podstawie wytycznych wygenerowanych przez LLM osiągnęły wyniki nieodróżnialne statystycznie od annotacji opartych na wytycznych ludzkich, a w konfiguracji GPT-4 z dziesięcioma przykładami na zbiorze Pharma wytyczne LLM wygenerowały nawet najlepszy wynik w całym eksperymencie¹. Implikacja operacyjna jest czytelna: do uruchomienia procesu ewaluacji wystarcza zbiór kilkuset annotowanych par, bez potrzeby angażowania eksperta domenowego do tworzenia instrukcji.
