DGrid AI wprowadza nowy framework Proof of Quality, zaprojektowany do oceny wyników AI i poprawy dystrybucji nagród w zdecentralizowanych sieciach.
Zdecentralizowane sieci AI mają problem z płatnościami, z którym badacze po cichu zmagają się od lat, a niedawny artykuł DGrid AI stawia tę kwestię wprost na stole. Systemy oceniania jakości napędzające nagrody dla węzłów w dużej mierze opierały się na posiadaniu pod ręką poprawnej odpowiedzi do porównania. W środowisku produkcyjnym taka odpowiedź rzadko istnieje.
Artykuł, czwarty w trwającej serii badań DGrid dotyczącej Proof of Quality (PoQ), proponuje wytrenowaną alternatywę i publikuje stojące za nią liczby. PoQ używa małych modeli oceniających do punktowania jakości każdego wyniku, a te punkty napędzają nagrody. Tanio i skalowalne.
DGrid budował to krok po kroku: wersję uwzględniającą koszty, która wplata opóźnienie w matematykę wypłat, warstwę odporności na ataki adversarialne, która utrzymuje się, gdy oceniający zaczynają kłamać lub leniuchować, oraz framework dzielący „jakość" na części, które można zbadać. Solidna inżynieria. A każda warstwa wciąż uderzała w tę samą ścianę.
Podstawowa struktura zdecentralizowanej sieci inferencji tworzy wyzwanie pomiarowe. Niezależne węzły uruchamiają modele językowe i odpowiadają na zapytania użytkowników. Te odpowiedzi muszą być oceniane, ponieważ punkty determinują wynagrodzenie. Kryptograficzna weryfikacja każdego obliczenia byłaby technicznie szczelna, ale prohibitywnie droga na dużą skalę, więc praktyczną ścieżką była automatyczna ocena jakości przy użyciu mniejszych modeli.
Wcześniejsze prace DGrid rozwijały to podejście stopniowo, dodając wypłaty skorygowane o opóźnienie, zabezpieczenia przed manipulacyjnymi oceniającymi i bardziej szczegółowy podział tego, co „jakość" naprawdę oznacza w kontekście oceniania. Czego nie mogło w pełni rozwiązać, to sam sygnał ewaluacyjny.
Najsilniejszym sygnałem, jakim dysponował zespół, było podobieństwo semantyczne: porównaj wynik modelu ze znaną poprawną odpowiedzią i zmierz odległość między nimi w przestrzeni embeddingów. Działa to w środowiskach benchmarkowych, gdzie istnieją odpowiedzi referencyjne. Nie działa w działającej sieci, gdzie użytkownicy zadają pytania otwarte i żadna prawda wzorcowa nie czeka w bazie danych.
Gotowe alternatywy wypadły gorzej. NLI cross-encoder, klasa modeli zaprojektowana do oceny logicznego wynikania między zdaniami, zwrócił korelację Pearsona równą −0,363, gdy był używany do oceny jakości odpowiedzi bez odpowiedzi referencyjnej. Ujemna korelacja oznacza, że model był bardziej skłonny faworyzować słabe odpowiedzi nad dobrymi. To nie jest użyteczne narzędzie ewaluacyjne.
Zamiast adaptować istniejące modele, badacze wytrenowali trzech sędziów specjalnie do oceniania jakości bez referencji. Każdy przyjmuje pytanie i odpowiedź jako dane wejściowe i zwraca wynik od 0 do 10, bez podanej poprawnej odpowiedzi.
Trzy modele różnią się przede wszystkim rozmiarem i szybkością:
Trening przebiegał w dwuetapowym procesie. Modele były najpierw wstępnie trenowane na UltraFeedback, publicznym zbiorze danych ocenianych przez GPT-4 odpowiedzi, przed dostrojeniem na własnym rozkładzie zadań sieci. Intencją było danie sędziom szerokiego bazowego rozumienia jakości przed zawężeniem ich skupienia do konkretnego kontekstu oceniania.
Na wydzielonym zbiorze testowym 300 przykładów sędzia DeBERTa osiągnął korelację Pearsona równą 0,747 względem proxy prawdy wzorcowej — bez dostępu do jakiejkolwiek odpowiedzi referencyjnej. Ewaluatory oparte na referencjach z poprzedniego frameworku, które miały dostęp do poprawnych odpowiedzi, osiągnęły maksimum 0,647.
Różnica ma proste wyjaśnienie. Starsze ewaluatory były metrykami podobieństwa mierzącymi odległość cosinusową do referencyjnego embeddingu. Nowi sędziowie byli optymalizowani kompleksowo pod kątem samego zadania oceniania. Różnica w wydajności odzwierciedla to rozróżnienie bardziej niż jakikolwiek przełom architektoniczny.
Jedno zastrzeżenie, które autorzy uwzględniają: prawda wzorcowa użyta tutaj jest sama w sobie proxy — nakładanie się słów na poziomie tokenów, a nie osąd człowieka. Sędziowie dobrze korelują z tą metryką, ale czy nakładanie się słów rzetelnie odzwierciedla to, co człowiek uznałby za jakościową odpowiedź, to osobne, nierozwiązane pytanie.
Dwóm sędziom towarzyszą dwie funkcje zorientowane na wdrożenie. Kaskadowy pipeline kieruje zapytania najpierw przez lekki model i eskaluje do cięższych modeli tylko wtedy, gdy wyniki są niejednoznaczne, redukując koszty ewaluacji nawet o 72,7% przy najbardziej agresywnym ustawieniu progu, choć korelacja spada do około 0,51 w tej konfiguracji. Mechanizm kalibracji online, działający bez ręcznego strojenia, konsekwentnie identyfikuje jakość semantyczną jako dominujący sygnał i odpowiednio dostosowuje wagi, przypisując jej 4,7-krotność jej wagi początkowej z czasem.
Sędziowie działają nierównomiernie w różnych typach zadań. W przypadku odpowiadania na pytania korelacja osiąga 0,830. W przypadku streszczania spada do 0,199. Artykuł przypisuje to nie porażce samych sędziów, lecz metryce ewaluacyjnej używanej podczas treningu: surowe nakładanie się słów jest słabą miarą jakości streszczania, więc modele trenowane na jej podstawie uczą się śledzić słaby sygnał. Autorzy opisują to jako główny otwarty problem, a nie znane ograniczenie zarządzane po cichu.
To ujęcie jest spójne z tym, jak artykuł prezentuje swoje wyniki ogólnie — metodycznie, z przypadkami niepowodzeń przedstawionymi równie wyraźnie jak usprawnienia. Cztery artykuły w tym wątku badawczym — praca czyta się mniej jak ogłoszenie produktu, a bardziej jak zespół stopniowo zamykający luki w czymś, co faktycznie zamierza wdrożyć.
Ujawnienie: Ta treść jest dostarczana przez stronę trzecią. Ani crypto.news, ani autor tego artykułu nie popierają żadnego produktu wymienionego na tej stronie. Użytkownicy powinni przeprowadzić własne badania przed podjęciem jakichkolwiek działań związanych z firmą.

