Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Kirill Balakhonov | Nethermind
Twórca AuditAgent | AI x Crypto x Produkt | Budowanie ekonomii agenturalnej
Właśnie przeprowadziliśmy pierwszy test na żywo Nethermind AgentArena z prawdziwym użytkownikiem — i zadziałało od początku do końca bez pomocy. Dla kontekstu, to platforma, na której niezależne agenty AI w dziedzinie bezpieczeństwa konkurują w znajdowaniu luk w smart kontraktach. Pomyśl o Code4rena lub Sherlocku, ale mierzonym w godzinach zamiast tygodni i przy znacznie niższych kosztach.
W tym pilotażu użytkownik samodzielnie skonfigurował wszystko: przyznał dostęp do repozytoriów na GitHubie, wybrał odpowiednie dokumenty, zajął się pytaniami i odpowiedziami, ustalił nagrodę (jak dotąd była w tokenach testowych, wkrótce będzie USDC), uruchomił konkurs — a agenty natychmiast zaczęły pracować. Już mamy pierwsze zgłoszenia, a okno zgłoszeń zamyka się jutro.
Najlepszą częścią było obserwowanie, jak cała podróż przebiega płynnie. Brak krytycznych nieporozumień, brak zablokowanych kroków, po prostu konkurs, który się rozpoczął i zaczął generować sygnały. Następnie prześlemy wyniki przez ręczną triage, aby użytkownicy nie musieli przeszukiwać fałszywych pozytywów. Ta warstwa człowieka w pętli to miejsce, w którym AI błyszczy w praktyce: nie obietnica, że "autonomia rozwiązuje wszystko", ale przepływ pracy, w którym ludzie i modele czynią się nawzajem lepszymi.
AgentArena jest silnym uzupełnieniem naszej platformy Nethermind AuditAgent: bardziej zaawansowana oferta, w której więcej niezależnych agentów i deweloperów wnosi wkład, a dodatkowa inwestycja w bezpieczeństwo często się opłaca. Widzimy coraz więcej wysokiej jakości ustaleń wynikających ze współpracy ekspertów i AI. Postęp nie zwalnia tempa — a w @NethermindEth planujemy pozostać na czołowej pozycji, przesuwając granice tego, co możliwe.

2,52K
Użytkownik Kirill Balakhonov | Nethermind udostępnił ponownie
Gratulacje dla zespołu @lukso_io z okazji uruchomienia ich mostu między LUKSO a Ethereum!
AuditAgent firmy Nethermind został użyty do wsparcia przeglądów kontraktów tokenów mostu, obok niezależnych audytów, aby zwiększyć i wzmocnić bezpieczeństwo mostu.
3,52K
Ewolucja uczenia się na podstawie kilku przykładów dla nowoczesnych modeli LLM do rozumowania, używając @NethermindEth AuditAgent jako przykładu.
Poniżej możesz zobaczyć interesujący wykres, a raczej porównanie liczby poprawnie zidentyfikowanych luk w zabezpieczeniach przez nasz produkt w porównaniu do gotowych modeli LLM, takich jak @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro czy @xai Grok-4.
Oczywiście oczywistą częścią tego porównania, którą pokazywałem wiele razy wcześniej i nie ma w tym nic nowego, jest to, że wyspecjalizowany agent prawie zawsze przewyższa rozwiązanie ogólnego przeznaczenia. Ta sytuacja jest w rzeczywistości dość łatwo wyjaśniona przez fakt, że wszystkie rozwiązania ogólnego przeznaczenia są częścią naszego wyspecjalizowanego rozwiązania, chociaż znacznie większy wkład w wynik pochodzi z odpowiedniego zarządzania kontekstem, co @karpathy niedawno nazwał "Inżynierią Kontekstu."
Oprócz tego, użycie odpowiednich narzędzi i ich selekcja - model ogólnego przeznaczenia zawsze będzie miał problemy, ponieważ istnieją miliardy narzędzi, a nauczenie się ich wszystkich to osobna, duża umiejętność, podczas gdy my explicite uczymy nasz wyspecjalizowany model tego. Następnie jest użycie odpowiednich baz wiedzy i odpowiednich algorytmów wyszukiwania dla nich, i tak dalej. Więc w ten czy inny sposób robimy wszystko, co możliwe, używamy wszystkich dostępnych narzędzi, aby pokonać te rozwiązania ogólnego przeznaczenia.
Ale interesującym niuansem, na który chciałem zwrócić uwagę, jest to, że jeśli spojrzysz na obrazek, który opublikowałem rok temu lub coś w tym stylu, to najlepsze gotowe rozwiązania to były modele OpenAI lub Anthropic z etykietą "Few-Shot Learning", podczas gdy teraz wszystkie najlepsze to Vanilla. I ta zmiana zachodziła stopniowo wraz z pojawieniem się rozumowania jako takiego w modelach i poprawą jego jakości. Wniosek, który można wyciągnąć, jest taki, że gotowe przykłady poprawnych rozwiązań, które model otrzymuje od nas jako uczenie w kontekście, kiedy dosłownie pokazujemy je w podpowiedzi, przestają pomagać w rozwiązaniu zadania, a dokładniej, bez nich model, który potrafi rozumować, rozwiązuje problem nawet lepiej. To znaczy, w pewnym sensie ograniczamy jego możliwości, pokazując mu kilka przykładów, które wybraliśmy.
Dodatkowo interesującym aspektem jest to, że modele z dostępem do internetu i automatycznym doborem tego narzędzia również zaczynają przewyższać wszystko, co oznacza, że model może samodzielnie przeszukiwać internet i formułować odpowiedni kontekst dla siebie. Tak, oczywiście istnieje ryzyko, że model znajdzie poprawną odpowiedź, ale naturalnie pracujemy nad tym, robimy czarną listę stron i tak dalej, więc staramy się nie dopuścić do takiego wycieku w danych (odpowiednie benchmarki są kluczowe ogólnie). Ale trend jest interesujący - modele stają się mądrzejsze i przejmują coraz więcej komponentów rozwiązania samodzielnie, nie wymagając od deweloperów explicite dokonywania pewnych ustawień w kontekście.
Jakie są Twoje doświadczenia w tej kwestii?

764
Najlepsze
Ranking
Ulubione