Das Verifier Alliance-Dataset hat jetzt über 8 Millionen verifizierte Verträge! @ethereum hat eine starke Verifizierungskultur, aber die Daten sind isoliert und schwer zugänglich. Wir haben alles im Parquet-Format für Forscher, Analysten und KI-Ingenieure geöffnet. Erforschen Sie das Schema und laden Sie das Dataset herunter👇
@SourcifyEth @blockscout @routescan_io Wofür ist dieses Dataset gut? - Compiler-Tests - Identifizierung von Schwachmustern in Verträgen - Training von Modellen - Datenanalyse von EVM-Verträgen ...viele andere Anwendungsfälle, die ohne ein offenes Dataset nicht möglich gewesen wären Zusammengebracht von @blockscout @routescan_io @SourcifyEth
Wie sieht die Datenstruktur aus? VerA ist eine PostgreSQL-Datenbank, in der jede Verifizierung eine Verbindung zwischen einem "Deployment" und einer "Kompilierung" darstellt. Die Bytecodes und Quellcodes sind in separaten Tabellen dedupliziert. Siehe das Schema:
EVM-Bytecode ist unstrukturiert. Daher markieren "Transformationen" die Änderungen der Datenwerte, die erforderlich sind, um von einem rekombinierten Bytecode zu einem On-Chain-Bytecode zu gelangen. Dies umfasst Unveränderliche, Bibliotheken, cborAuxdata, Positionen und Werte der Konstruktorargumente.
Die gesamte DB wird täglich im Parquet-Format exportiert, einem modernen spaltenbasierten Datenformat, das direkt abfragbar ist. Schau in die Dokumentation und sieh nach, wie du herunterladen kannst:
79,69K