मुख्य सामग्री पर जाएं

ऑफ़लाइन डेटा अखंडता के लिए मर्कल प्रमाण

स्टोरेज
उन्नत
ओरी पोमेरेंट्ज़
30 दिसंबर 2021
12 मिनट पढ़ें

परिचय

आदर्श रूप से हम सब कुछ इथेरियम स्टोरेज में स्टोर करना चाहेंगे, जो हजारों कंप्यूटरों में स्टोर होता है और इसकी उपलब्धता (डेटा को सेंसर नहीं किया जा सकता) और अखंडता (डेटा को अनधिकृत तरीके से संशोधित नहीं किया जा सकता) अत्यधिक उच्च होती है, लेकिन 32-बाइट शब्द को स्टोर करने में आमतौर पर 20,000 गैस का खर्च आता है। जब मैं यह लिख रहा हूँ, तो यह लागत $6.60 के बराबर है। 21 सेंट प्रति बाइट के हिसाब से यह कई उपयोगों के लिए बहुत महंगा है।

इस समस्या को हल करने के लिए इथेरियम इकोसिस्टम ने विकेंद्रीकृत तरीके से डेटा स्टोर करने के कई वैकल्पिक तरीके विकसित किए हैं। आमतौर पर इनमें उपलब्धता और कीमत के बीच एक समझौता (ट्रेडऑफ़) शामिल होता है। हालाँकि, अखंडता आमतौर पर सुनिश्चित की जाती है।

इस लेख में आप सीखेंगे कि मर्कल प्रमाण (opens in a new tab) का उपयोग करके ब्लॉकचेन पर डेटा स्टोर किए बिना डेटा अखंडता कैसे सुनिश्चित की जाए।

यह कैसे काम करता है?

सिद्धांत रूप में हम केवल डेटा के हैश को ऑनचेन स्टोर कर सकते हैं, और उन लेन-देन में सारा डेटा भेज सकते हैं जिन्हें इसकी आवश्यकता होती है। हालाँकि, यह अभी भी बहुत महंगा है। एक लेन-देन में डेटा के एक बाइट की लागत लगभग 16 गैस होती है, जो वर्तमान में लगभग आधा सेंट, या लगभग $5 प्रति किलोबाइट है। $5000 प्रति मेगाबाइट पर, यह अभी भी कई उपयोगों के लिए बहुत महंगा है, यहाँ तक कि डेटा की हैशिंग की अतिरिक्त लागत के बिना भी।

इसका समाधान डेटा के विभिन्न सबसेट को बार-बार हैश करना है, ताकि जिस डेटा को आपको भेजने की आवश्यकता नहीं है, उसके लिए आप केवल एक हैश भेज सकें। आप ऐसा मर्कल ट्री का उपयोग करके करते हैं, जो एक ट्री डेटा संरचना है जहाँ प्रत्येक नोड उसके नीचे के नोड्स का हैश होता है:

Merkle Tree

रूट हैश एकमात्र ऐसा हिस्सा है जिसे ऑनचेन स्टोर करने की आवश्यकता होती है। किसी निश्चित मान को साबित करने के लिए, आप वे सभी हैश प्रदान करते हैं जिन्हें रूट प्राप्त करने के लिए इसके साथ संयोजित करने की आवश्यकता होती है। उदाहरण के लिए, C को साबित करने के लिए आप D, H(A-B), और H(E-H) प्रदान करते हैं।

Proof of the value of C

कार्यान्वयन

नमूना कोड यहाँ प्रदान किया गया है (opens in a new tab)

ऑफ़चेन कोड

इस लेख में हम ऑफ़चेन गणनाओं के लिए JavaScript का उपयोग करते हैं। अधिकांश विकेंद्रीकृत एप्लिकेशन का ऑफ़चेन घटक JavaScript में होता है।

मर्कल रूट बनाना

सबसे पहले हमें चेन को मर्कल रूट प्रदान करने की आवश्यकता है।

const ethers = require("ethers")

हम ethers पैकेज से हैश फ़ंक्शन का उपयोग करते हैं (opens in a new tab)

// वह कच्चा डेटा जिसकी अखंडता को हमें सत्यापित करना है। पहले दो बाइट्स ए
// एक उपयोगकर्ता पहचानकर्ता हैं, और अंतिम दो बाइट्स उन टोकन की मात्रा हैं जो
// उपयोगकर्ता के पास वर्तमान में हैं।
const dataArray = [
  0x0bad0010, 0x60a70020, 0xbeef0030, 0xdead0040, 0xca110050, 0x0e660060,
  0xface0070, 0xbad00080, 0x060d0091,
]

प्रत्येक प्रविष्टि को एकल 256-बिट पूर्णांक में एन्कोड करने से, उदाहरण के लिए, JSON का उपयोग करने की तुलना में कम पठनीय कोड प्राप्त होता है। हालाँकि, इसका मतलब है कि अनुबंध में डेटा प्राप्त करने के लिए काफी कम प्रोसेसिंग करनी पड़ती है, इसलिए गैस की लागत बहुत कम होती है। आप JSON को ऑनचेन पढ़ सकते हैं (opens in a new tab), लेकिन अगर इससे बचा जा सके तो यह एक बुरा विचार है।

// हैश मानों का ऐरे, BigInts के रूप में
const hashArray = dataArray

इस मामले में हमारा डेटा शुरुआत से ही 256-बिट मान है, इसलिए किसी प्रोसेसिंग की आवश्यकता नहीं है। यदि हम स्ट्रिंग्स जैसी अधिक जटिल डेटा संरचना का उपयोग करते हैं, तो हमें यह सुनिश्चित करने की आवश्यकता है कि हम हैश की एक सरणी (array) प्राप्त करने के लिए पहले डेटा को हैश करें। ध्यान दें कि ऐसा इसलिए भी है क्योंकि हमें इस बात की परवाह नहीं है कि उपयोगकर्ता अन्य उपयोगकर्ताओं की जानकारी जानते हैं या नहीं। अन्यथा हमें हैश करना पड़ता ताकि उपयोगकर्ता 1 को उपयोगकर्ता 0 का मान पता न चले, उपयोगकर्ता 2 को उपयोगकर्ता 3 का मान पता न चले, आदि।

// उस स्ट्रिंग के बीच कनवर्ट करें जिसकी हैश फ़ंक्शन अपेक्षा करता है और
// BigInt जिसका हम हर जगह उपयोग करते हैं।
const hash = (x) =>
  BigInt(ethers.utils.keccak256("0x" + x.toString(16).padStart(64, 0)))

ethers हैश फ़ंक्शन को हेक्साडेसिमल संख्या के साथ एक JavaScript स्ट्रिंग प्राप्त होने की उम्मीद होती है, जैसे कि 0x60A7, और यह उसी संरचना के साथ एक अन्य स्ट्रिंग के साथ प्रतिक्रिया देता है। हालाँकि, बाकी कोड के लिए BigInt का उपयोग करना आसान है, इसलिए हम इसे हेक्साडेसिमल स्ट्रिंग में बदलते हैं और फिर वापस लाते हैं।

// एक जोड़ी का सममित हैश ताकि हमें परवाह न हो कि क्रम उलट गया है।
const pairHash = (a, b) => hash(hash(a) ^ hash(b))

यह फ़ंक्शन सममित (symmetrical) है (a xor (opens in a new tab) b का हैश)। इसका मतलब है कि जब हम मर्कल प्रमाण की जाँच करते हैं तो हमें इस बात की चिंता करने की आवश्यकता नहीं होती है कि प्रमाण से प्राप्त मान को गणना किए गए मान से पहले रखा जाए या बाद में। मर्कल प्रमाण की जाँच ऑनचेन की जाती है, इसलिए हमें वहाँ जितना कम काम करना पड़े, उतना अच्छा है।

चेतावनी: क्रिप्टोग्राफी दिखने में जितनी आसान लगती है, उससे कहीं अधिक कठिन है। इस लेख के प्रारंभिक संस्करण में हैश फ़ंक्शन hash(a^b) था। यह एक बुरा विचार था क्योंकि इसका मतलब था कि यदि आप a और b के वैध मान जानते थे, तो आप किसी भी वांछित a' मान को साबित करने के लिए b' = a^b^a' का उपयोग कर सकते थे। इस फ़ंक्शन के साथ आपको b' की गणना इस तरह करनी होगी कि hash(a') ^ hash(b') एक ज्ञात मान (रूट के रास्ते में अगली शाखा) के बराबर हो, जो कि बहुत कठिन है।

// यह दर्शाने के लिए मान कि एक निश्चित शाखा खाली है, इसमें
// कोई मान नहीं है
const empty = 0n

जब मानों की संख्या दो की पूर्णांक घात (integer power) नहीं होती है, तो हमें खाली शाखाओं को संभालना होता है। यह प्रोग्राम इसे प्लेसहोल्डर के रूप में शून्य रखकर करता है।

Merkle tree with branches missing

यह फ़ंक्शन वर्तमान लेयर पर मानों के जोड़े को हैश करके मर्कल ट्री में एक स्तर "ऊपर चढ़ता" है। ध्यान दें कि यह सबसे कुशल कार्यान्वयन नहीं है, हम इनपुट की प्रतिलिपि बनाने से बच सकते थे और लूप में उचित होने पर केवल hashEmpty जोड़ सकते थे, लेकिन यह कोड पठनीयता के लिए अनुकूलित किया गया है।

रूट प्राप्त करने के लिए, तब तक ऊपर चढ़ें जब तक कि केवल एक मान न बच जाए।

मर्कल प्रमाण बनाना

मर्कल प्रमाण वे मान हैं जिन्हें मर्कल रूट वापस प्राप्त करने के लिए साबित किए जा रहे मान के साथ हैश किया जाता है। साबित किया जाने वाला मान अक्सर अन्य डेटा से उपलब्ध होता है, इसलिए मैं इसे कोड के हिस्से के बजाय अलग से प्रदान करना पसंद करता हूँ।

हम (v[0],v[1]), (v[2],v[3]), आदि को हैश करते हैं। इसलिए सम (even) मानों के लिए हमें अगले वाले की आवश्यकता होती है, और विषम (odd) मानों के लिए पिछले वाले की।

        // अगली लेयर में ऊपर जाएं
        currentN = Math.floor(currentN/2)
        currentLayer = oneLevelUp(currentLayer)
    }   // while currentLayer.length > 1

    return result
}   // getMerkleProof

ऑनचेन कोड

अंत में हमारे पास वह कोड है जो प्रमाण की जाँच करता है। ऑनचेन कोड Solidity (opens in a new tab) में लिखा गया है। यहाँ अनुकूलन (optimization) बहुत अधिक महत्वपूर्ण है क्योंकि गैस अपेक्षाकृत महंगी है।

//SPDX-License-Identifier: Public Domain
pragma solidity ^0.8.0;

import "hardhat/console.sol";

मैंने इसे Hardhat विकास परिवेश (opens in a new tab) का उपयोग करके लिखा है, जो हमें विकास करते समय Solidity से कंसोल आउटपुट (opens in a new tab) प्राप्त करने की अनुमति देता है।

मर्कल रूट के लिए सेट और गेट फ़ंक्शन। उत्पादन प्रणाली (production system) में हर किसी को मर्कल रूट अपडेट करने देना एक अत्यंत बुरा विचार है। मैं इसे यहाँ नमूना कोड की सरलता के लिए कर रहा हूँ। इसे उस सिस्टम पर न करें जहाँ डेटा अखंडता वास्तव में मायने रखती है

    function hash(uint _a) internal pure returns(uint) {
      return uint(keccak256(abi.encode(_a)));
    }

    function pairHash(uint _a, uint _b) internal pure returns(uint) {
      return hash(hash(_a) ^ hash(_b));
    }

यह फ़ंक्शन एक पेयर हैश उत्पन्न करता है। यह केवल hash और pairHash के लिए JavaScript कोड का Solidity अनुवाद है।

नोट: यह पठनीयता के लिए अनुकूलन का एक और मामला है। फ़ंक्शन परिभाषा (opens in a new tab) के आधार पर, डेटा को bytes32 (opens in a new tab) मान के रूप में स्टोर करना और रूपांतरणों से बचना संभव हो सकता है।

गणितीय संकेतन (notation) में मर्कल प्रमाण सत्यापन इस तरह दिखता है: H(proof_n, H(proof_n-1, H(proof_n-2, ... H(proof_1, H(proof_0, value))...)))। यह कोड इसे लागू करता है।

मर्कल प्रमाण और रोलअप्स का मेल नहीं होता

मर्कल प्रमाण रोलअप्स के साथ अच्छी तरह से काम नहीं करते हैं। इसका कारण यह है कि रोलअप्स सभी लेन-देन डेटा को लेयर 1 (l1) पर लिखते हैं, लेकिन लेयर 2 (l2) पर प्रोसेस करते हैं। लेन-देन के साथ मर्कल प्रमाण भेजने की लागत औसतन 638 गैस प्रति लेयर होती है (वर्तमान में कॉल डेटा में एक बाइट की लागत 16 गैस होती है यदि यह शून्य नहीं है, और 4 यदि यह शून्य है)। यदि हमारे पास डेटा के 1024 शब्द हैं, तो मर्कल प्रमाण के लिए दस लेयर, या कुल 6380 गैस की आवश्यकता होती है।

उदाहरण के लिए ऑप्टिमिज़्म (opens in a new tab) को देखें, तो लेयर 1 (l1) गैस लिखने की लागत लगभग 100 Gwei है और लेयर 2 (l2) गैस की लागत 0.001 Gwei है (यह सामान्य कीमत है, यह भीड़भाड़ के साथ बढ़ सकती है)। इसलिए एक लेयर 1 (l1) गैस की लागत के लिए हम लेयर 2 (l2) प्रोसेसिंग पर एक लाख गैस खर्च कर सकते हैं। यह मानते हुए कि हम स्टोरेज को ओवरराइट नहीं करते हैं, इसका मतलब है कि हम एक लेयर 1 (l1) गैस की कीमत पर लेयर 2 (l2) पर स्टोरेज में लगभग पाँच शब्द लिख सकते हैं। एक मर्कल प्रमाण के लिए हम पूरे 1024 शब्दों को स्टोरेज में लिख सकते हैं (यह मानते हुए कि उनकी गणना शुरुआत में ऑनचेन की जा सकती है, न कि लेन-देन में प्रदान की जा सकती है) और फिर भी अधिकांश गैस बची रह सकती है।

निष्कर्ष

वास्तविक जीवन में आप शायद कभी भी मर्कल ट्री को स्वयं लागू न करें। ऐसी प्रसिद्ध और ऑडिट की गई लाइब्रेरी हैं जिनका आप उपयोग कर सकते हैं और सामान्य तौर पर यह सबसे अच्छा है कि आप स्वयं क्रिप्टोग्राफ़िक प्रिमिटिव लागू न करें। लेकिन मुझे उम्मीद है कि अब आप मर्कल प्रमाण को बेहतर ढंग से समझते हैं और यह तय कर सकते हैं कि उनका उपयोग करना कब उचित है।

ध्यान दें कि जबकि मर्कल प्रमाण अखंडता को संरक्षित करते हैं, वे उपलब्धता को संरक्षित नहीं करते हैं। यह जानना कि कोई और आपकी संपत्ति नहीं ले सकता है, एक छोटी सी सांत्वना है यदि डेटा स्टोरेज एक्सेस की अनुमति न देने का निर्णय लेता है और आप उन तक पहुँचने के लिए मर्कल ट्री का निर्माण भी नहीं कर सकते हैं। इसलिए मर्कल ट्री का सबसे अच्छा उपयोग किसी प्रकार के विकेंद्रीकृत स्टोरेज, जैसे कि IPFS के साथ किया जाता है।

मेरे और काम के लिए यहाँ देखें (opens in a new tab)