本文介绍了以太坊的技术实现,并提出将机器学习应用于以太坊网络的方案,以提高安全性、效率和可扩展性。以太坊的交易、共识机制、签名算法、数据存储和执行架构都有所创新。机器学习可以应用于以太坊,优化交易处理、智能合约安全、用户分层和网络稳定运行。RFM模型和DBSCAN算法可以帮助识别高价值用户和定制化金融服务。未来,以太坊可以发展更复杂的机器学习应用,提高网络效率和安全性,甚至实现人工智能驱动的治理机制。
原文作者:Mirror Tang | Salus;Yixin Ren | Hongshan capital;Lingzhi Shi | Salus;Jiangyue Wang | Salus
原文来源:panews
过去一年随着generative AI一次次打破大众的预期,AI生产力革命的浪潮席卷加密货币圈层。我们看到,许多AI概念项目在二级市场上带来一波造富神话,同时,越来越多的开发者开始着手开发自己的“AI+Crypto”项目。
然而,仔细观察可以发现,这些项目的同质化现象非常严重,且大多数项目仅仅停留在改善“生产关系”的层面,例如通过去中心化网络来组织算力,或者创建“去中心化的Hugging Face”等。 很少有项目尝试从底层技术进行真正的融合和创新。我们认为,这种现象的原因在于AI和区块链领域之间存在一种“领域偏见”。尽管两者的交集广泛,但很少有人能够深入理解这两个领域。例如,AI开发者很难了解以太坊的技术实现和历史基建状态,也就更难提出深入的优化方案。
以机器学习(ML)这一最基本的AI分支为例,它是一种无需明确编程指令,机器便能通过数据做出决策的技术。机器学习在数据分析和模式识别方面展现出巨大潜力,且在web2中已飞入寻常。然而由于诞生之初的时代局限,即使是在区块链技术创新的前沿阵地如以太坊,其架构、网络和治理机制也尚未将机器学习作为解决复杂问题的有效工具。
“伟大的创新往往诞生于交叉领域。” 我们撰写本文的初衷是为了让AI开发者更好地理解区块链世界,同时也为以太坊社区的开发者提供新的思路。在文章中,我们首先介绍了以太坊的技术实现,随后提出将机器学习这一基础AI算法应用于以太坊网络的方案以提高其安全性、效率和可扩展性。我们希望以这个案例为起点,抛出一些和市场上不一样的角度,激发开发者生态中更多 “AI+Blockchain”的创新交叉组合。
EVM虚拟机是整个以太坊构建智能合约执行状态转换的根本,正是得益于EVM,以太坊才能在真正意义上被想象成一个世界计算机。EVM虚拟机是图灵完备的,这也就意味着以太坊上的智能合约能够执行任意复杂逻辑计算,而gas机制的引入又成功防止合约中无限循环的情况,确保网络的稳定性和安全性。从更加深入一些的技术层面讲,EVM是一个基于堆栈的虚拟机,使用以太坊专用的字节码执行智能合约。开发者通常使用高级语言,如Solidity,来编写智能合约,然后将其编译成EVM可以理解的字节码,供EVM进行执行调用。EVM是以太坊区块链创新能力的关键,它不仅支撑着智能合约的运行,也为去中心化应用的开发提供了坚实的基础。通过EVM,以太坊正塑造着一个去中心化、安全且开放的数字未来。
图1 以太坊历史回顾
智能合约是运行在以太坊区块链上的计算机程序。它们允许开发者创建和发布各种应用,包括但不限于借贷应用、去中心化交易所、保险、二次融资、社交网络和NFT。智能合约的安全性对于这些应用至关重要。这些应用直接负责处理和控制加密货币,智能合约的任何漏洞或者对其的恶意攻击,都会对资金安全构成直接威胁,甚至导致巨大的经济损失。比如,2024年2月26日,DeFi借贷协议Blueberry Protocol因智能合约逻辑缺陷遭到攻击,损失约1,400,000美元。
智能合约的漏洞是多方面的,涵盖了不合理的业务逻辑(Business Logic)、访问权限控制不当、数据验证不足、重入攻击,以及DOS(Denial of Service)攻击等多个方面。这些漏洞可能会导致合约的执行出现问题,影响到智能合约的有效运行。以DOS攻击为例,这种攻击方式是通过攻击者发送大量交易来消耗网络的资源,那么,正常用户发起的交易无法得到及时处理,这会导致用户体验下降。而且,这也会导致交易gas费上涨。因为在网络资源紧张的情况下,用户可能需要支付更高的费用来让他们的交易得到优先处理。
除此之外,以太坊上的用户也面临着投资风险,资金安全会收到威胁。比如,垃圾币,用于描述被认为几乎没有价值或没有长期增长潜力的加密货币。垃圾币经常被利用作为诈骗工具或是用于价格操控的拉升和抛售策略。垃圾币的投资风险很高,可能导致重大财务损失。由于其低价和低市值,它们极易受到操纵和波动。这种币种常被用于拉高抛售计划和蜜罐骗局,即利用虚假项目诱骗投资者并窃取其资金。另一种常见的垃圾币风险是Rug Pull,即创造者从项目中突然移除所有流动性,使代币价值暴跌。这些骗局通常会通过虚假的合作伙伴关系和背书来进行营销,一旦代币价格上涨,骗子就会出售他们的代币,获利后消失,留给投资者的却是一文不值的代 币。同时,投资垃圾币还会分散人们对拥有实际应用和增长潜力的合法加密货币的注意力和资源。除了垃圾币,空气币和传销币也是快速获利的方式。对于缺乏专业知识和经验的用户来说,将它们与合法的加密货币进行区分尤为困难。
评估以太坊效率的两个非常直接的指标是交易速度和gas费。交易速度是指以太坊网络能够在单位时间内处理的交易数量。这个指标直接反映了以太坊网络的处理能力,速度越快意味着效率越高。以太坊中的每一笔交易都需要支付一定的gas费用,用于补偿进行交易验证的矿工。 gas费用越低,说明以太坊的效率越高。
交易速度降低会导致gas费用升高。一般来说,当交易处理速度降低时,由于区块空间有限,竞争进入下一个区块的交易可能会增多。为了在竞争中脱颖而出,交易者通常会提高gas费用,因为矿工在验证交易时往往优先选择Gas费用较高的交易。那么,更高的gas费会降低用户体验 感。
交易仅仅是以太坊中的基础活动。在该生态系统中,用户还可以进行各项借贷、质押、投资、保险等活动。这些都可以通过特定的DApp来完成。然而,鉴于DApp的种类繁多,并且缺乏与传统行业相似的个性化推荐服务,用户在选择适合自己的应用和产品时会感到迷茫。这种情况会导致用户满意度下降,从而影响到整个以太坊生态系统的效率。
以借贷为例。一些DeFi借贷平台为了维护自己平台的安全和稳定,会使用超额抵押机制。这意味着借款人需要拿出更多的资产作为抵押,这些资产在借款期间不能被借款人用于其他活动。这会导致借款人的资金利用率下降,进而降低市场流动性。
机器学习模型,如RMF模型、生成式对抗网络(GAN)、决策树模型、K近邻算法(KNN)、 DBSCAN聚类算法等,正在以太坊中发挥重要作用。这些机器学习模型在以太坊中的应用可以帮助优化交易处理效率,提高智能合约的安全性,实现用户分层以提供更个性化服务,并且有助于维护网络的稳定运行。
机器学习算法是一组指令或规则,用于解析数据、学习数据中的模式,并基于这些学习做出预测或决策。它们通过从提供的数据中自动学习和改进,而不需要人类明确编程指令。机器学习模型,如RMF模型、生成式对抗网络(GAN)、决策树模型、K近邻算法(KNN)、DBSCAN聚类算法等,正在以太坊中发挥重要作用。这些机器学习模型在以太坊中的应用可以帮助优化交易处理效率,提高智能合约的安全性,实现用户分层以提供更个性化服务,并且有助于维护网络的稳定运行。
贝叶斯分类器是在各种统计分类方法中,以最小化分类错误概率或在特定代价框架下最小化平均风险为目标的一种高效分类器。它的设计哲学深植于贝叶斯定理之中,这使得它能够在已知某些特征的条件下对象属于某一类的概率,通过计算对象的后验概率,来进行决策。具体来说,贝叶斯分类器首先考虑对象的先验概率,然后应用贝叶斯公式综合考虑观测数据,从而更新对对象分类的信念。在所有可能的分类中,贝叶斯分类器选择那个具有最大后验概率的类别,将对象归入此类。这种方法的核心优势在于其能够自然地处理不确定性和不完全信息,使其成为一种强大且灵活的工具,适用于广泛的应用场景。
图2 贝叶斯分类器
如图2所示,在有监督的机器学习中,就是利用数据和基于贝叶斯定理的概率模型来进行分类决策。利用似然度和类别以及特征的先验概率,贝叶斯分类器通过计算数据点属于各个类别的后验概率,并将数据点分配到后验概率最大的类别中去。在右侧散点图中,分类器将尝试找到一条曲线,最好地将不同颜色的点分开,从而最小化分类错误。
决策树算法常用于分类和回归任务中,其采用了一种分层判断的思想,根据已知的数据通过选取信息增益率较大特征后分裂成树,训练出决策树。简单来说,整个算法可以根据数据从中自学习出一种决策规则从而判断变量的值,具体在实现上,能够将复杂决策过程分解为若干个简单的子决策过程,通过这样一种衍生方式,每个更为简单的决策判断都派生自父决策准则,从而组成了一种树状结构。
从图3可以看出,每个结点都代表了一项决策,定了某种属性的判断准则,而分支代表决策的结果。每个叶子结点代表了最终的预测的结果和类别。从算法构成上来看,决策树模型较为直观,且易于理解具备较强的解释性。
图3 决策树模型
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是具有噪声的基于密度的空间聚类算法,对于非联通数据集好像效果尤其的好。该算法能够发现任意形状的簇,且无需事先指定簇的数量,对于数据集中的异常值具有良好的鲁棒性。该算法还能在有噪声的数据集中有效地识别出异常点,噪声或异常点被定义为在低密度区域的点,如图4所示。
图4 DBSCAN算法识别噪声
KNN(K-Nearest Neighbors)算法既可用于分类也可用于回归。在分类问题中,会根据投票机制来决定待分类项的类别;而在回归问题中,则会计算k个最邻近样本的平均值或者加权平均值来预测。
如图5所示,KNN算法在分类中的工作原理是找到一个新数据点的最近的K个邻居,然后根据这些邻居的类别来预测新数据点的类别。如果K=1,那么新的数据点就被简单地分配到它最近的
邻居的类别。如果K>1,那么通常会用投票法来确定新的数据点的类别,也就是说,新的数据点会被分配到最多邻居属于的类别。而当KNN算法用于回归问题时,其基本思想是一样的,而结果是最近邻的K个样本输出值的平均值。
图5 KNN算法用于分类
生成式人工智能是一种根据需求输入能够生成新的内容(如文本、图像、音乐等)的AI技术。它的背景基于机器学习和深度学习的进展,特别是在自然语言处理和图像识别等领域的应用。生成式AI通过从大量数据中学习模式和关联,然后根据这些学习到的信息生成全新的的输出内 容。生成式人工智能的关键在于模型训练,需要优秀的数据进行学习与训练,这一过程中,模型通过分析和理解数据集中的结构、模式和关系,逐步提高其生成新内容的能力。
图6 Transformer模型
RFM模型介绍:
RFM模型是一种基于用户购买行为的分析模型,通过分析用户的交易行为,能够识别出不同价值的用户群体。该模型根据用户的最近消费时间(R)、消费频次(F)、消费金额(M)来对用户进行分层。
如图7所示。 这三个指标共同构成了RFM模型的核心。该模型根据这三个维度为用户打分,并依据得分高低进行排序,来识别出最有价值的用户群体。而且,该模型能够有效地将顾客分为不同的群体,以实现用户分层的功能。
图7 RFM分层模型
在运用机器学习技术来应对以太坊的安全性挑战时,我们从四个主要方面进行了研究:
通过机器学习算法分析加密货币的交易数据、社交媒体活动、市场表现等多维度信息,构建一个能够预测垃圾币可能性的评价模型。这种模型可以为投资者提供有价值的参考,帮助他们避免投资风险,从而促进加密货币市场的健康发展。
除此之外,机器学习的运用也有潜力进一步提升以太坊的效率。我们可以从以下三个关键维度深入探究:
K近邻算法(KNN)能够通过分析以太坊用户的交易历史和行为模式,对用户进行信用评分,这在借贷等金融活动中具有极其重要的作用。信用评分能够帮助金融机构和借贷平台评估借款人的还款能力和信用风险,从而做出更加精准的贷款决策。这可以避免超额借贷,提高市场流动性。
从宏观资金分配的层面,以太坊作为全球最大的分布式计算机,在infra层的投资再怎么多都不为过,需要吸引更多背景的开发者参与共建。在这篇文章里,我们通过梳理以太坊的技术实现和面临的问题,设想了一系列比较直观的机器学习可能的应用,也非常期待社区里有AI开发者能把这些愿景deliver出真实的价值落地。
随着链上算力逐步增加,我们可以预见更加复杂的模型被开发出来,用于网络管理、交易监控、安全审计等方方面面,提高以太坊网络的效率和安全性。
更远的,人工智能/agent驱动的治理机制也可能成为以太坊生态系统的一大创新点。这种机制带来的更高效、更透明、更自动化的决策过程,为以太坊平台带来更加灵活和可靠的治理结构。这些未来发展方向不仅将推动以太坊技术的创新,也将为用户提供更加优质的链上体验。