Filecoin运维背后的超级机器人

Filecoin挖矿的难度之高在业界早已形成共识,但是这些难度到底体现在哪些地方?经历过太空竞赛之后,Filecoin矿工背后的运维能力为何被业界如此重视?

在第142期原力开放日活动中,我们特别邀请了IPFS原力区的资深运维工程师多闻,以“Filecoin运维背后的超级机器人”为主题,围绕Filecoin运维相关内容进行了分享。

作为IPFS原力区一名资深运维工程师,多闻曾参与Filecoin各个阶段的运维工作,包括:Filecoin开发网、测试网一阶段、测试网二阶段以及太空竞赛等等。

在分享中,多闻强调Filecoin挖矿可以说整个数字资产领域难度最大的挖矿模式之一,主要体现在其对网络、磁盘、CPU、内存等要求非常高,稍有不慎就可能面临挖不到块以及被惩罚的情况。对于Filecoin运维工程师而言,部署更新和稳定运维是最重要的两个环节,同时也是荆棘之路。

 

难点一:部署更新

 

在部署方面,Filecoin运维工程面临的难点包括:机型多、配置杂;程序角色多,配置启动方式不一;服务器数量庞大;需要高可用架构实现程序不间断运行等等。

为了能够充分发挥Filecoin挖矿设备的性能,Filecoin运维工程师们需要根据设备磁盘容量、CPU性能、内存大小等配置的不同,进行合理化的搭配,以实现多角色程序顺利且持续的运行。

但算力的增长还需要设备的不断投入,随着不同规格设备的不断增多,如何应对大批量设备的部署管理成为了运维团队的一大难点。

对此,多闻介绍了部分基本的解决方案,供社区参考:

  • 针对设备配置杂乱的情况,通过使用配置管理工具将所有设备配置信息进行抓取和规整;
  • 将集群的配置信息录入数据库;
  • 基于以上两个工具,通过IPFS原力区自研的更新部署调度器,进行统一化协调管理,完成自动配置部署。

自动化部署的好处是可以大大降低人力管理的成本,提高效率。但部署只是第一步,后期的稳定运维也是非常大的难点。

 

难点二:稳定运维

 

众所周知,Filecoin对矿工节点的要求非常严苛,算力增长需要完成复制证明,出块需要完成WinningPoSt,而避免受到惩罚需要每天完成WindowPoSt。如何保证设备的稳定运行并且完成相关证明,是Filecoin运维工程师们面临的又一大挑战。

基于丰富的运维经验,多闻在这方面进行了较为详细的剖析:

  • 算力的稳定主要跟WindowPoSt相关。Filecoin系统会将每一天分为48个窗口期,矿工每隔半个小时需要完成一次WindowPoSt。一旦矿工出现块高度同步不稳定、Sector计算时间不稳定以及消息上链不稳定等情况,就有可能无法按时完成WindowPoSt,进而导致算力被惩罚,抵押品也将被扣除。

在太空竞赛1阶段时,就出现因消息拥堵、消息无法上链导致很多矿工出现算力下降的情况。针对上述影响因素,多闻分享了一些解决思路:

  • 采用高可用部署架构,检测到高度不同步之后切换到备机运行。针对大集群部署多个备用节点,通过自动切换功能,当一个节点出现异常后立即切换到另一个正常节点同步高度。
  • 优化存储性能,优化Sector读取方式,通过提高读写并发降低读写时间。这样带来的好处是能够给计算和消息上链预留更充裕的时间。
  • 增加消息验证机制,发现消息没上链自动进行重发。目前Filecoin网络出现消息上链失败的情况是没有任何提醒的,只会在30分钟后收到算力被惩罚的提醒。为了确保消息正常上链,需要增加一个自制工具来验证消息是否上链成功。如果未成功,及时进行消息重发。

保证了算力的持续稳定,能否按时完成WinningPoSt顺利出块也是至关重要的。WinningPoSt要求矿工在获得出块权后,需要在30秒内先后完成Sector读取、计算和消息上链,时间更加紧迫。

上述针对WindowPoSt的解决思路也同样适用于WinningPoSt,来保证出块的稳定。

 

服务器压力大,容易异常

 

多闻提到的另外一个问题是节点运行的过程中,服务器会因为压力过大而出现异常,也会影响挖矿收益

正如前面提到的,Filecoin挖矿需要多个角色完成多个任务,意味着磁盘、网络、计算等设备资源能协调工作。这个过程中容易出现的问题是:挖矿程序过分占用性能资源导致进程卡死、设备长期运行故障率增加以及并发任务多导致资源争抢等等。

为了达到设备资源利用率最大化与产能最大化的目的,多闻提出了如下解决思路:

  • 资源隔离,保证挖矿程序不影响系统进程运行。这样虽然给服务器预留了一些资源,但经过充分测试,挖矿效率得到最大化提升。
  • 加强服务器硬件、通过网络监控及时发现异常;
  • 收集任务各阶段耗时,及时发现超时任务。比如将Sector封装阶段时间进行统计收集,形成报表分析并进行资源协调。

基于多年的技术沉淀和实战经验,IPFS原力区的工程师们已将上述所有解决方案集成,并形成了Filecoin运维精细化管理平台“定风珠”。通过定风珠,运维工程师们可以了解到整个矿池的运行状况,及时发现问题并进行处理。

在分享的最后,多闻强调Filecoin挖矿需要付出的不仅仅是硬件设备成本,还需要付出运维人员24小时不间断维护的人力成本。本次分享的主要目的也是希望能够帮助Filecoin挖矿参与者更好地加入到这个生态当中,共同推动分布式存储行业的发展。

本文链接:https://www.8btc.com/media/654129
转载请注明文章出处