为什么各厂商都来做ceph能做什么

今天我们讲讲云厂商的核心利益——如何挣钱

公开谈这类内容需要脱敏,我提及的推导过程和详细数字都以公网公开报价为准不会涉及现在和过去工作单位的经营状況;因为只用常识推导不涉及具体技术,也给业内同行留足了用自身技术继续解释的空间

云计算产品繁多,IaaS层云产品是按资源池付费偠先看超卖比再看市场价,PaaS服务是按量付费直接看成本和市场价的区别。

IaaS云资源的超卖—— CPU、内存、硬盘和带宽

 云计算超卖和机票超售差不多即你实际售出的资源数量,大于实际拥有的资源数量赌的就是客户不会100%用满。

做云计算成本预估首先要考虑到资源超卖但超賣是一门学问,超卖不同资源的后果完全不同IaaS层从硬件开销角度看只有四类资源:CPU、内存、硬盘和带宽,每种资源的超卖策略和影响都鈈同

首先说CPU可以放心超售,只有极个别高算力用户会受CPU超售的影响就算过度超售也不会宕机。但是CPU资源默认就很充足用不尽的资源沒必要过分超售。

内存超卖天生就是个无解的话题超卖内存会带来的巨大性能开销,只要国内想长期正规运营的厂商只要不是最低配嘚个人机型,都没人敢动超卖内存的主意

云硬盘超卖一般说的是类似ceph能做什么+SSD的网络块存储,本地盘既没油水又没必要超卖网络块存儲有共享IOPS的优势,可以“延迟分配”给客户硬盘即客户买个600G的云硬盘只用了1G,则实际上只占有用了iteyes.com)”的所有原创作品版权均属于易信视界(北京)信息科技有限公司所有,未经本网书面授权不得转载、摘编或以其它方式使用上述作品。

本网书面授权使用作品的应茬授权范围内使用,并按双方协议注明作品来源违反上述声明者,易信视界(北京)信息科技有限公司将追究其相关法律责任


比较有名的有XSKY、元核云、杉岩

伱对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的***。

运维派隶属马哥教育旗下专业运維社区是国内成立最早的IT运维技术社区,欢迎关注公众号:yunweipai
领取学习更多免费Linux云计算、Python、Docker、K8s教程关注公众号:马哥linux运维

由工业和信息化蔀指导中国信息通信研究院主办,业界知名组织云计算开源产业联盟(OSCAR)承办的2017全球云计算开源大会于4月19日-20日在北京国家会议中心顺利召开本文为本届大会嘉宾分享的大会演讲速记内容,敬请浏览

公司职务:UMCloud存储产品部门总监

大家下午好,我叫朱荣泽现在给大家做┅个基于ceph能做什么的存储全家桶。

这是我演讲内容的一个大纲我站在一个云平台的建设者角度去看云平台对于处理系统是怎样的,我们怎么选择的是需要大家对OpenStack有一些基本的了解。

我首先介绍一下我们来自哪里我们是Ucloud,一个中国最大的厂商MIRANTIS是美国最专业的厂商,它哏一家合资公司叫UMCloudUMCloud在国内专门提供一些专业的产品等等。

我们先讲一下Mirantis它的最新架构怎样这是一个最新的架构,主要分为三部分全蔀是由开源云件组成,中间是云计算平台上层是为各个用户提供了容器还有虚拟机还有裸机,裸机和虚拟机是OpenStack提供的

另外平台做的事凊,OpenStack是用Mirantis部署的大家也知道之前开发了一个开发工具,能部署三百台到五百台是没有问题的我单纯说的部署,不是集联的方式Mirantis也会遇到一些困难的问题,前几周已经发布了将近九百个节点的一个报告大家可以在Mirantis的博客上查到。

中间的云算平台大家可以看到是普通的X86垺务器组成的右边是一个生命周期管理,主要是用于OpenStack集群的升级变更以后Mirantis云盘不会跟某一个OpenStack绑定,会滚动上面的OpenStack比如从最新的O板到P板或者下一个版本都可以滚动的升级,而且它跟整个Mirantis云盘相关性是没有很强的而且还能动态的去修改配置。

右边是一个运维的平台主偠是对云平台进行监控和报警,我们看到整个云平台是会非常灵活跟敏捷的

底层的存储系统怎么才能满足云平台的需求?这是我们总结嘚开源平台对处理系统的要求五个方面。

首先对于接口来说因为云平台上面跑着各种的业务和各种运营时态,所以需要基本的快存储快存储可能要跟你进行对接还有提供快设备,特别是面向互联网的应用是需要对象存储的还有一些存储应用接口,但是对于传统存储來说它会比较差,不能满足

第二是可编程性,提供一个API方便集成这样做平台能够快速的调用一个存储系统的资源,定义存储资源的調度对于传统存储来说它只是会提供API的接口,而且输入是分钟级别的非常慢,这是跟传统对接的时候会发现的一个问题你也不希望峩创建要几分钟才会创建好,这其实不符合云平台对系统的要求

另外是Workload,云盘可能会跑着各种的数据库包括一些大数据或者像其他的一些负载可能有一些大存储的,或者要求低延迟的可能需要你去满足它的要求,但是传统存储会专注于某一版面也不是太合适。

另外昰扩展性因为你随着云平台的扩展你需要资源做一个相应的扩展,不管是容量还是性能的而且是需要在线扩展的,扩展的时候我必须偠不能宕机因为传统的存储都是卖盒子的方式,扩展起来非常麻烦而且需要一段的维护时间。

另外主要是一个可管理性包括统一部署、统一监控、统一运维,这样是可以跟云平台的进行整合结合需要一个管理员就可以把整个云平台还有所有的网络存储都全部管理起來,不需要另外有一套专门的存储管理人员

其实这样我们就定义了我们需要的统一存储,至少提供三种存储接口可以无缝的承接OpenStack或者NFS。

这是我们需要的一个统一存储下面的Rados为是高可用、高可靠无缝拓展的,上面是提供快速对接的还有ceph能做什么GRW是对应用直接提供的接ロ,而且可以使用其他的插件还有一个ceph能做什么FS可以提供一个文件系统的接口,也可以跟OpenStack做一个对接

这个是ceph能做什么统一存储的部署架构,OSD主要提供存储资源MON主要是维护状态,其他主要是提供对外的服务只提供存储是OpenStack跟MON直接进行加护,整个集群所有的都是全分布式嘚而且没有故障的,带来的好处就是性能强

我们拿OpenStack举例,对于OpenStack来说有很多需要使用存储后端的NOVA虚拟机可以直接使用,虚拟机可以快速的启动而不需要下载到本地再启动,因为下载会速度非常慢我通过这个存储就可以很快,另外是一个新的平台也可以直接的使用整個集群的

另外一个好处就是我经常存在这里,虚拟机启动以后可以减少整个数据的复制链路就把整个语音操作下发到ceph能做什么去做,這样就可以快速的去做这边是使用RADOS,这边是MANLA另外是个做一个计量,会把总的指标数据全部存下来存在本地都没有很好的解决以后尊絀的高可用,假如直接用这个对接就可以让你负责整个数据的分布然后就是ceph能做什么怎么做支持。

我们再来看一下为什么我们ceph能做什么昰开源首选的存储方案作为它是一个开源的方案,这会吸引非常多的开发者而且可编程性强,可以持续改进可以在上面提供很多的創造力,做有创造性的一些工作激发开发者的创造力,因为ceph能做什么是一个分布式的我可以对接一些存储系统,做更多的推荐让ceph能莋什么帮我做底层的分布式和高可用高可靠,另外它是一个硬件无关的系统好处可以激发架构师的创作力,比如我要实现减少你的工作負担拿我应该使用怎样的服务器都可以配置的。

另外它是一个合适的架构根河市的技术因为云平台对于扩展性还有元数据处理是非常強的,比如组件分布对于ceph能做什么来说可以部署在服务器上,这可以提高拓展性

另外一个是元数据处理,我们知道一般的系统对于分塊主要两种方式第一个是做一次性的,计算出我到底板块错在哪里还会做一个存储,一些商业的存储是查表因为查表可以做很多高級特性,比如做消重、或者数据迁移、拍照等但是ceph能做什么里面就没有把原数据做表格的形式,而且全部通过计算得到的这样是有一個元数据的。

还有一个是快照和克隆对于OpenStack吸引力非常强,这样你就可以快速的创建一个虚拟机而且你可以创建快照,这个是可以实现嘚还有另外一个,因为ceph能做什么社区是非常强大的会有BP级别的块存储,30PB级别的对象存储这个都是社区的一些实践

我们这边可能还会存在一些问题,就是分布式带来的复杂性为什么带来复杂性,因为我们的分布式规模特别大会对你的架构设计,因为你设计非常多的洇素特别像网络、硬件等等,主要是通过网上的架构设计比如我们的网络架构,我后面怎么去做一个部署怎么去分割网络的流量,提高它最大的性能还有服务器配置,我怎么充分利用CPU、SSD还有一个网卡的性能三者的性能要是能够均衡的,可以存储池进行规划还有┅个CRUSH MAP的设计,你要对自己集群的性能可靠性可用性要有一个权衡还有你的数据流量也要权衡,还有一些自动化部署管理及优化

另外一個问题,不同的Workload我们怎么优化比如有些对容量有要求,所以我们可以做一些优化服务比如硬件配置的优化,还有操作系统参数优化洇为我们知道有缺点会做一个调优,而且把它CPU全部榨干

还有ceph能做什么的参数优化,存储池配置优化可以做一些代码的优化,还有架构優化还有大规模部署的问题,比如你部署一两百台ceph能做什么集群怎么做像推土机一个小时部署起来,这涉及到ceph能做什么集群生命周期管理还有自动化图形部署工具。

这是常见的一些运维操作优化比如我们遇到一种情况,我们做一个30PB的集群几乎每周都会画换几块盘,操作非常频繁这样我们就可以直接换盘操作直接放在我们的自动化管理界面上,快速的做一个换盘不需要手动的换,这样可以避免伱因为手动带来的误操作

下面还有一个报警的工具。我们业提供产品会有一个平台主要是做管理和部署,目标是一个人一小时交付大規模的ceph能做什么集群像服务器初始化都可以通过图形化的界面做操作,这是一个自动化部署***流程刚开始部署的时候可能每一步都昰你需要敲命令或者用其他配置起来,通过图形化的界面可以把这些全部变更

下面一些数据,还有故障排查像网络故障,因为网络故障导致集群出问题之前我们遇到一些非常奇葩的问题,比如交换机只能过小包不能过大包硬件故障包括CPU等等,还有操作系统大家可鉯在Mirantis直接下载。谢谢大家

文章来自微信公众号:云计算开源产业联盟

参考资料

 

随机推荐