· 超过10用户采纳过TA的回答
机器学习只给结果,比如你有一批流失用户的人群模型,通过模型训练,我们可以在一批新的数据中也找到可能流失的人群,但是机器学习不会告诉你过程。用关河因果系统,可以揭开这个”黑盒“,你既能得到最终的人群,也可以知道系统基于什么规则发现这些人群,针对可能流失的客户制定针对性的预防措施。
你对这个回答的评价是?
因果分析系统比较新吧。
你对这个回答的评价是?
· 超过10用户采纳过TA的回答
机器学习只给结果,比如你有一批流失用户的人群模型,通过模型训练,我们可以在一批新的数据中也找到可能流失的人群,但是机器学习不会告诉你过程。用关河因果系统,可以揭开这个”黑盒“,你既能得到最终的人群,也可以知道系统基于什么规则发现这些人群,针对可能流失的客户制定针对性的预防措施。
你对这个回答的评价是?
因果分析系统比较新吧。
你对这个回答的评价是?
下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
版权声明:本文为博主原创文章,遵循 版权协议,转载请附上原文出处链接和本声明。
钓鱼城引擎是关河因果分析系统的核心引擎,由深圳计算科学研究院钓鱼城团队基于图函数依赖理论研发。作为全球首款支持自动发现、自动筛选、可增量、可解释的图数据关联关系分析引擎,目标是挖掘出数据中的关联关系。
移动互联网的发展和IoT的兴起引发了数据爆炸,海量的数据从用户或传感器处收集而来,数据如果仅仅是堆放在各个公司的数据仓库中而不利用,这些数据就只会花费存储成本而不产生价值,这无异于租了金矿却不开发。
数据中存在许多“知识”,数据是现实生活中各种行为现象的记录与抽象,知识就是其重蕴含的关系和道理,通过数据挖掘掌握知识,利用知识才能让数据产生价值。知识的主要用途大约有四种:
得益于图理论,钓鱼城系统挖掘的规则(知识)具有可解释的特性,机器学习模型得出的结论人类无法理解,无法确定得出规则的原因, 在金融风控,社交分析,生物制药,反诈骗等应用场景下具有不可替代的优势。
现实世界纷纷扰扰,信息庞杂,人类为了处理海量的信息并加以利用发明了计算机。现代计算机起源于图灵的图灵机理论:“一个受控制器控制的读写头,在一条带有信息的纸带上行走,并根据纸带的信息做出相应操作”
下图为一个图灵机的示意图
图灵机上的纸带是现实世界中事物信息与行为信息的数据化表示。没有它,计算机就无法使用它强大的算力来解决现实生活中的问题。
接下来的问题是如何将现实世界抽象到纸带上成为程序,为此计算机科学家与工程师们进行了很多努力,提出了诸多编程范式,例如描述现实中行为流程的过程式编程,描述现实对象交互的面向对象式编程,无中间状态只关心输入与输出的函数式编程。正如Pascal之父——Nicklaus Wirth所说:程序=数据结构+算法。
一个能够运行的计算机程序是由精妙的算法和表述力强大的数据结构构成,由于现代计算机的算力越来越强大,能够承载的数据也逐渐变多,组织起合适的数据结构用于运算可以更有效的利用算力,解决现实问题。现在应用最多的关系模型就是一种很有力的数据组织形式。
关系型数据是现代数据库应用最多的数据模型,它将现实世界中的信息抽象为一个个存储着数据的二维表,如下表所示
表的每一行都称为一条记录,记录是逻辑意义上的数据,每一列成为一个字段,表中的每一行都具有相同的字段(可能为空)字段具有特定的类型。表和表之间通过组合和约束(两个表数据的笛卡尔积的子集)建立联系来描述现实中的对象及其关系。
关系型数据具有容易理解,使用方便,易于维护的特点,这得益于简明的二维表,功能强大的SQL语言以及关系型数据库的ACID特性。时间进入21世纪,移动设备与IoT的崛起导致产生的数据量指数级增长,数据内部依赖的复杂度逐渐增加,关系型数据潜在的问题也逐渐暴露出来,为了解决这些问题,NoSQL数据库应运而生。
NoSQL类型数据库主要可以分为四类:
这些非关系型数据库应用了不同的数据模型,来为特定的相关算法带来计算速度提升。在这里我们重点
放在用于图结构相关算法的图数据上
图数据起源于图理论,图作为一种抽象数据模型,用于描述图论中有向图和无向图的概念。
图由一个有限的点集合以及边集合构成。支持移除,增加点边,以及在点边上游走等操作。下图就是一个典型的图数据的逻辑形式
常见的用于描述图数据的方式有两种:
存储下所有的节点,为每一个节点创建一个列表,列表中存储点邻接的边以及边的终点,下图即为一个图的邻接表表示
使用一个二维矩阵,行和列表示边的起点和终点,矩阵用于描述点之间的边,点的信息可以存储在其他数据结构中,矩阵中可以选择一个边的一维信息(比如权重)进行存储,这样的数据结构在处理具有大量节点的稀疏图时具有劣势,处理稠密图以及进行边的一维信息运算上具有优势,下图即为一个图的邻接矩阵表示。
图数据在抽象一些实际场景时表达力很强,比如在表达社交网络时,人的信息可以被抽象成点,人和人的关系被抽象成边,可以很直观的描述出社交关系网,并且利用这个关系网可以使用图相关算法进行快速的计算,得出直观有效的图函数依赖(规则)下图是一个钓鱼城引擎在娱乐图中挖掘出的图函数依赖(规则)
相比关系型数据,图数据具有以下优势
图算法基于图数据结构,基本的图算法有以下几类