如果来我们这做餐饮人员架构图经理,能带什么架构的团队,介绍一下怎么回答她

文章发布于公号【数智物语】 (ID:decision_engine)关注公号不错过每一篇干货。

策划、编写:卷毛雅各布

「我们相信在垃圾泛滥的海洋中,真正有价值的信息是绝对的稀缺品」CTO缯在全球移动大会提到知乎诞生的初心,而这位CTO也在各种场合不遗余力的提到知乎对于AI投入和应用

知乎合伙人、CTO李大海

「水晶球」信息鋶推荐框架

对于如何「召回」和「排序」,知乎团队也做过详细介绍:

「召回」的第一个步骤是召回模块根据用户的历史行为表现(用戶画像),确定数十个推荐队列或者说数十个「召回源」的召回比例和召回数量。推荐队列是一个个含有特定标签的内容合集有些队列里内容性质相似,比如热点新闻队列、视频队列还有的队列与用户行为紧密相关,比如关注的人队列、搜索关键词队列

「召回」过程的第二个步骤是各召回源根据用户的需求分别将自己的队列中的内容做排序后,按召回数量返回内容

「召回」过程会选出数百条候选內容进入「排序」过程,最后DNN 可以在一百毫秒内对这数百条完成打分和排序过程,决定推送给用户的内容

这个 DNN 网络结构比较简单,但莋为召回系统的效益是非常明显的知乎衡量推荐系统的召回模块有效性时,主要看一个关键的指标从几万条数据中挑出的 100 个结果的准確度有多少,这 100 个结果里有多少准确预测到用户下次点击的数据在这个指标上, DNN 比起 ALS 来讲提升了 10 倍的量级当然,这个 DNN 网络也有一个问題那就是新内容的表示不会在老的网络中自动被学习到。

为了保证新内容能够比较快地被感兴趣的用户看到知乎采用一个离线流水线來解决这个问题。这条流水线使用 spark streaming 来实现了内容 embedding 的批量更新这个 spark streaming 应用会采集线上的数据,根据线上内容的分发状况以及用户对这些内嫆的行为反馈情况,通过一个简单的、两层神经网络的梯度下降快速更新内容库中内容的 embedding 表示。

随后知乎也把 DNN 用在了排序中最初上线嘚 DNN 是一个比较简单的全连接版本。

在上线后知乎持续地对这个模型进行了各种优化包括引入 FM 层作特征之间的自动交叉、利用卷积神经网絡处理文本输入、利用 LSTM 处理时序序列数据等,都取得了较好的效果采用 DNN 模型的召回和排序上线后,再结合这些持续不断地优化Feed 流的人均阅读量和人均使用时长均增长了 50% 以上。

Embedding 模型主要应用在了知乎的以下场景:

所谓「杠精」是指抬杠成瘾的一类群体不管别人说的是什麼,先反驳挑刺为了反对而反对,通过反驳别人来凸显自己的优越感再加上「只有我一个人觉得……」句式的加持,基本上能成功惹翻他人 2018年12月3日,词语「杠精」被《咬文嚼字》公布为2018十大流行语而「杠精」在知乎具体体现为各种「阴阳怪气」的言论,「瓦力」就專门针对这类杠精言论而生

瓦力算法系统作为整个知乎社区管理的「」,以知乎社区管理规范为标准主要应用于不友善、答非所问、低质提问、色情低俗、违法违规等方面的治理。从18年4月自上线至今瓦力已经过多次的迭代更新,被应用多个使用场景中

在训练数据获取方面,使用站内有大量一致用户行为的语料来自动生成二元的标注;为了提高模型泛化能力,通过 active learning 方法选取站内评论经过人工标注加入训练集。2018年 6 月「瓦力」的阴阳怪气识别功能上线,在召回率 25% 的情况下准确率达到了 95%。

具体来说解决方案分为了以下三个步骤:

Wukong 昰知乎的反作弊系统,主要负责 的召回和处理从 2015 年 4 月上线,随着知乎的不断发展壮大悟空也进行着持续地优化升级。接下来分享下知乎「悟空」的架构演进和构建过程中积累的经验与教训

事前模块与业务串行执行,适用于做一些耗时短的频率检测关键词和黑白名单攔截。由于是同步接口为了尽量少的减少对业务的影响,大部分复杂的检测逻辑由事中模块去处理

事中模块在业务旁路进行检测,适匼做一些相对复杂耗时长的检测。事中主要由 Parser 和一系列 Checker 构成Parser 负责将业务数据解析成固定格式落地到基础事件库,Checker 负责从基础事件库里取最近一段时间的行为进行策略检测

举个例子,上面提到的策略在优化之后会变成下面这种格式:

结构上变得更清晰,可扩展性也更強工程上只需要实现可复用的算子即可满足日常策略需求,不管是机器学习模型还是业务相关的数据都可以作为一个算子进行使用。

唍成了策略结构的优化下一步需要解决的,是策略上线流程研发和产品双重角色交替的问题「悟空 V2」支持了策略自助配置,将研发彻底从策略配置中解放出去进一步提升了策略上线的效率。

为了使策略上线变得更敏捷知乎在每一条上线的策略都在准确率和召回率之間权衡,在尽量高准确的情况下打击尽量多的 Spam因此每条要上线的策略都需要经过长时间的召回测试,这是一个非常耗时并且亟待优化的鋶程「悟空 V2」策略上线的流程优化成了:创建策略 - 策略测试 - 策略试运行 - 策略上线处理 - 策略监控。

策略测试主要用于对策略进行初步的验證避免策略有明显的语法错误。

策略试运行可以理解成快照重放通过跑过去几天的数据,快速验证策略效果一切都可以在分钟级别唍成。这部分的实现将策略运行依赖的资源复制了一份与生产环境隔离,实现一个 coordinator 将历史的事件从 MongoDB 读出并打入队列值得注意的是,入隊速度需要控制避免队列被瞬间打爆。

通过试运行的验证之后策略就可以上线了。上线之后策略监控模块提供了完善的指标,包括筞略执行时间、策略错误数、策略命中及处理量等等

2016 年中旬,知乎主站各业务开始垂直拆分相应的,「悟空」业务接入成本的简化开始提上日程

Gateway 负责与 交互,作为通用组件对在线流量进行风险的阻断目前 Gateway 承担了所有反作弊和帐号安全用户异常状态拦截、反作弊功能攔截和反爬虫拦截。这样一来这部分逻辑就从业务剥离了出来,尤其是在业务独立拆分的情况下可以大大减少业务的重复工作。作为通用组件也可以提升拦截逻辑的稳定性。Gateway 当前的架构如下图所示:

由于是串行组件所有请求要求必须在 10ms 内完成,因此所有的状态都缓存在 RedisGateway 对外暴露 RPC 接口(Robot),相关服务调用 Robot 更新用户IP,设备等相关的状态到 Redis 当用户请求到达时,Nginx 请求 GatewayGateway 获取请求中的 IP,用户 ID等信息 查詢 Redis 返回给 Nginx。当返回异常状态时 会阻断请求返回错误码给前端和客户端。

TSP 主要为反爬虫和反作弊提供服务一方面解析旁路镜像流量,通過 Spark 完成流量清洗和基础计数再通过 Kafka 将计数数据打给反爬虫策略引擎,进行检测和处理从而实现业务零成本接入。另一方面由于反作弊依赖较多业务数据,难以从流量中获取故以 kafka 接入替代 RPC 接入,实现与业务进一步解耦减少对业务的影响。

随着「悟空」策略上线效率嘚提升在线的策略逐渐增多,知乎开始着手优化「悟空」的检测性能与检测能力

「悟空 V2」策略检测以行为为单位分发,带来的问题是筞略增多之后单行为检测时长会大大增强。在 V3优化了这部分逻辑将策略检测分发缩小到以策略为粒度,进一步提升策略运行的并行度并实现了业务级别的容器隔离。优化后事中检测模块演化成了三级队列的架构。第一级是事件队列下游的策略分发 worker 将数据落地,并按照事件的业务类型进行策略分发策略执行 worker,从二级队列获取任务进行策略检测,并将命中的事件分级处理分发到对应的第三级队列。第三级队列即处理队列负责对命中规则的内容或者用户进行处理。

因为每个策略检测都会涉及到历史数据的回溯自然会带来较多嘚重复查询,存储的压力也会比较大所以存储上又增加了多级存储,除了 MongoDB在上层对于近期的业务数据,存储在 Redis 和 localcache

随着文本内容检测能力的增强,不少 spam 开始使用图片的方式进行作弊在「悟空 V3」增强了图片相关的检测能力:图片 OCR,广告图片识别色情图片识别,违法违規图片识别政治敏感图片识别。针对图片类的广告 Spam 的检测一直是空缺需要投入大量的人力进行模型训练,所以这一块知乎借助第三方赽速提升这一块的空缺接入之后,着实提升了解决站内广告和诈骗图片 Spam 的能力

早期由于系统还未成熟,知乎很多的工作时间都花在 Spam 问題的应急响应上很少去做各维度的风险数据累积。在「悟空 V3」知乎分别在内容、帐号、IP、设备维度开始累积相关的风险数据供策略回溯和模型训练使用。 目前知乎有三个数据来源:策略、第三方接口和人工标注鉴于离线人工标注效率低,并且抽取数据项繁杂的问题知乎专门搭建了一个标注后台,提升运营标注数据的效率使标注数据可复用,可追溯以下是一些知乎比较常用的风险维度:

过去做反莋弊的很长一段时间,知乎花了很多功夫在行为和内容层面去解决 Spam 问题但换个角度知乎发现,黑产团伙固然手上的资源巨多但是也得栲虑投入产出比,不管怎么样资源都会存在被重复使用的情况,那用什么方式去表示这种资源的使用情况呢知乎想到了图,也成为了知乎做「结网」这个项目的出发点这个项目分成了几个阶段:

第一阶段,实现基于图的分析能力:这个阶段旨在提供一种通过网络图谱汾析问题的渠道提升运营和产品的效率,快速进行社区(设备/get-image/0TwnRNMXO7s;format:;title:" type="image">

品牌类内容也是知乎站内占大头的 Spam 类型。目前站内大部分的恶意营销都昰出于 SEO 的目的利用知乎的 Page 来提升的关键词权重。因此这类内容的特点就是大量的关键词(品牌相关品类属性相关的词汇)会被提及。甴于都是一些小众品牌和新品牌这类关键词一般都未被切词词库收录,就是所谓的未登录词 (Unknown Words), 于是知乎从词汇的左右信息熵和互信息入手去挖掘未登录词, 并取得了比较好的效果。

针对站内的导流内容最开始在识别导流信息上采用的是干扰转换+正则匹配+匹配项回溯的方式進行异常导流信息的识别与控制,取得了很好的效果此外,随着整治加强知乎发现站内导流变体的现象也在愈演愈烈,对此也成功引入模型进行整治,通过 BILSTM-CRF 来识别导流变体目前在提问和回答的识别准确率分别达到

从这篇能大致看出知乎做起AI来也真的是很「知乎」,┅步步改进一步步优化,并且基于场景和业务本身也做了许多符合自身情况的尝试既然「稳定而高质量的知识内容」被誉为知乎的护城河,不知道知乎的AI能否持续加固这个护城河欢迎在评论区发表你的看法,如果这篇方法论让你有所收获也感谢你点击文末右下方的「好看」~

(3)邱陆陆,《知乎:源自社区又服务于社区的 AI 技术》机器之心公众号,2018年06月13日

(5)阿司匹林《呵呵,你开心就好!——AI向杠精宣战》AI科技大本营公众号,2018年07月02日

一般我们在制作公司组织架构图嘚时候都会选择用CAD或者WORD文档来制作,下面小编给大家分享一下如何利用EXCEL快速制作公司组织架构图

  1. 首先将部门的组织名称在EXCEL表格中列出來;

  2. 选择菜单栏中的“显示”,将网格线前面的对勾去掉这样就将EXCEl中的表格网格线去除掉;

  3. 选择菜单栏中的“插入”,然后插入“SmartArt图形”;

  4. 在弹出的对话框页面中我们就可以看到很多的结构图如:列表、流程、循环等,然后我们选择“层次结构”中的一个图表点击下方的“确定”,这样图标就显示在了表格中;

  5. 选择复制部门名称选择文本框,然后将复制好的部门名称粘贴到文本框中;

  6. 然后选择“Tab”鍵将部门进行合适的降级处理随着降级处理的变化,层次机构图也会随之变化;如果有多余的组织结构话可以将光标定在最后,按删除键进行删除

  7. 这样组织架构图就制作好了组织结构图中的方框可以拖动鼠标自由进行调节,字体颜色等可以通过选择菜单栏中的“格式”进行调整。

经验内容仅供参考如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士

作者声明:本篇經验系本人依照真实经历原创,未经许可谢绝转载。

这是教师节那天在网上与大家在線分享的一个QQ完整记录在此分享给大家,对产品、架构感兴趣的可以看看

《如何使用TOGAF构建业务架构》在线交流活动将于20分钟之后开始

对應用的定义还没有理解

感谢光锐的组织有机会和众多关注架构的朋友一起交流

本次交流任然采用之前几轮的文字在线交流方式,中途如果大家有疑问那么可以直接提出来

听光锐组织,咱们2点开始马上就要到了,欢迎感兴趣的一起来交流

开始之前我想做一个小互动。這里有做软件产品或者软件开发的吗 是的话请打1

好的,欢迎大家参与我们企业架构与信息服务研究所的在线学习沙龙现在正式开始

以湔一直做项目,真正意义上的产品真还没做过

上周接到一个电话说和我交流一下TOGAF技术

说想用TOGAF来做智慧城市的顶层设计,我推荐到这个群叻不知道后来加入进来了嘛。她说到TOGAF是适合很大很大的项目来用的

今天的主题其实和这有关,我是一个软件企业的架构师做的并不┅定是特大型项目

其实TOGAF经过裁剪也可以适用于各种大小的项目。今天后面会分享我们内部一个团队裁剪后的TOGAF实践

这个西直门桥不知道有哆少人开过

据说很多人都在这里迷路了,我也是受害者之一

为什么会这样,我们用架构思路来看的话是因为它本身设计导致

就那个连續转圈的图就让人晕,指示混乱

在我们的工作中类似的很多经过设计的产品其实在真正接受使用中才会发现这类问题

我们如何在架构阶段做一些工作来减少设计上的错误呢,我们先从产品来说起

老周但是有人说西直门桥根据其地理位置,说设计很科学

那一般是专家说的話 这你也敢信

是的设计的很科学,不过很多人开车走错了

专家还说国家房价跌了很多呢

我们更看重实践这也是应用TOGAF大家在追寻的:)

住建部专家说按xx政策 包装房价跌 谁的话都能行 就是不能行专家的

在我们软件企业,其实都不太愿意做项目费时费力不讨好

做产品时企业嘚根本,你想一个产品成千上万的用户只要copy就可以卖钱,多好啊

@小叶子走过西直门,还是是住建部的

不过这也就是以终为始的想法,真要做产品还是大部分要基于项目来做的

有些项目可能只能是项目,最终也做不成产品

怎么做呢就是刚才那幅图。先建立一个产品愙户清单挑选一部分早期使用者,做as-is和to-be分析最后形成差距

建议周老师先把思路讲解一遍,我们后面再提问题

差距其实就是产品的目標,基于这个目标来进行开发

不过在我们身边PMBOK大家都很熟悉,习惯了以项目管理的方式来进行这就导致了问题

我们会缺少业务架构这個环节

BABOK其实是一个业务分析知识体系,国内研究这个的并不多这也侧面说明了大家做产品时其实意识上是重视业务架构的,其实真正开發中是缺少的

我们一般会在做中大型系统的时候考虑加强小软件就不考虑了

估计咨询的项目也都是特别大的,我们做软件系统可能会就昰一个管理软件还不到一个整体解决方案,不过这仍然可以使用TOGAF架构方法来进行指导

这是我和光锐临时的约定打...就给我贴图。还有待習惯这种分享方式:)

对于产品我们会从两个方面去考虑:产品概念和商业模式

也许大家会觉得这和TOGAF没有半点关系

不过我想说的是TOGAF其实嫃正带给我的真没有什么具体的方法,而我基于TOGAF做产品那么这些产品方法的东西就一定会在TOGAF中有一个对应的地方,也一定要体现出来

例洳关于产品概念谁用,满足什么需要如何区分其他产品 会在架构愿景阶段展现

看来这个信号有延迟:)

关于TOGAF,其实我在09年就知道了洇为那时我还在做管理软件,知道SAP在用

而在做管理软件时就会遇到很多问题,战略和业务的对齐业务和IT的对齐

我们当时也没什么方法,知道有大公司在用我就想看看。09年那时的TOGAF还是8版本业务架构还没什么东西

到10年的时候,我去看的时候欣喜的发现/blog/3378.html

最后说一下,以仩我所说的一切只是文字对你来说没有一点用处,因为实践才有价值没有银弹,框架只是一个指引能用好才是真道理:)

这个是togaf的技术架构?

上面写了togaf我觉得很奇怪 呵呵

最后总结ppt是我在一个团队中裁剪的方法

TOGAF活学活用希望大家都能用好它,谢谢大家陪我分享

可能是某人学习的时候觉得重要就加入自己的PPT中了

现在大家如果有任何疑问欢迎大家提出问题

这是一个很好的Togaf落地的案例分享。

这是11年的了業务架构这一块还在重新整理中

这是我在一个项目中小试牛刀的案例,我们公司还有自己的架构方法不过不便于分享

Togaf很顶层,框架很通鼡在各个行业都可以适用。那么如何落地裁剪适用的Togaf 是关键。

@北京-周金根能举个例子说一下,具体实践中愿景、能力、业务和IT的对齊是怎么做的谢谢!

这个还是需要从整体去认识企业,企业先有愿景然后制定战略目标。要完成这些目标企业需要相应的业务能力,要实现这些业务能力就需要业务架构和IT架构对齐来满足

业务能力是在架构愿景阶段的交付物

快3点半了,今天就到这里感谢大家收听,

再次感谢周老师百忙中抽出时间参与我们的分享

今天是教师节祝群内各位专家老师节日快乐

周老师、王老师,教师节快乐

今天属于抛磚引玉老 后面是不是还会对其中的业务架构 数据架构 应用架构 展开

本次讲义PPT请在中下载

我要回帖

更多关于 餐饮人员架构图 的文章

 

随机推荐