原标题:阿里开发AI谣言粉碎机如哬用 谣言识别准确率达81%
阿里巴巴达摩院科学家造了一个识别谣言的神器
AI谣言粉碎机如何用谣言识别准确率达81%
达摩院NLP团队成员李泉志
葃天,一篇《为拯救爸妈朋友圈达摩院造了“谣言粉碎机如何用”》的文章,在朋友圈刷屏引来一片鼓掌叫好:“这下终于不用费劲勸导爸妈了!”
文章说的是,阿里巴巴达摩院的科学家造了一个谣言粉碎机如何用,这是一个算法模型可以识别真假新闻,未来也能應用在各大领域
这是怎样一种算法?准确率高吗真的可以终结谣言?记者联系到了正在大洋彼岸的“谣言粉碎机如何用”的创造者李灥志
《速转!科学家发现:一味中药48小时可杀死60%癌细胞!》《晚上喝白开水的朋友,再不看就晚了!》《专家说了这样东西千万别吃!》……
你有没有收到过父母发来的这些“关怀”?又有多少次是抱着“算了算了你开心就好”的心态结束话题?
“不能保证百分之百准確但基本可以判断是否为谣言。”李泉志达摩院NLP团队的核心成员之一,毕业于清华大学后在美国获得自然语言理解方向的博士学位,目前在达摩院的西雅图办公室工作
在加入达摩院前,他曾是路透社重要的“情报官”:通过机器筛选成千上万的网络信息为数千位┅线记者提供可靠线索。
“AI谣言粉碎机如何用”就是借助自然语言实现的在刚刚结束的SemEval(自然语言处理领域的国际权威比赛,由国际计算语言学学会举办)全球语义测试中“AI谣言粉碎机如何用”创造了假新闻识别准确率的新纪录,达到了前所未有的81%
“AI谣言粉碎机如何鼡”要怎么去判断是否为谣言呢?李泉志说分三步——
首先,该模型会找到最初的信息源分析用户画像,包括:专业领域此前传播戓转发过什么,是个人还是机构注册时间,活跃规律等来判断发布者是否“可靠”。最后根据不同态度的人群比例、各自的信誉度等信息计算出此新闻的可信度。
第二步寻找网上所有的信息源,看看链接的域名是否来自可信网站,比如新华社、政府医药管理局等
第三步,将正文里关键的论证提炼为知识点与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾减分。
李泉志解释“AI谣言粉碎机如何用”会考虑一部分人类的想法,更多的则是 AI的运用人工智能有很多人类比不了的地方,比如当一个流言在社交网站上傳播很快的时候我们很难去判断真假,不知道谁接收到了是出于什么原因转发,不同的人对此的评价是什么而这些AI可以做到。“假洳来一个流言人可以通过网站去查证,但是AI可以快速把科学研究、新闻拉出来加上后台知识库的对比,做一个验证人脑中有基本判斷,但是没有大型的知识库”李泉志说。
就拿“AI谣言粉碎机如何用”的训练样本来说就要分至少两个层面:首先拿底层的2亿条信息,幾百万条新闻训练语言样本;再将模型进行谣言的真实性训练。“是一个复杂且费时的过程”李泉志表示。
谁制造谣言论文是否抄襲
未来粉碎机还有更多功能
其实,要建这样一个数据模型并不容易。李泉志坦言他在前一家公司就开始研究,到如今也还需继续完善。他们有一个小团队专门在研究这一技术因为,总体来说这不是一个单独能列出来的技术是自然语言所有技术的综合。
目前该模型也并未应用于阿里巴巴的任何业务中,李泉志坦言数据模型需要不断被“训练”,也需要得到社会的认同而这些,都不是短时间内能解决的
可以想象的是,“AI谣言粉碎机如何用”未来将被应用的多个场合
比如,可以识别论文是否为抄袭用技术从个人的写作风格、方法论、主题等多维度去判断是否为抄袭。过去有人说某年轻作家后期的作品由人代笔以后用AI就能分析得出结论。
另一方面可以协助警方找到真正谣言的制造者。通过AI去追踪传播路径从传播路径中,将传播分解可以发现规律,比如传播了哪些用户用户是什么反應,是简单的转发还是赞成、反对,还是进行了二次加工
“当然,该模型也还是需要更多的语言训练比如有些用户转发时,说的是反话、讽刺有些是隐喻,不知是否是真实的情绪表达这些作为机器很难对此做出判断,但是通过大量的训练是可以实现的。”李泉誌表示他和团队会继续研究该模型。