人工小谷智能机器人时代,孩子需要培养哪些超越机器人的能力?原因是什么?_百度...



星船知造 钱鸿生
编辑
唐晓园
序言及摘要:作为星船知造“现代通信与智能网技术展望”系列栏目的第一辑,我们邀请星船知造的资深读者、通信行业教授级高级工程师钱鸿生博士为我们撰写了《ChatGPT技术架构及中国人工智能未来发展趋势报告》。报告正文共3.8万字,在介绍了ChatGPT的进化历程、主要内涵、底层技术架构与逻辑后,提出ChatGPT潜在的商业价值和对资本市场影响的风险管控警示。并分析了算法和算力以及芯片技术,对我国人工智能AI发展的制约与影响,最后切入我国AI产业结构调整、建立AI法律保护与系统安全的视角,对发展我国人工智能产业提出一些前瞻性的趋势分析和研判。我们将节选出报告中部分内容,在星船知造公众号分上、下两篇发布。今天的上篇主要聚焦第一章《ChatGPT的含义与OpenAI公司概况》中的“ChatGPT的基本功能模块”;第二章《ChatGPT的内涵与底层技术架构》中的“ChatGPT的DALLE2自然语言转换成像技术”、“人工智能AI芯片的重要意义”、“人工智能中的算力单位pfs-day”等章节中的部分内容。同时节选第三章《ChatGPT的潜在商业价值与市场动态》中的“国内投资者和厂商对ChatGPT的反应”、“ChatGPT可能影响的行业初探”等章节中部分内容。ChatGPT含义与OpenAI公司概况ChatGPT全称为“Chat Generative Pre-trained Transformer”,Chat是聊天,GPT是“生成型预训练变换模型”,可以翻译为“聊天生成预训练转换器”或简称“优化对话的语言模型”。由美国人工智能公司OpenAI 开发的ChatGPT两个月时间内用户已超1个亿。作为一款建立在云计算、海量数据库、人工智能算法架构和深度神经网络基础之上开发的聊天机器人程序,ChatGPT不像传统的搜索引擎一样复制、粘贴、拼凑网上已有的信息给你。它的回答是有逻辑的、生动的,有上下文关联的。ChatGPT聊天机器人目前支持几乎世界上所有的语言输入。有人说未来它会像《流浪地球》系列电影中的智能量子计算机MOSS,不仅拥有超强算力,还有自我意识、自我迭代、自我更新的特点,最终演化出有思维的人工智能。或许MOSS已经离我们不远了。OpenAI官网发布的ChatGPT系统界面OpenAI初期是从事人工智能研究的非营利化组织,公司初期宗旨和使命是确保通用人工智能 (Artificial General Intelligence,AGI)在大多数具有经济价值的工作上超越人类。建造出安全的、符合共同利益的通用人工智能,也希望能预防人工智能的灾难性影响,推动人工智能技术发挥积极作用。同时也针对谷歌在搜索引擎业务领域形成的垄断优势,利用人工智能技术展开全面对抗。OpenAI发展里程碑2019年3月:OpenAl向资本市场开放,引入战略投资者微软公司,随后宣布从非营利性质过度到封顶营利性质,利润上限为任何投资的100倍。创立了OpenAlLP公司。2019年7月:微软向OpenAI注资10亿美金,并得到了OpenAl技术的商业化授权,将OpenAl公司开发产品与微软产品深度融合。2020年6月:OpenAI宣布了GPT-3语言模型,发布了第一个产品OpenAl-API,从此OpenAl公司开始了正式商业运作。2020年9月:OpenAl公司授权微软公司使用其GPT-3模型,微软成为世界首个享用OpenAl公司人工智能产品GPT-3的公司。2021年:微软再次对OpenAI投资,双方合作关系正式进入第二阶段,微软拥有OpenAI新技术商业化授权,同时将OpenAI工具与自有产品再次进行深度集成,并推出相应产品。2022年12月:OpenAI在微软资助下,发布了人工智能模型,开发出了最新款人工智能产品,取名为ChatGPT。2个月后,ChatGPT的全球活跃用户突破了1亿。2023年2月2日:OpenAI宣布推出ChatGPT Plus订阅服务,可以让用户在高峰期优先使用人工智能聊天机器人 ChatGPT。OpenAl还有两个不为人知的小故事。其一关于马斯克与OpenAI的历史渊源。马斯克实际上是OpenAI创始人之一。2015年马斯克联合LinkedIn 创始人、Y Combinator总裁及 PayPal创始人等共同宣布创立OpenAI 公司,目标说是打造属于全人类的、开放的AI组织,其定位是非营利性的,不过在2018年马斯克突然离开OpenAI。外界传闻有两个版本:一是特斯拉公司也在研究AI,与OpenAI 在研发方向上有冲突,马斯克因此退出了董事会,但继续担任了OpenAI 公司的顾问。二是马斯克挖走了当时刚从斯坦福大学博士毕业后加入OpenAI的天才少年安德烈,安德烈的研究方向为计算机视觉,主攻图像识别和理解,当时马斯克的特斯拉也需要这样的人才。于是马斯克请这位安德烈去解决特斯拉的问题,为此OpenAI 公司一气之下把马斯克“踢”出董事会。其二关于安德烈。出生于捷克斯洛伐克的安德烈全名安德烈·卡帕斯(Andrej Karpathy),作为ChatGPT发展中的重要人物,是位“85后”。29岁时在斯坦福大学拿到博士学位。读博期间,他两次到谷歌公司做毕业实习。博士毕业后,安德烈2016年加入了当时刚成立一年的OpenAI,是OpenAI创始团队的成员之一,只不过工作一年多后,就被马斯克挖到特斯拉去了。他被马斯克迅速提升,接管了整个人工智能开发团队的软件部分,并和负责硬件的Pete Bannon携手主导了特斯拉车控智能软件开发。在此之后,他还接管了擎天柱人形机器人、特斯拉超算系统Dojo的开发,可以说是马斯克手下最为重要的人工智能领军人物。特斯拉人形机器人 图源:Tesla官网2022年7月安德烈突然离开特斯拉,回归OpenAI。安德烈在自己的推特账号上轻描淡写说道:“我和许多其他人一样,不管是处于AI圈的还是非AI圈,都被OpenAI的成果鼓舞感动了。我相信这家公司未来的潜力非常大,因此很高兴重新投入到其中来。”OpenAI很多人对安德烈7年后重新回到公司充满了期待,给予他“让CharGPT再次伟大(Make ChatGPT Great Again)”的厚望。无论何时,在AI人工智能领域的人才争夺都是如此激烈。1.2.ChatGPT主要功能OpenAI官网上说:我们已经训练了一个名为ChatGPT的优化对话的语言模型,它以对话方式进行交互。对话形式使 ChatGPT 能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT 经过训练以遵循提示中的指令并提供详细响应。和曾经的人工智能是“让计算机在固定场景下干固定的事”这个范畴不同,ChatGPT面对的是一个“open world”。全球目前上亿用户向它提问的问题是不可预知的。这恰恰是AI开发的难点。ChatGPT目前系统功能主要是文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能、视频生成等八大功能模块所组成。如下图所示 :星船知造为您逐一稍作展开——1.2.1文本生成ChatGPT的文本生成功能可根据人们的提问,生成可读的各种文本。文本生成功能通常用于生成新闻、博客、报告等内容。也可用于生成代码、诗歌、小说等各种不同类型文本。下图为星船知造编辑部让ChatGPT写一篇“关于中国充电桩各主要生产厂商前景”的报道,然后,它写到一半卡住了1.2.2 聊天机器人ChatGPT大型语言模型可以实时回答人们提出的各种问题,ChatGPT可以记住你之前跟它说话的过程与内容。ChatGPT聊天机器人具有一定的记忆和思维判断功能,能根据对话内容,前后呼应且有一定的语言逻辑推演能力,这也是ChatGPT聊天机器人区别于之前一些人工语言处理系统完全不一样的地方。1.2.3 语言问答ChatGPT的语言问答系统是应用人类语言处理技术,通过识别用户问题并匹配相应答案来回答问题。它通过对大量数据学习和深度分析,以及对语言和语法的深入了解,帮助用户快速找到所需的信息。ChatGPT问答系统适用于售后服务与话务员应答、医疗咨询和教育等场景。可24小时连续不断地提供服务。1.2.4语言翻译ChatGPT的语音翻译是利用人工智能技术,将各国不同的文字和语言进行相互转换,可直接把文字转换成不同的语言。它通过使用计算机算法和语音数据库来生成语音合成,可用于语音导航、机器人语音交互、同声翻译、语音自动识别等应用。1.2.5自动文摘ChatGPT的自动文摘是一种利用人工智能技术,针对大量文本和视频内容进行简化、概括的技术。它通常采用机器学习和自然语言处理方法,识别文本中的关键信息,生成简明、准确的摘要。可在一次会议后马上整理出会议纪要,或对长达2个小时的电话视频做出一份10分钟的会议摘要。自动文摘可以缩短文本阅读时间和视频阅读时间,提高编写会议的效率,帮助用户快速了解文本内容。它在新闻、科技、商业等领域都有应用。1.2.6绘画功能用户可以在ChatGPT中写一段有关画作的文字描述,描述你想要画出的图片或影像要求。也可以借助ChatGPT的提示,使系统更详细地了解你所要描绘的作品。对于产品广告设计和期刊书籍的插画是方便的工具。使用者不需要专业绘画技术的积累。1.2.7编程功能大多数开发场景中,特别是用户需求相对固定的场合,ChatGPT 可以用来编写代码,检查代码语义的准确性,改进和简化人们的编程工作。ChatGPT 还可以帮助我们提高自己编程代码的质量和可读性,通过你提出的要求,它会逐行添加注释,可以确保代码在发布前得到正确记录,并使其他人更容易理解和使用代码。可提高代码可读性、可维护性和与他人协作的能力。ChatGPT其实还有很多功能正在被开发与完善之中,有人把目前ChatGPT-3提供的功能细分为8大类60项功能,在此我们就不一一赘述了。1.2.8视频生成向ChatGPT提问对某一个产品或一个事件的描述,ChatGPT会送出一份文档,你可以对文档稍作修改,要求ChatGPT直接将文档转换成视频。除此之外,ChatGPT可以被用于智能助手,智能客服等领域。总之,ChatGPT的出现,为人工智能技术的发展带来了新的思路和技术支持,在数据处理、自然语言处理以及其他领域的应用前景广阔。ChatGPT的内涵与底层技术架构有人把ChatGPT理解为一个简单的搜索引擎功能,认为其工作原理就是把2022年以前网络中已有的数据,加工整理后推送给客户。人们认为ChatGPT只要建立一个足够大的数据存储空间,把所有的信息存放在里面,然后进行检索,就可以实现文本问答和聊天机器人功能了。其实ChatGPT的工作原理并不是那么简单,比一般人理解的程度要复杂很多,这里面涉及生成性预训练变换模型和很多关键核心技术和底层逻辑。2.1 ChatGPT生成性预训练变换模型前文我们在介绍ChatGPT的含义时已经介绍过,ChatGPT的全称为“Chat Generative Pre-trained Transformer”,翻译成中文就是生成型预训练变换模型。在此之前,一般所谓的人工智能、机器学习、聊天对话软件在很大程度上都是局限于观察、分析和内容分类以及图像识别。而以ChatGPT为代表的生成性人工智能AI是一项技术上的突破,它可以生成新内容,而不仅限于分析现有的数据。它的技术核心是生成性的人工智能。从ChatGPT字面上来看,Chat是聊天的意思,但GPT才是关键。第一个字母G是Generative,属于生成性的人工智能,在这以前的人工智能都局限在观察分析现有内容,但这次ChatGPT是个突破,它可以根据我们的需要,创造生成全新的内容。第二个字母P是Pre-trained的缩写,预训练的意思。表示这个模型已经在某些有限的数据集上进行了预训练,ChatGPT在与人的对话中几乎接近正常人的交流,就是因为它已经接受过海量数据的训练,而这些数据就是我们人类2022年以前发布在互联网上的内容(目前版本的ChatGPT还不具备网络数据实时更新功能)。由于ChatGPT目前还没有实现网络的实时连接,因此回答问题的时效性受到一定的限制。ChatGPT在正式发布前,已经进行了大量的监督学习和通过人类反馈强化学习,所以我们在使用它的时候,这个模型能准确快速地生成对话内容。第三个字母是Transformer,翻译过来就是转换器,这是ChatGPT底层人工智能学习的一个算法架构。ChatGPT严格意义上来说就是一种基于Transformer的自然语言处理模型。采用了预训练加微调的方法,通过对大规模语料库进行预训练,对标注数据进行微调,从而使模型能够适应特定的自然语言处理任务,拥有语言理解和文本生成能力。2.1.1 ChatGPT的演进过程第一阶段:GPT-1发布2018年6月,OpenAl 第一篇论文《Improving Language Understanding by Generative Pre-Training》通过生成式预训练来提高语言理解能力的论文中提出了第一个模型GPT-1。从这篇论文中得出的关键结论是,Transformer 架构与无监督预训练的结合产生了GPT-1, 加上有监督微调方式,针对特定任务进行预训练,实现了强大自然语言理解能力。第二阶段:GPT-2发布2019年2月,OpenAI发表了第二篇论文《Language Models are Unsupervised Multitask Learners》,推出了GPT-2 。GPT-2是一种自然语言生成模型,其设计目标是生成与人类语言相似的文本,可以完成多任务处理。第三阶段:GPT-3发布2020年5月,OpenAI发表第三篇论文《Language Models are Few-Shot Learners》,推出了GPT-3。GPT-2和GPT-3是两个不同的模型,它们的主要区别在于应用场景、模型规模和性能表现。GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。第四阶段:GPT-3.5 发布2022年11月29日,OpenAI发布了一个命名为“text-davinci-003”(文本-达芬奇-003常称为GPT3.5)的新模型。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。2.1.2 ChatGPT的预训练加微调所谓的ChatGPT预训练,是一个基于transform模型的预训练语言模型,它的训练逻辑如下:第一是语料准备,从互联网上收集大量文本语料。如新闻、书籍、论坛,其中维基百科是它的一个重要数据来源。维基百科是用多种语言编写而成的网络百科全书。然后是对数据预处理,对语料进行处理,把它们分割成许多独立的句子或段落,对每个句子进行分词。分词后把每个单词转换成数字,生成一个数字序列,然后构建成数字词典。训练就是使用这些数字序列用transformer模型进行模拟场景试验,需要投入大量的人工干预,并使用监督学习的方式对预训练模型进行微调。根据奖励模型优化策略,然后生成输出,ChatGPT的预训练绕不开正向传递,反向更新,梯度收敛,预训练模型降低了获取更高水平人工智能的成本。由于至今OpenAI没有公开ChatGPT相关预训练数据集来源和具体细节,一定程度上阻碍了追赶者的步伐。2.1.3 ChatGPT的Transformer转换器ChatGPT的核心技术之一是Transformer转换器,Transformer技术是近几年人工智能技术最大的亮点之一,由谷歌的人工智能的团队“谷歌大脑”首先发布。这种模型是使用一种叫自注意力的机制(self attention mechanism),它允许模型在进行预测的时候,可根据语言序列的任何位置,为输入数据的不同部分赋予不同的权重,并支持处理更大的数据集。Transformer的精度和性能上都比之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能在更大模型、更多数据、更强算力的基础上进一步增强运算能力。此外,还具有很强的跨模态处理能力,不仅在NLP(自然语言理解)领域表现优异,在语音、图像方面也显示出了优异的性能。Transformer是ChatGPT语言模型的核心技术,是一种用于序列到序列(Sequence-to-Sequence)任务的神经网络模型,例如机器翻译,语音识别和生成对话等,它使用了注意力机制来计算输入序列和输出序列之间的关系。如下图所示制图:星船知造Transformer的主要优点是它可以并行地处理输入序列中的所有信息,因此在训练和推理时都有很高效率。此外,Transformer没有使用循环结构,因此它不受长序列的影响,并且在处理长序列时不会出现梯度消失或爆炸的问题。2.2 ChatGPT人类反馈优化语言模型(RLHF)ChatGPT 面对多样化的问题对答如流,已经打破了机器和人类沟通的边界,这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式RLHF (Reinforcement Learning from Human Feedback) ,即依据人类反馈的强化学习方法模型。OpenAI官网上如是说:我们使用依据人类反馈的强化学习方法模型(RLHF)来实施训练,使用监督微调训练一个初始模型与人类人工智能训练师提供对话,他们在其中扮演用户和人工智能助手。我们让培训师可以访问模型编写的建议,以帮助他们撰写答案。为了创建强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,我们进行了人工智能培训师与聊天机器人的对话。我们随机选择了一个模型编写的消息,抽样了几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型,我们执行了此过程的多次迭代。ChatGPT强化学习算法训练奖励模型简单来说就是分为三个阶段:第一阶段是收集示范数据,人工智能培训师与聊天机器人对话,并接受监督。第二阶段是收集比较数据,训练一个奖励模型。第三阶段是利用PPO强化学习算法,优化一个针对奖励模型的策略。2.5 ChatGPT的DALL.E 2自然语言转换成像技术根据OpenAI官网上的介绍,ChatGPT中的DALL.E 2自然语言转换成像技术,最初只是一个研究项目,目标是制定并继续改进安全缓解的措施,其中包括:第一、限制DALL·E 2 自然语言转换成影像时生成暴力、仇恨或成人图像。通过从训练数据中删除有害的视频内容、使用先进的技术来防止真实人物的面部,包括公众知名人物的面部在视频中出现。第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,ChatGPT就会采用自动化和人工监控系统予以拒绝。OpenAI认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对ChatGPT安全系统有信心。OpenAI希望DALL.E 2自然语言转换成像技术能降低图像生成模型相关的风险。为此,DALL.E 2在互联网上数亿张带标题的图像上进行训练,删除并重新加权其中一些图像,更改模型学习的内容。同时,采用在DALL.E 2中设置各种防护栏训练数据集,过滤训练数据,放大偏差、重复数据删除等多种技术手段,以防止生成的图像违反内容管制政策。使人们能够创造性地表达自己,帮助人们了解ChatGPT人工智能系统如何看待和理解我们的世界,对于创造人类的人工智能使命至关重要。2.6 ChatGPT软件是否能开源?OpenAI 不开放,是人工智能业界很多人诟病的话题。软件开源是多年来互联网产业之所以能蓬勃发展的驱动力之一。软件开源方式可以调动全世界软件开发者的积极性,每个人都可以下载源代码,并可进行优化和社区分享,也可以及时发现软件系统中的缺陷,提醒厂商予以改进完善。这种用全社会的力量来创新的机制,大幅加速了新技术的发展和产业应用的进程。据OpenAI 公司证实,目前ChatGPT尚未开源,目前是作为API(应用程序编程接口)调用的方式提供联网服务,暂时没有开源的计划时间表,甚至不排除未来很长一段时间内不会考虑软件开源的问题。关于ChatGPT为何不开源,业内也有一些专家表示理解,因为人工智能技术至今为止没有一家厂商的软件是开源的,基本上都是一个“黑盒子”,关于其内部的运行机制外界很难了解。如果软件代码开源,很难避免有人会利用人工智能创造出一些不利于社会和人类的内容,因此人工智能软件代码不开源,可能也是出于系统安全性方面的考虑。此外,自从Open AI 公司放弃了非营利组织的定位,接受微软等企业投资后,从商业化的角度考虑,也会采取软件和模型代码不开源的措施,保护商业利益和投资。而采用开放应用接口的方式来加以推广,日后不排除对应用接口部分开源少部分模型,丰富开发者的生态环境,有利于与ChatGPT与其他系统或终端的互联互通,加快人工智能产业的应用进程。ChatGPT人工智能研究中心及其首席执行官萨姆·奥尔特曼在接受美国《福布斯》双周刊记者采访时,在记者问及关于软件开源问题的追问时说道:“我认为实现这一目标的最重要方式是推出像ChatGPT这样的AI平台,除此之外,我们希望提供日益强大的应用软件接口(API),同时能够让它们更加安全。我们将继续开源,就像我们开源了CLIP(2021年发布的视觉神经网络),引发图像生成领域实现软件开源。我们开源了Whisper和Triton(自动语音识别系统和编程语言)。所以我相信这是一个多管齐下的策略,一方面要拿出好的东西,另一方面要平衡每样特定东西带来的风险和收益。”上述或可佐证Open AI 可能在应用接口部分开源少部分模型,丰富开发者生态环境的意图。2.7 人工智能AI芯片的重要意义在人工智能领域,包括人们日常生活中使用的智能手机,智能驾驶汽车等领域要完成运算都是与图像识别、语音识别、自然语言处理有关。底层最常用的就是卷积神经网络,也就是数学中的矩阵运算和优化处理,一般来说CPU主要适合常用的数学计算。对于矩阵运算,专用的AI 人工智能芯片就比较合适了。所以在这特定的情况下,AI芯片应运而生了。不同厂商对AI芯片有不同的称呼,有的称为NPU神经网络处理器。谷歌叫TPU张量(矩阵)处理器,美国超威半导体公司(AMD)叫APU加速处理器。苹果叫仿生芯片,市场营销的意味更多一些,而一般都统称为AI芯片或叫人工智能芯片。人工智能芯片可视为CPU的一部分,作为单独的加速芯片,它其实是从显示芯片GPU发展而来的。早期的GPU多用于2D和3D图形处理和计算,市场上则主要针对游戏领域。当下是算力时代,人工智能、深度神经网络、数据分析、可视化、互联网算法、生成性与训练、运算服务器、智能汽车、移动设备等,都离不开算力支撑。从全球整体市场情况来看,目前全球GPU市场形成多寡头竞争格局,其中包括英特尔、英伟达和AMD、苹果、谷歌、华为、阿里巴巴、腾讯、寒武纪也相继开发出了人工智能芯片。英伟达和AMD的芯片都是由台积电代工的,台积电在芯片包括AI芯片加工市场占据重要的地位。2.8 人工智能中的算力单位pfs-day(petaflop/s-day)随着人工智能尤其是强化学习算法和预训练技术的飞速发展,人工智能AI模型的算力正在以超高的速度发展。特别在自然语言处理领域的增长十分迅速。OpenAI的GPT-3大型神经网络有1750亿个参数,而且模型越做越大,短期看来是一个技术趋势。这样大的模型对于训练算力的消耗是惊人的,人们用一个新的单位来衡量算力,即petaflops/s-day,或者缩写成pfs-day。OpenAI定义神经网络中的每一次乘法或一次加法为一个操作,如果每秒钟可以进行1015方运算,也就是1 peta flops,那么一天就可以进行约1020的运算,这个算力消耗被称为1个petaflop/s-day。OpenAI透露:曾训练过一个强化学习模型OpenAI Five,使用该系统在2019年战胜了DOTA游戏职业游戏战队,该模型训练量达到800 pfs-day。OpenAI用了256个英伟达的GPU和12.8万个CPU核心芯片,预训练整整持续了10个月时间。OpenAI Five的总预训练量相当于打了45000年Dota游戏,每天的训练量大概相当于人类打180年游戏。根据OpenAI的最新研究,从2012年以来,最大的AI训练对于算力的消耗已经增长了30万倍,平均每100天就翻倍,算力是人工智能发展的技术保障,是人工智能发展的动力和引擎。这个速度已经大大超越了两年翻倍的摩尔定律。2020年5月,OpenAI发表了一篇由多位作者撰写的论文:Language Models are Few-Shot Learners (语言模型是小样本学习者)。其中提到ChatGPT-3中有多达1750亿个参数、数据集45TB,训练花了3640pfs-day,语言模型训练一次的费用保守估计是460万美元,模块总训练成本估计达到了1200 万美元。由此可见在人工智能领域的资金投入以及对计算机的算力要求是如此之高,远超人们的想象力。ChatGPT潜在商业价值与市场动态ChatGPT在系统可靠性、准确性方面还有待改进的空间。人工智能项目当前大多数仍然处于研发和巨大投入阶段,势必还要花费大量的金钱以及资源来实现。人工智能项目想要持续发展,需要找到适合其自身发展的商业模式。同时由于ChatGPT的突然出现,对于全球的人工智能发展应该说起到了一定的推进作用,新技术的横空出世,当然会促进社会的变革以及带来社会生产力的发展新机遇,同时也一定会伴随着产业的动荡、重组和融合,以此来重新调整社会生产关系,满足先进生产力发展的需要。3.1 全球市场对ChatGPT 的客观评价(节选)3.1.2 国外学者大咖对ChatGPT 的客观评价1. 世界首富比尔·盖茨在接受专访时表示;“ChatGPT以及AI领域的进展令人激动,AI将是2023年最热门的话题。ChatGPT与互联网的发明一样重要,堪称划时代应用”。2. 马斯克也是OpenAI的联合创始人之一,曾在推特上表示:“ChatGPT好得吓人,我们离强大到危险的人工智能不远了”。话语中既有赞许,又对人工智能发展没有建立可靠的安全监管机制,存有危机感。3. 微软CEO萨提亚·纳德拉(Satya Nadella)表示:“AI将从根本上改变所有软件,并从搜索这个最大的类别开始。这是搜索的新一天,比赛从今天开始”。4. OpenAI首席执行官萨姆·奥尔特曼萨姆·奥尔特表示:“这绝对是一个激动人心的时刻,但我希望这只是刚刚开始。事实上,这将是一条技术发展及其对社会产生的积极影响,不断呈几何级数增长的道路”。5. OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受《时代周刊》采访时表示:“ChatGPT有可能真正彻底改变人类的学习方式,具有进行个性化教育的巨大潜力”。6. 欧盟委员会分管市场(工业)委员蒂埃里·布雷顿(Thierry Breton)日前表示:“欧盟委员会正在起草一项新的人工智能法规,新拟议的人工智能法规将围绕ChatGPT聊天机器人和人工智能技术风险,讨论解决方案”。3.1.3 国内学者对ChatGPT 的客观评价1. 传播内容认知全国重点实验室首席科学家张勇东表示:“ChatGPT的出现,是人工智能技术发展的一次飞跃。其在交互和创作方面展现的出色能力,标志人工智能由决策式向生成式转变”。2. 中国信通院云计算与大数据研究所科技部副主任石霖认为:“ChatGPT的技术基于OpenAI开发的GPT3.5系列模型,该模型参数规模据推测达十亿级别,加之在训练过程中引入人类反馈机制技术,使得ChatGPT在回答准确率、道德表现上进一步得到提升”。3. 中国工程院院士邬贺铨认为:“现在完全没有必要为ChatGPT的出现而担忧,它的出现是一种技术进步,ChatGPT可以帮助人类做一些资料整理等基础工作,但是它不可能代替人类思考”。4. 华东师大传播学院院长王峰认为:“ChatGPT带来巨大机遇与挑战,它可以和元宇宙建设结合起来,一旦ChatGPT这样的人工智能应用成熟,这标志着在人类语言反应中,人工智能开始占据优势,会对人类生活造成更深刻的影响”。3.1.4 国外投资者和厂商对ChatGPT 的反应路透社报道称:“谷歌母公司宣布将推出名为‘Bard’的AI人工智能聊天机器人服务以及更多的人工智能项目,以应对竞争对手微软所引领的新计算浪潮”。早在2019年,微软就向ChatGPT的所有者OpenAI公司多次注资,此番ChatGPT-3.5的成功发布,也让业界联想不断,接下来微软可能会砸下更多筹码,甚至将OpenAI和ChatGPT一起收购。没让人们等待太久,微软就给出了答案:再次向OpenAI投资100亿美元。据消息人士说,早在去年10月微软就开始了就追加投资一事与OpenAI谈判。现在这笔资金最终敲定,包括新的投资在内,微软将获得OpenAI 的49%股权,OpenAI的估值将达到290亿美元,微软将每年获得OpenAI的75%利润,直到收回投资为止。因此,这次ChatGPT的成功,最大的赢家无疑就是微软。3.1.4 国内部分投资者和厂商对ChatGPT 的反应1. 百度公司正在进行类似ChatGPT产品的上线冲刺,该项目名字确定为“文心一言”英文名“ERNIE Bot”。百度“文心一言”是百度基于“文心大模型”技术推出的生成式对话产品。百度在人工智能四层架构中,有全栈布局。其中包括底层的AI芯片、深度学习框架、大模型以及最上层的搜索等应用。项目将于2023年3月份完成内测,并面向公众开放。2. 腾讯申请“人机对话方法、装置、设备及计算机可读存储介质”专利,该专利产品可实现人机顺畅沟通。3. 阿里巴巴达摩院(杭州)科技有限公司申请了“人机对话及预训练语言模型训练方法、系统及电子设备”专利,可提升问答交互的准确性。3.2 ChatGPT可能影响的行业初探人们普遍认为,采用AI技术的ChatGPT发展和应用可能会影响许多职业,特别是一些重复性较高的工作。例如,一些简单的办公室文秘工作、数据处理,以及人工客服可能会被自动化和人工智能代替。需要高度创造力和人类技能的职业,如医生、律师、艺术家、软件架构师等,则不太可能受其影响。ChatGPT可以为人们提供有价值的信息和帮助,因此也可能为相关职业带来新的机会。ChatGPT作为一种领先的聊天机器人技术,已经被广泛应用于多个领域,下面就浅析基于人工智能的ChatGPT可能会对我国哪些行业带来变革和影响。3.2.1客服行业人工智能技术可以提供智能客服服务,通过自然语言处理和机器学习技术,为用户提供快速、准确的答案和解决方案,从而减轻人力成本压力。它可以提供比人工客服更全面,更快更准确的客服服务,从而提高客户满意度。主要体现在以下几个方面:1.提高服务质量ChatGPT是一种机器人作为客服服务系统,它能够实时对接客户的需求,并根据客户的问题准确回答,出错率较低,解决方案更全面,可以更快准确满足客户的需求,从而提高客服服务的质量。2.提高客服效率ChatGPT可减少人工客服的工作量,AI系统能够快速地找到解决方案,不用客服人员花时间查找。人工客服可将更多的时间集中在更复杂问题的处理上,把更多的精力放在为弱势群体或无法准确使用AI系统的人提供人工应答服务。3.提高客服满意度ChatGPT可以让客户获得更好的服务体验。它可以更快地提供准确的答案,AI系统可以让客户感受到比人工服务更好地无缝交流,让用户获得更加满意的结果。4.降低客服成本ChatGPT可以帮助客服节省时间,减少客服人员,降低人工成本。5.提升客服系统的管理水平ChatGPT可以提高客服平台的管理水平,可以根据用户的使用反馈,自动按需生成各类管理报表,为后台管理人员提升服务质量提供数据支撑。3.2.2教育行业人工智能技术可以用于教学辅助、在线教育、个性化教育和学生评估等方面,可以提高教育效果和教育公平,为学生提供个性化的教育服务和智能化的学习体验。让ChatGPT作为一种教学辅助工具,成为教师的朋友或帮手。ChatGPT作为一种教育辅助工具,主要应用体现在以下几个方面:1.设计课程ChatGPT可以为教师的课程设计提供创意思路,协助检索和整理教学文献资料,生成完整的课程材料,如教学大纲、课程计划和阅读材料,并可生成文本或PPT图片。2.协助备课ChatGPT能够参与到教研备课中,帮助教师节省大量查询资料的时间,提高备课效率。3.知识搜索可以与学生一起通过对系统的提问方式,快速搜索到相关的知识点。扩展学生的知识面和对事物的理解深度。增加课堂趣味性和丰富性,帮助学生理解复杂的内容和概念,成为教师的人工智能助教。4.作业测评ChatGPT还可以参与到学生成绩的评估,生成作业测验和考卷,帮助教师评估学生的学习质量,观察学生的学习进度。同时也可以对老师的授课质量进行测评,评价教师与学生之间的活动环节,提高教学质量。3.2.3语言文字翻译行业人工智能AI技术在语言文字翻译领域已经实现了突破性发展,ChatGPT实现多语言支持,可以识别多种语言,其中包括:1. 快速翻译:ChatGPT可以让翻译工作更加快捷便利,从而让更多的文本可以在短时间内完成翻译。2. 准确翻译:ChatGPT能够准确识别出语言或文本的内容,从而提高翻译准确性。3. 语法检查:ChatGPT可以检查、校对语言或文本的语句,语法等的翻译错误,从而提高翻译人员在翻译过程中的质量和水平。4. 文本改进:ChatGPT可提出改进文本的建议,从而让文本更加便于理解和完美。5. 词汇补充:ChatGPT可为翻译人员提供更多参考词汇,同样一个意思,根据不同的场合,用恰当的语言来表达,增强翻译亲和力。6.语言转换:ChatGPT可帮助翻译人员实现几乎世界上所有语种不同语言之间的转换,从而更好满足翻译需求。7. 文本格式:ChatGPT可帮助翻译人员更好地理解不同文本格式,直接采用文本、表格、图片或会议纪要形式直接生成,从而更有效地完成翻译工作。3.2.3金融行业对金融行业而言,ChatGPT可以提供多种智能化的服务和解决方案,帮助金融机构提高运营效率、降低成本、丰富客户体验、管理金融风险、进行投资决策等。1,美国SouthState Bank相关负责人表示:该行已确定了15个ChatGPT应用场景,如:在内控与合规管理方面,该行将通过使用ChatGPT帮助银行监测和评估相关风险,例如通过分析公司的合规政策、员工的行为等,提出相应的风控措施。2,在法律事务处理方面,该行将通过使用ChatGPT自动检测和识别合同风险,在合同草案中插入关键要素和监管要求的法律条款,进行智能审查、智能书写,从而为本行的法律团队节省时间。3,国内金融机构邮储银行近期表示:将优先使用百度开发的“文心一言”,在金融业开展类似ChatGPT人工智能的应用试点,结合行业知识进行微调和交互式训练。在智能客服、数字员工、虚拟营业厅等场景进行应用,进一步提升客户体验。探索新型的信息统计、信息获取方式,向客户提供更及时、更准确、更个性化的金融咨询服务。4,今年 2月20日,广发证券宣布将通过百度智能云全面体验并接入百度“文心一言”,通过探索大语言模型融入金融应用场景,尝试打造更为丰富、个性化的金融服务,为客户提供更智能、更有温度的财富管理服务体系。与此同时,我们也应该认识到无论国内外,金融业都是接受严格监管的行业,ChatGPT需要庞大的数据库支撑,要针对行业做大量的数据训练和优化。而金融数据的获取却非常严格,解决信息的准确性、安全性和用户隐私等问题,都是金融业优先考虑的问题。国内学者认为,金融服务不但要考虑到人机交互的便捷性,更重要的是避免损失,因此AI和金融的结合一定要经过大量的训练,并且实时更新数据,同时与严格的安全监管机制相匹配。3.2.4制造业每一次工业革命都离不开生产力的提升,先进的技术可以帮助人类从传统手工社会转向工业社会和信息化社会助力,带来生产关系的巨大变革。这次ChatGPT的应用还远远算不上一次工业革命,但可被视下一场变革来临的信号。人工智能技术可以用于生产流程优化、智能制造和质量控制等方面,可以提高制造业的效率和产品质量。现在世界各国出生率下降,社会老龄化日益加重,ChatGPT的出现不仅会给生产力带来变化,而且会给生产方式带来一定变化,这种变化在宏观背景下的影响可能会超过所有人的想象。从目前ChatGPT的功能来看,还不能完全代替人类,但是可以释放出更多生产力,迫使人类去关注那些更具有创意、创造、思想、情感的工作。ChatGPT直接进入制造业和实体经济还路途遥远,但是专家认为AI所起到的作用,应该主要体现在降本增效上。在可以预见的将来,大多数产业的发展都将融入人工智能技术。以硬件设备为主体的产业,例如制造业、采掘业、基础设施等,将更多加入人工智能软件的支撑,各类服务业将有更多的简单重复的工作被人工智能设备所替代人工,随着人工智能产业新形态的出现,人们的工作生活环境将因之而变。3.2.5物流交通运输行业人工智能技术可以用于物流交通运输行业的智能化的路线规划、运输管理和物流优化等方面,可以提高交通运输的安全性和效率。ChatGPT为代表的人工智能系统,能科学规划物流和交通规划,可以给物流交通运输行业从订舱到跟踪货物、管理库存到更新车队信息提供全方位的服务,将物流和供应链行业的管理提升到一个新的水平。3.2.6文秘行业传统意义上的文秘工作,主要负责处理公司或政府的日常事务,比如接打电话、文件邮寄、办文办会、档案管理、编写会议纪要、协调工作等。ChatGPT能完成大部分文秘的事务性、程序化的工作,应用人工智能技术,文秘工作的重心需要关注的是如何应用人工智能技术为领导的决策做好辅助性工作。协助领导提高决策的科学性、准确性。文秘可以通过使用人工智能产品,提升信息资源的准确性和效率。文秘工作者要适应时代的快速发展,接纳新事物、新技术,善于观察、独立思考,提高创新能力和解决问题的能力。尽管ChatGPT功能强大,但是完全取代文秘工作还为时过早,大量文秘的工作还是需要有人员来处理,ChatGPT无法完全替代。ChatGPT完全可以作为文秘工作的一个好助手,提升文秘工作的质量和水平。有人这样说:未来不会被人工智能替代的有三种人:有适应能力的人、有创造力的人、有解决问题能力的人。因此,人们在人工智能时代应该提高适应能力、创新能力就显得尤为重要。3.2.7法律行业人工智能技术可以用于法律咨询、文书起草和司法判决等方面,可以提高法律效率和准确性,降低成本和错误率。利用人工智能可以直接了解用户需求,更好理解用户的提问内容,进行高质量的法律条款的关联;比如检索资料、整理答案、改写文字以及翻译等,ChatGPT在法律领域可能应用的场景如下:1.查找法律条款ChatGPT可以通过提问方式直接查找相关的法律条款,能够有效节约大量法律条款记忆和检索的时间,提高法律工作的效率,加快结案的时间。2.结合案例梳理适用法律要件在一个法律案例中可能会涉及不同的法律体系,如果不是专门从事这一方向的职业律师或者法官,可能无法进行较为完整准确的分析,未接受过专门法学训练的普通民众更难以遍历相关法律条款,ChatGPT会基于既有的法律资料进行梳理,并给出较为完整的参考。3.撰写法律文书ChatGPT具有较强的文书整理能力,可根据双方法庭陈述和辩论,撰写法庭纪要、审判纪要、起诉意见书等法律文书。也可以通过文本输入,请ChatGPT对法律文书进行法律条款使用准确性的检查。4.辅助司法裁判2023年哥伦比亚法院在裁判中使用了ChatGPT中的文本生成功能来增加说理依据,在裁判文书中,ChatGPT给出了具体的法律条款、适用情形、立法目的以及法院以往判例对比等内容,能够有效提升诉讼案件处理的准确性。对于统一裁判尺度具有重要价值,甚至随着技术发展,可以实现裁判文书的辅助生成、案件信息的自动回填等功能,有效辅助司法裁判。ChatGPT在法律领域的应用制约:最高人民法院在2022年12月发布《关于规范和加强人工智能司法应用的意见》,提出到2030年,建成具有规则引领和应用示范效应的司法人工智能技术应用和理论体系,为司法为民、公正司法提供全流程高水平智提供辅助支持。3.2.8社交媒体行业人工智能技术可以用于社交媒体内容生成、图片画像和产品广告推荐等方面,可提高社交媒体的用户体验和收益,为广告主和内容创作者提供更好的服务。3.2.9软件开发行业随着人工智能ChatGPT的发展,越来越多人关心ChatGPT是否会对软件行业就业产生重大影响,ChatGPT会不会让底层程序员失业?其实目前的ChatGPT还是一个测试的版本,软件代码生成只是其中一个功能,还有很多需要不断改进完善的地方,要完全取代人工编程还要需要很长一段时间。一般认为程序员就只会写代码,其实程序员写代码的时间最多占其工作量的四分之一都不到,程序员需要用大量的时间了解系统架构、功能开发的用户需求与其他团队的合作、调试和修改验证代码等等。况且目前的ChatGPT智能写一些简单应用小程序和对话框的界面编程,据称ChatGPT通过了谷歌编码3级工程师的测试,并收到年薪高达18.3万美元的出价,但是对于一些自动化控制程度复杂的大型软件,用ChatGPT开发几乎是不可能的。在开发场景固定,用户需求固定、控制比较简单、系统安全保密性不高的软件开发场合,ChatGPT可以成为辅助工具,用于代码生成和软件代码调试的辅助工具。反而,由于ChatGPT的出现,会带动软件开发人员就业岗位增加的机会,比如ChatGPT带动的全球人工智能加速发展,人工智能行业将继续投入大量的软件开发人员,参与人工智能软件开发、生成性预训练模型测试、云计算、云数据库等人工智能关联行业,有大量对有经验软件开发人员的需求,从而带动整个社会从学校的专业课程设置到AI专门程序员的培养。会给软件开发人员带来很多新的工作机会。软件开发人员的薪资也会水涨船高,有利于整个行业发展,促进社会的进步和人工智能技术的发展。但是有一点是肯定的,尽管有类似于ChatGPT等人工智能系统的协助软件编程,项目管理者会从系统安全的角度考虑,避免将一些涉及先进模型算法、系统安全、大型网络管理软件、大型数据库和云储存软件,以及计算等控制化程度较高的软件,或者任何等带有企业机密和行业安全软件,不会交给ChatGPT去完成。ChatGPT是一个开放性的系统,它可能会把你的代码在其他用户的调用中重复出现,那对企业来说是极大的安全隐患,必须设置安全围栏,防止软件编码被泄露的事件发生。3.3 ChatGPT发布后国外主要企业的动向3.3.1微软向OpenAI增资100亿美元早在2019年,微软就向OpenAI投下10亿美金研发资金,ChatGPT此番成功发布,微软准备再次增资100亿美元,甚至不排除将OpenAI和ChatGPT一起收购。有消息称,微软再次增资100亿美元到位后,OpenAI 公司的估值约为 290 亿美元。微软将获得 OpenAI 公司的49% 股份,75%的利润,直到其收回全部投资,OpenAI的非营利性母公司仅获得2%的股份。微软公司近期宣布将ChatGPT整合入微软的搜索引擎Bing,没过几天,又宣布会将ChatGPT整合进Office办公套件中的(Word、Excel、PPT)。用户在使用Office时就能体验ChatGPT的对话功能,这将极大丰富微软公司产品的内涵,微软的股价迅速上涨就是资本市场已察觉到了AI对社会进步可能产生的重大推动作用。3.3.2谷歌的人工智能系统LaMDAChatGPT吸引了全世界的目光,谷歌曾经也有在AI聊天机器人方面领先发展的机会,早在2021年5月谷歌的人工智能系统LaMDA亮相就惊艳了众人,但是谷歌出于某种原因,并没有打算把AI聊天机器人推向市场化,错失了一次极好的AI发展机遇。长期以来,谷歌秉持的宗旨是使用机器学习来改进搜索引擎和其他面向消费者的产品,并为谷歌云技术提供服务。ChatGPT问世后,谷歌急于赶超在AI领域与微软的差距,于2023年2月6日透露计划推出一款AI聊天机器人Bard,与OpenAI颇受欢迎的ChatGPT竞争。谷歌所研发的对话应用语言模型LaMDA(LanguageModel for Dialogue Applications),全称是对话应用程序的语言模型,它是一种能力很强的语言模型,适用于对话应用程序,是一种基于网络上数十亿词汇进行训练的大型语言模型,它受益于谷歌强大的计算能力和研发团队。谷歌认为LaMDA聊天机器人,性能远超现有的ChatGPT;另外,谷歌拥有图像生成能力更强的Imagen模型,性能要优于ChatGPT的DALL.E 2自然语言转换成像技术。谷歌在2023年2月8日巴黎召开的发布会上,当场展示了Bard聊天机器人的功能。让人没想到的是Bard刚一亮相,就出错了。在谷歌短短几分钟的展示中,有人向Bard提问;“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜有哪些最新发现吗?”Bard的回答很出乎人们的意料,它指出詹姆斯·韦伯太空望远镜拍摄到了我们太阳系之外行星的第一张照片。天体物理学家Grant Tremblay在推特上指出:美国宇航局公布的太阳系外行星的第一张照片,并非詹姆斯·韦伯太空望远镜拍摄,而是由欧洲南方天文台的甚大望远镜(VLT)于2004年拍摄的。这个错误被出现后,导致外界质疑谷歌在AI聊天机器人和人工智能方面的开发能力,导致其母公司Alphabet当日的股价暴跌7.68%,市值蒸发近1056亿美元(约合人民币7172.78亿元)。这个错误体现了当前人工智能系统的一个常见缺陷,即暂时还不具备实际的“理解能力”,仅能根据概率进行猜测,并不能甄别虚假信息。对此,微软也承认了ChatGPT聊天机器人同样面临类似挑战——也会表达虚假信息。3.3.3 Meta公司加入AI争夺战继微软、谷歌在人工智能发布产品后,脸书(Facebook)母公司Meta也加入了人工智能AI市场争夺战。2023年2月24日,Meta官网公布了一款新的人工智能大型语言模型LLaMA,从参数上来看,Meta提供有70亿、130亿、330亿和650亿四种参数规模的LLaMA模型,并用20种语言进行预训练。而Open AI 推出的GPT-3通过指令微调后得到的数量达1750亿个。Meta首席AI科学家杨立昆(Yann LeCun)这样说:在一些基准测试中,LLaMA 130亿参数规模的模型性能优于OpenAI推出的GPT-3性能。像LLaMA这样小型模型所需的计算能力和资源要少得多,且能在单个GPU上运行,具有独特的竞争优势。Meta首席执行官马克·扎克伯格表示:LLaMA模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测复杂任务方面有很好的前景。最重要的是Meta称将致力于人工智能开源模型的研究,新模型会开源授权给整个人工智能AI研究社区,并授予大学、非政府组织和行业软件访问权限。Meta表示还有更多研究需要做,以解决大型语言模型中的偏见、有害评论等风险,并计划开发属于自己的AI芯片。3.3.4 苹果公司在人工智能领域厉兵秣马作为美国高科技公司巨头的苹果公司CEO蒂姆·库克(TimCook)2月3日说:AI 是苹果布局的重点,这是令人难以置信的技术,它可以丰富客户的生活,能够为苹果在发布的碰撞检测、跌倒检测和心电图功能的产品中赋能。苹果公司在这个领域存在巨大的潜力,几乎可以影响一切。他再次强调,AI 是一项横向技术,而不是纵向技术,因此它将影响我们所有的产品和服务。在OpenAI 推出ChatGPT火爆全网后,苹果的压力显而易见,有分析认为,苹果公司原本的语音智能服务Siri被边缘化了,苹果迫切需要有与ChatGPT相竞争的新一代人工智能产品。外界曾猜测苹果公司将在2023年2月的一次年度人工智能峰会上展示一款类似于ChatGPT的产品。结果什么都没有发生。苹果公司早在2022年12 月 2日就宣布将大力推出Stable Diffusion模型。Stable Diffusion之所以引人注目,不仅因为它是开源的,还因为它的模型规模非常小,可以在一些消费类计算机上和iPhone产品上运行。与此同时,Stable Diffusion本身可以内置到苹果的操作系统中,并为任何开发人员提供易于访问的API。3.3.5 亚马逊公司在人工智能领域横空出世亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者品牌,其提供超过200项全功能的服务,涵盖计算、存储、数据库、网络、数据分析、机器学习与人工智能、物联网以及应用开发。2023年2月23日消息,亚马逊决定将与人工智能初创企业合作,加入聊天机器人之战,这是大型科技公司在生成式人工智能系统市场上强强联手的最新举措。亚马逊云计算服务(AWS)联合开发一种语言生成工具,能与OpenAI的聊天机器人ChatGPT相媲美,可在自己的云客户中使用。亚马逊云部门业务副总裁斯瓦米·西瓦苏布拉马尼安说:亚马逊公司将打造人工智能语言模型BLOOM。已经有超过10万用户在亚马逊公司的云端运行人工智能应用程序。由于生成式人工智能程序要对大量现有内容进行整理才能生成可阅读的新内容,因此需要通过云端传输,这意味着,亚马逊将通过云端传输获得丰厚的利润。对亚马逊来说,更主要的业务收入是出售对云端GPU的访问权,很明显应用模型生成图像或文本,都会在云端的GPU上运行。与此同时,亚马逊本身就是一家芯片制造商,迄今为止它的大部分精力都集中在Graviton CPU上,但它可以为Stable Diffusion等模型构建自己的专用硬件,并在价格上展开竞争。3.3.6 英伟达在人工智能中“闷声发财”就在ChatGPT得到市场热捧的时候,一个厂商正在背后闷声发大财,那就是英伟达公司。英伟达(NVIDIA)是一家总部位于美国的人工智能计算公司。1999年英伟达定义了GPU(图形处理器单元),其浮点运算和并行运算速度比CPU强百倍之多。GPU的成功极大地推动了PC游戏市场的发展,重新定义了现代计算机图形技术,并彻底改变了矩形计算的规则,大大提高了计算机的处理能力。2022 年3月推出的NVIDIA Hopper这一款新架构,以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。基于 Hopper 架构的 GPU — NVIDIA H100,该款 GPU 集成了 800 亿个晶体管,拥有 Transformer 引擎和高度可扩展的 NVIDIA NVLink 互联技术等突破性功能,可推动AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展,被广泛应用于数据分析、科学计算和云图形。事实上,无论是OpenAI的ChatGPT、还是微软的搜索引擎Bing、谷歌的人工智能系统LaMDA,都离不开英伟达提供的底层芯片算力支持。作为一家市值5000亿美元的科技巨头,以Hopper加速卡为代表数据中心业务堪称是英伟达的“印钞机”。据瑞银分析师蒂莫西·阿库里估计,OpenAI的ChatGPT中至少购入了1万颗英伟达高端GPU来做预训练模型。自2023年以来,英伟达的股价在一个月内就大涨40%,尽管英伟达官方对ChatGPT没有任何表态,但花旗分析师表示,ChatGPT的持续快速增长,可能会进一步导致整个2023财年中,英伟达GPU(图形处理器)芯片的销售额将剧增,估计至少增加110亿美元。美国银行和富国银行的其他分析师也认为,英伟达将从人工智能业务中获取巨额利润。参考资料:[1] ChatGPT翻开了硬币的哪一面?北京邮电大学人工智能学院教授邓伟洪、中国信通院云大所有内容科技部副主任石霖[2] 采访报道ChatGPT“火出圈”我们该“急眼”吗?中国经济网2023年2月20日[3] OpenAI官网(ChatGPT:优化对话的语言模型 (OpenAI.com))[4] Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)[5] Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)[6] ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)[7]Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)[8] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)[9] Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)[10] Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)
作者:Tim Urban
编译:熊笑、刘小芹
来源:新智元(ID:AI_era)
著名科技作家 Tim Urban 在 WaitButWhy 上发表长文,详解了 Elon Musk “脑机接口”的前世今生和 Neuralink 的宏伟蓝图,包含大脑研究的深入介绍。
这是一篇非常非常非常长但是读起来却不会枯燥的文章,尤其关于进化和人脑的部分,图文并茂,由浅入深,生动详实,绝对值得细读,绝对受益匪浅。
1、我想给大脑造顶巫师帽
上个月,我接了个电话。
好吧,可能不是这么回事,他没那么说。但听了 Elon Musk 正在搞的新公司后,我知道他要干的就是这个。
我之前写特斯拉和SpaceX 的时候明白了一件事:要想了解某些公司,你得像缩放图片那样,放大又缩小地反复看。缩小,看看那些工程师们面对的技术难题;放大,审视我们种族面临的生存挑战;再放大,看看这个世界的模样;又缩小,鸟瞰我们从哪里来向哪里去。
Elon 的新公司也是如此,第一次听说Neuralink六周后,我就确定其工程之大胆、使命之壮丽,简直让特斯拉和 SpaceX 都黯然失色。那两家公司在试图定义未来人类会做什么,Neuralink 则意在定义未来人类是什么。
Neuralink 令人脑洞大开的宏大使命,加上人类大脑迷宫般的错综复杂,让我心中装满了一堆最难的概念和疑惑。但,像我刚才说的那样,经过一番放大缩小之后,忽然间一切都豁然开朗。我感觉就好比坐着时间机器去了一趟未来,现在我要告诉你一些根本无从想象的怪事。
不过,在我带你也坐上这趟时间机器之前,我们又要搞一下那个放大缩小的把戏。因为亲身经历告诉我,不搞清楚往哪儿看,就别想理解 Elon 的巫师帽计划。
所以,忘了你自己那些关于大脑和大脑未来的知识吧。穿舒服点儿,咱们上路了。
2、人类巨人
6亿年前,什么都做不了。
问题在于大家都没有神经。没有神经,你就不能动,也处理不了任何信息。你就那么默默存在着,直到死去。
但,这时,水母出现了。
水母是第一种活明白了的动物。它们发现必须要有神经。水母拥有了世界上第一套神经系统——神经网络。
水母的神经网络使它可以从周围世界里收集重要信息——比如哪里有掠食者和食物——然后把这一信息像打电话一样传到身体的各个部位。能够接收和处理信息意味着水母可以应对环境的变化来提高生存几率,而不仅仅是漫无目的漂着,祈求好运。
过了一段时间,一种新的动物出现了,还带来了一个更酷的想法。
扁虫想明白一件事:如果有一个boss在神经系统中掌管一切,能做的事情就更多。神经系统的boss住在扁虫的头部,制订了一个规则:身体内的所有神经得到的任何新信息,都要直接向他汇报。因此,扁虫的神经系统都围绕在boss和其他人之间的中央高速公路周围,而非各自为战。在这条路上,神经信使来回传递着消息。
扁形虫的boss和公路是世界上第一个中枢神经系统,在扁虫头部里的boss是世界上第一个大脑。
神经系统boss这一思路很快流行起来,地球上出现了成千上万带有大脑的物种。
随着时间的推移,地球上的动物发明了新的复杂的身体系统,boss们也越来越忙。
又过了一段时间,哺乳动物来了。对于动物王国的新一代来说,生活很复杂。是的,他们的心需要跳动,他们的肺部需要呼吸,但哺乳动物在很多方面超越了生存本身,他们拥有爱情、愤怒和恐惧这些复杂的感情。
爬行动物和其他更简单的动物有个爬行动物脑就够了,但哺乳动物的要求很多。因此,哺乳动物开发了第二个boss,来和爬行动物大脑配对,并满足所有这些新的需求,世界上第一个大脑边缘系统诞生了。
在未来100万年间,哺乳动物的生活变得越来越复杂,有一天,两位boss注意到,他们的座舱里来了个新居民。
这个看上去似乎是随机出现的婴儿实际上是大脑皮层的早期版本,虽然他一开始不起眼,却造就了灵长类动物,然后是巨猿,然后就是早期的原始人类。这个新boss从婴儿成长为一个孩子,并最终成长为对事情该如何进行有自己独立想法的少年。
新boss的想法被证明是有用的,他让原始人学会了工具制造、狩猎策略以及与其他原始人类的合作。
接下来的几百万年,新boss渐渐更成熟更智慧,他的想法越来越好。他想出了如何不再赤身裸体。他想出了如何控制火。他学会了如何使矛。
但他最酷的把戏是思考。他把每个人的头脑变成了这个人自己的小世界,使人类成为能够有复杂想法、推理决策并作出长期计划的第一种动物。
然后,也许大约10万年前,他取得了一个突破。
人类的大脑已经发展到可以理解,即使声音“rock”不是岩石本身,它还是可以被用来作为岩石的一个符号。它是一个指向岩石的声音。早期的人类于是发明了语言。
不久,万事万物都有了词语表示。公元前50000年,人类相互之间已经开始用复杂的语言进行充分的对话。
新皮层已将人类变成魔术师。他不仅使人的头脑成为一个充满复杂思想的奇妙的内部海洋,其最新突破也已经找到了一种将这些想法转化成象征性声音的方法,并将它们通过空气振动传送到其他人类的头脑中,这些人就可以解码声音并将想法吸收到自己的内部思想海洋中。人类的大脑皮层考虑事情考虑了很久,现在他终于有人可以谈论这些事情了。
随后新皮质也发生变化了。新皮质共享彼此的一切——从过去的故事,到他们想到的有趣的笑话,再到他们形成的意见以及未来的计划等等。
但最有用的是分享他们学到的东西。如果一个人通过尝试和错误了解到,某种类型的浆果导致他过去48小时腹泻不止,他就可以使用语言与其他人分享这一来之不易的教训。就像把教材复印分享给每个人一样。部落成员使用语言将该教训传递给他们的孩子,他们的孩子再把它传给自己的孩子。一个人“远离那种浆果”的智慧,可以穿越时间和空间,让许多不同的人避免犯下同样的错误,不再有类似糟糕的体验。
当一个人想出了一个好点子,同样的事情也会发生。一个非常聪明的猎人特别观察了星座和每年野生牛羊迁移模式的联系,他就可以分享他设计的使用夜空来确定牛羊还剩多少天回来的方法。尽管能够自己想出这个方法的猎人屈指可数,但现在部落所有未来的猎人都将受益于一个祖先的独创性,因为一个猎人的顶尖发现是每个未来的猎人的知识起点。
知识的进步使得狩猎季节更有效率,也使得部落成员有更多的时间改良他们的武器——几个世代以后,一个超级聪明的猎人发现一种可以更精确地抛出更轻、更密集的矛的方法。就像这样,部落内每一个现在和未来的猎人都会用更有效的矛来追捕。
语言为最聪明的人达成顿悟提供了可能,并把知识积累到一个由部落知识构成的塔中。每一个知识的诞生都伴随着一位祖先的醍醐灌顶。新一代都将这个知识塔安装在他们的头脑中,作为他们生活的起点,大脑带领他们基于祖先的经验,做出新的更好的发现,部落的知识由此不断扩大。语言是下面二者的分水岭:
轨迹的提升主要有两个原因。每一代人,都可以利用谈话、比较记录的方法,再结合他们的个人学习经历(这就是为什么蓝色的柱形在第二个图表中高得多),来学习更多的新东西。而且每一代人都能够将更高的学习成果传递给下一代,所以知识会随着时间的推移越来越好。
知识的共享就像一个盛大的、集体的,代际间的合作。数百年后,避开某种浆果的建议已经变成种植成排的浆果、并每年收获一次的复杂系统。关于牛羊迁徙的天才发现已经变成了一种牲畜驯化制度。长矛,通过数百年数百次的调整,变成了弓箭。
语言为人类群体带来远远超过个人智力的集体智慧,并允许每个人从集体智慧中受益,就像他自己想出来的一样。我们知道弓箭是一种原始技术,但在其发明之前,就是把爱因斯坦强拉到森林里,让他想出最好的狩猎装置,他也不可能那么聪明,发明出弓箭来。只有集体的努力才能让弓箭诞生。
能够彼此交流也允许人类形成复杂的社会结构,随着农业和动物驯化等先进技术的发展,部落人群随着时间的推移开始定居在某些地点,形成有组织的超级部落。当发生这种情况的时候,每个部落积累的知识塔可以和更大的超级部落共享,形成一个超级塔。合作提高了每个人的生活质量。公元前10000年,第一批城市形成了。
根据维基百科上所说,有一种名为Metcalfe 定律的东西,其中指出,“电信网络的价值与系统的连接用户数量的平方成正比。”旁边还附着这个旧电话构成的小图。
人群间的沟通也同理。两个人可以有一个对话。三个人有四个不同的对话组(三个不同的双人对话,加上三人之间的对话)。五人有 26 个对话。二十人有1,048,554个对话。
所以不仅一个城市的成员受益于作为基础的巨大知识塔,而且Metcalfe’slaw 意味着谈话可能性的数量急剧上升,出现前所未有的多样性。更多的对话意味着更多的想法相互撞击,会导致更多的发现和顿悟,使得创新的步伐飙升。
人类很快就掌握了农业,这解放了许多人,让他们可以有各种各样的其他想法。不久之后,他们取得了一个新的巨大突破:书写。
历史学家认为人类最初大约在5 - 6,000年前开始写下文字。在那以前,集体知识塔只存储在人们的记忆网络中,只能通过口头传播进行访问。在小部落中,这个系统效果不错,但是在一大群人分享的知识体积大得多的时候,记忆本身就很难支持这一切,而且大部分都会失败。
如果语言让人们将思想从一个大脑传递到另一个大脑,写作就可以把理念维系在一个物理对象上,比如一块石头上。当人们开始用薄薄的羊皮纸写作时,需要几周时间通过口头传播的大量知识可以被压缩成一本书或你可以握在手中的卷轴。人类集体知识塔现在就整齐地码放在城市图书馆和大学的书架上。
这些书成了人类在一切事物上的宏伟指导。他们引导向新的发明和发现,而这些反过来又成为书架上的新书。该指导教会我们贸易和货币的复杂性,还有造船、建筑,医药和天文学。每一代人开始用于生活的知识和技术都比上一代更高,进步不断加快。
但精心手写的书都像珍宝一样被看待(在15世纪中期,当时全欧洲只有30000书)。这时另一个突破来了:印刷机。
15世纪,大胡子Johannes Gutenberg 想出了一个方法来创建同一本书的多个相同的副本,比以往任何时候都更快更便宜。(或者,更准确地说,Gutenberg 诞生时,人类已经了解了发明印刷机的前 95 %,而Gutenberg 以以前的知识为出发点,发明了最后的5%)。
总之,不管Gutenberg 的印刷机怎样简陋,这仍是人类传播信息的能力的巨大飞跃。在未来的几个世纪,印刷技术迅速提高,机器从Gutenberg 一个小时可以打印的约25页,到19 世纪初已上涨100倍,变为2,400张。
大规模生产书籍成为可能,这一信息不胫而走,成本降低,不再是精英的特权,百万大众现在可以进入书籍的世界,识字率继续提高。一个人的想法,现在可以到达数百万人。大众传播的时代已经开始。
书籍的雪崩使知识超越国界,全球各区域的知识塔终于合并、扩展,成为一个各种知识全面汇聚的知识塔。
我们作为整体沟通得越好,我们的物种就越能够发挥作用,就像一个单一的有机体。集体知识塔是它的大脑,每个人的大脑就像一个神经或它身上的肌肉纤维。随着我们时代大众传播的兴盛,人类的集体形态——人类巨人,出现了。
随着集体知识塔的发展,人类巨人开始发现和发明个体人类无法想象的东西。
它把我们的牛车马车变成了闪亮的汽车,把灯笼变成电灯泡。它使我们飞过天空,进入太空。它给我们带来了广播电视,开放了一个世界,将某人头脑中的一个思想瞬间投射到十亿人的大脑中,重新定义了“大众传播”的意义。
如果个人存在的核心动机是通过其基因,保持物种的延续。宏观经济学则指明,人类巨人的核心动机是创造价值,这意味着它倾向于发明更新更好的技术。
而在20世纪中叶,人类巨人开始研究其最雄心勃勃的发明。
巨人早就知道,创造价值的最好办法是创造价值、创造机器。机器在做多种工作时都比人类更好,这产生了大量可以用于创造价值的新资源。也许更重要的是,机器劳动释放了人类大部分的时间和精力——即巨人本身的巨大部分——可以专注于创新。它已经将我们手臂的工作交给机器去做,将我们双腿的工作交给机器去做,现在它是否会以某种方式将大脑本身的工作也交给机器去做?
20世纪40年代,第一台数字计算机出现了。
脑力劳动计算机可以做的是信息存储的工作——他们是记忆机器。但是,我们已经知道如何使用书籍来储存我们的回忆,就像我们已经将我们的腿部劳动外包给马,而后汽车提供了更好的解决方案。计算机只是一个记忆的外包升级。
信息处理则不同,这是一种我们从未想过如何外包的脑力劳动。人类巨人一直不得不自己去做这样的事。但计算机的出现改变了这一情况。
工厂里的机器代替我们进行了一个物理过程——我们把材料放入,机器进行物理处理并给出成品。计算机可以做同样的事情,它进行信息处理。软件程序就像一个用于信息处理的机器。
这些新的信息存储/组织/处理机器被证明是有用的。计算机在公司和政府的日常运营中开始发挥核心作用。到八十年代后期,个人拥有自己的计算机变得很常见。
然后,又出现了一次飞跃。
90年代初,我们教会了数百万个孤立的机器如何相互沟通。他们组建了一个全球计算机网络,一个新的巨人诞生了——计算机巨人。
计算机巨人和它形成的伟大网络就像人类巨人的大力水手版。
如果个人的大脑是人类巨人的神经和肌肉纤维,互联网给了巨人第一个合法的神经系统。它的每个节点现在都与所有其他节点互连,信息可以以光速行进通过系统。这使人类巨人成为一个更快、更流畅的思想者。
互联网为数十亿人类提供了即时、自由、易于搜索和访问的整个人类的知识塔(现在已经有月亮那么高了)。这使人类巨人成为一个更聪明、更快的学习者。
如果个人计算机是个人、公司或政府的大脑延伸,计算机巨人就是整个人类巨人大脑的延伸。
人类巨人凭借其第一个真正的神经系统,一个升级的大脑和一个强大的新工具,达到了一个全新的水平。巨人注意到新的计算机朋友有多么有用,于是它将大部分工作集中在推进计算机技术上。
它弄清楚了如何使计算机更快更便宜。它使互联网更快,变成无线的。它使计算芯片越来越小,直到每个人的口袋里都有一台强大的计算机。
每个创新就像是大力水手的又一罐菠菜。
但今天,人类巨人想要的比菠菜更多。计算机改变了游戏规则,它使人类把与大脑有关的许多任务外包出去成为可能。但有一种任务,计算机还是无法胜任——思维。
计算机可以计算、组织和运行复杂的软件,甚至可以自己学习。但他们不能以人类的方式思考。人类巨人知道,它所建立的一切都源于其创造性和独立性的能力,它知道最终的大脑扩展工具将是一个真正可以思考的工具。无法想象当计算机巨人可以自己思考的时候——当它有一天打开眼睛,成为一个真正的巨人——会发生什么,但既然核心目标是创造价值和推动技术到极限,人类巨人决心找到答案。
这个话题我们一会儿会接着聊。首先,有些东西要学。
正如我们之前讨论的,知识就像一棵树。如果你尝试学习的分支或主题的叶子在你的脑袋里没有坚实的理解之树干,学习就无法进行。
我们已经知道,Elon Musk 希望为大脑造一顶巫师帽,理解他为什么要做这件事,关键是理解Neuralink,并理解我们的未来是什么。
但除非我们理解了巫师帽到底是什么,涵盖哪些概念,戴上以后会怎样,以及如何造出这样一顶帽子——否则没有太大的意义。
讨论的基础是理解什么是脑机接口,它们是如何工作的,该技术目前发展如何。
最后,BMI本身只是一个没有树干的大分支。为了真正了解 BMI 以及它们是如何工作的,我们需要了解大脑。理解大脑如何工作,这是我们的树干。
所以我们将从大脑开始讨论,这将使我们更多地了解BMI,这将教会我们造一顶巫师帽需要什么,为未来的疯狂讨论做好准备。会让我们的视线投向正确的地方,这有助于理解为什么 Elon 认为一个巫师帽对我们未来很关键。当我们再讨论到这儿时,整个事情应该就豁然开朗了。
3、大脑:可能是关于大脑工作原理最详细的图解
这个帖子很好地提醒了我,为什么我愿意跟如此美丽可爱的大脑一起工作。
因为真正的大脑非常不可爱,长得也难看。
但是,过去一个月,我一直生活在充斥着红色血管的 Google 图像的地狱里,所以现在你也得忍着点儿。
我们从外往里看吧。生物学有时似乎非常让人满意,比如你的头上有一个真正的俄罗斯套娃。
你有头发,然后是头皮,你认为下面就是你的头骨了——但实际上头骨之上还有19样东西。
你的头骨下面,又是一大堆东西,之后才是你的大脑:
在你的头骨下面,大脑周围有三个膜,将大脑环绕:
在外面,有硬脑膜,坚固耐用,防水。硬脑膜与颅骨齐平。我听到有人说,大脑中没有疼痛感觉区,但硬脑膜实际上能感觉疼痛,且和你的面部肌肤一样敏感,硬膜上的压力或挫伤往往造成了人们严重的头痛。
然后下面是蛛网膜,这是一层皮肤,然后是带有弹性的纤维的开放空间。我一直以为我的大脑只是漫无目的地漂在我大脑中的某种液体里,但实际上,脑外和颅骨内壁之间的唯一真正的空间差距是这个蛛网膜。这些纤维稳定了大脑的位置,因此不能动作太大,他们充当减震器,当你的头撞到东西。这个区域充满了脊髓液。
最后,是软脑膜,和脑外融合的很精巧的皮肤层。你知道,当你看到一个大脑,它总是覆盖着恶心的血管。但这些并不是真正在大脑的表面上,它们埋设在里面。
下面是完整的样子,使用的样品可能是猪的大脑:
从左到右是皮肤(粉红色),然后是两个头皮层,然后是头骨,然后是硬脑膜,蛛网膜,最右边是只由软脑膜覆盖的大脑。
一旦我们把其他部分都剥离下来,我们留下了这个傻孩子:
这个荒谬的东西是宇宙中最复杂的已知物体,重约三磅,神经工程师蒂姆·汉森(Tim Hanson)称之为“最具信息密度、结构化、自组织化的物质之一”。所有这一切只有20瓦的功率(类似计算机的功率为2400万瓦特)。
这也是麻省理工学院教授Polina Anikeeva 所说的“你可以用勺子舀出的软布丁”。大脑外科医生Ben Rapoport将它更科学地描述为“布丁和果冻之间的某种形态”。他解释说,如果你将大脑放在桌子上,重力会使它失去形状,变得很平坦,像一个水母。
但这就是我们。你看着镜子,看看你的身体和你的脸,你认为这是你——但这只是你的机器。你实际上是一个贪玩的果冻。我希望你不介意。
Krishna Shenoy 教授将我们对大脑的认识与十五世纪初的世界地图做比较。
另一位教授Jeff Lichtman 甚至更加苛刻。他在课程开始问他的学生:“如果你需要知道的关于大脑的一切是一英里,我们走了几英里?”他说,学生们给出了四分之三英里、二分之一英里或是四分之一英里的答案,但他认为真正的答案是“大约三英寸”。
第三个教授,神经科学家Moran Cerf ,跟我分享了一个神经科学中由来已久的说法,指出试图理解大脑有点 22 条军规的感觉:“如果人类的大脑这么简单,能够让我们理解,那我们将会因为如此简单,而不能理解大脑。”
也许,在我们正在建设的伟大的知识塔的帮助下,我们可以在某个时候理解大脑。现在,让我们看看我们对头脑里面的这只水母目前有哪些了解。
4、大脑,缩小看看
让我们使用半球横截面看看大脑的主要部分。因此,这是你脑袋里大脑的样子:
现在,让我们把大脑取出来,并删除左半球,这让我们能看清楚内部。
神经学家 Paul MacLean 做了一个简单的示意图,说明我们前面谈到的爬行动物大脑在进化中的第一次出现,然后是在哺乳动物兴盛阶段形成的古生哺乳动物脑和新哺乳动物脑。
也可以这么表示
让我们来看看每个部分:
脑干及小脑(The Brain Stem and Cerebellum)
这是我们的大脑最古老的部分:
我们的大脑横截面中青蛙大脑的残留。事实上,青蛙的整个大脑与我们大脑的低水平部分相似。
当你了解这些部分的功能,它们很古老这件事就说得通了:一切这些部分能做的事情,青蛙和蜥蜴都可以做。以下是主要部分:
延髓(The medulla oblongata)
延髓真的只是让你不会死。它控制非自主的事情,比如你的心脏速率、呼吸和血压。当它认为你中毒了,就会让你呕吐。
脑桥(The pons)
脑桥的工作是,做点这个,做点那个。它涉及吞咽,膀胱控制,面部表情,咀嚼,唾液,眼泪等等。
中脑(The midbrain)
中脑与视觉,听觉,动作控制,警觉性,体温控制有关,还有一堆其他的事情。大脑被分为了前脑、中脑和后脑。
有一件我要感谢脑桥和中脑的事是,它控制你的眼球自主运动,如果现在你在转眼球,就是你的脑桥和中脑在搞事情。
小脑(The cerebellum)
这个看起来像你大脑阴囊的东西是你的小脑,它使人保持平衡、协调和正常移动。
边缘系统(The limbic System)
大脑的边缘系统在脑干上,就是它让人类如此疯狂。
边缘系统是一种生存系统。如果你在做你的狗也会做的事情,比如吃,喝,交配,战斗,躲避等等,可能就是你的大脑边缘系统在驾驭你。无论你喜欢与否,你做的那些事情,就是处在原始的生存模式。
边缘系统也是你的情感所在,最终,情绪也都是为了生存——情感是更高级的生存机制,对于处在一个复杂的社会结构中的动物是必须的。每当你发生思想斗争时,你的边缘系统很可能会让你做出你会后悔的事情。
我敢肯定,控制你的大脑边缘系统,既意味着成熟,也是一种人性的挣扎。这并不是说没有边缘系统,我们会过得更好。边缘系统在让我们人类如此独特中起到了一半的作用。生活的大部分乐趣来源于你的情绪和需要得到满足。只是你的边缘系统不知道你活在社会文明中,如果你让它做主太多,它很快就会毁了你的生活。
无论如何,让我们再仔细看看。边缘系统有很多小部分。
杏仁核(The amygdala)
杏仁核有点儿像是大脑结构的情感遗骸。它涉及焦虑,悲伤,以及我们的恐惧反应。有两个杏仁核,奇怪的是,左边的已被证明更平衡,有时会产生一些幸福的感觉,而右边的永远心情不好。
海马体(The hippocampus)
你的海马体就像记忆的一块板子。当老鼠开始记忆迷宫的方向,记忆在海马体上编码。大鼠的两个海马体的不同部分将在迷宫的不同部分起作用,因为迷宫的每个部分被存储在自己的海马体部分。但是,如果学习一个迷宫后,大鼠被给予其他任务,一年后,被带回原来的迷宫,就会很难回忆起它,因为海马体记忆板上的大多记忆已经被抹去,释放给新的记忆。
丘脑(The thalamus)
在大脑的中心位置,丘脑也作为中间人,从你的感官接收信息,并将其发送到你的皮质处理感官。当你睡觉时,丘脑也一起上床,这意味着感官中间人下班了。这就是为什么在沉睡中,一些声音或轻轻的触摸往往不会让你起来。如果你想唤醒深度睡眠的某人,你必须展示出足够的侵略性来唤醒他们的丘脑。
唯一的例外是你的嗅觉,这是绕过丘脑的一个感觉。这就是为什么嗅盐可以用来唤醒一个晕倒的人。不像其他的感官,嗅觉位于边缘系统,这就是为什么气味和记忆与情感如此紧密地联系在一起。
皮层(Cortex)
最后,我们到达了大脑皮层。
大脑皮层(本文主要指新皮层,文中统称皮层)基本上负责所有事情:看,听,触觉,语言,动作,思维,规划和个性。
它分为四叶(lobe):
它们每个都做了很多事情,且有很多重叠:
额叶(Front lobe)处理个性,以及我们认为的许多“思考”——推理、规划和执行能力。特别是,您的许多想法发生在额叶的前部,称为前额叶皮质。额叶负责你的身体运动。额叶的顶部条是您的主要运动皮质。
在其它功能中, 顶叶控制你的触觉,特别是在初级躯体感觉皮层。
运动和躯体感觉皮层紧挨着对方,它们很有趣,因为它们已经被良好的映射出来了。神经科学家确切地知道每个部分连接到你身体的哪一个部分。于是就有了下面这张令人毛骨悚然图:侏儒。
由先锋神经外科医生怀尔德·彭菲尔德创建的侏儒,在视觉上显示运动和躯体皮层如何被映射。
如果你把皮层从大脑中剥下来,你会得到一张2mm厚,2,000-2,400cm2 大小(48cm x 48cm square)的餐巾纸。
这块餐巾是大脑发生大部分动作的地方,这就是为什么你可以思考,移动,感觉,看,听,记,说话和理解语言。真是有史以来最好的餐巾纸。
还记得我之前说你是一个果冻吗?你现在知道,感谢你的皮层,你实际上是一块餐巾纸。
当我们将另一个大脑放在我们剥离的皮层上时,可以看出皮层折叠的神奇效果。
大脑,放大看看
即使我们知道大脑很久以前就坐在智慧的宝座之上,直到最近,科学才发现大脑是由什么构成的。科学家们知道身体是由细胞制成的,但是在19世纪末期,意大利医生Camillo Golgi 才想出如何使用染色方法来看到什么是脑细胞。结果令人惊讶:
这不是一个细胞本来的样子。Golgi 发现了神经元。
科学家们很快想通了,神经元是组成大脑和几乎所有动物的神经系统的核心单元。
有很多不同类型的神经元。
我们来讨论一下简单且被人说滥了的神经元锥体细胞,你会在你的运动皮层发现这么个家伙:
然后如果我们给他一些额外的腿,一些头发,把他的胳膊拿掉,再把它抻长,我们就得到了一个神经元。
现在再添加几个神经元:
因此,这些家伙的躯干——神经元的轴突都具有一个负“静息电位”,这意味着当它处于静止状态,它的电荷是轻微的负。在任何时候,一堆人的脚和这些家伙的头发——神经元的树突——保持接触。他们的脚把化学物质——神经递质——传到他的头发。
神经网络
大脑材料可分为叫做 灰质 和 白质两类。灰质看起来颜色较深,且由大脑神经元的体细胞及其轴突和树突组成。白质是白色的,因为这些轴突通常包裹在髓鞘中,呈脂肪白。白质之间的大块主要由皮层神经元的轴突组成。大脑皮层是像一个伟大的指挥中心。
我见过的反映这一概念最酷的插图,由Dr. Greg A.Dunn and Dr. Brian Edwards.完成,让我们看看灰质皮质的外层和它下面的白质结构之间的显著差异:
这些皮层轴突可能将信息带到了大脑下部皮层的另一部分,或通过脊髓经神经系统的高速公路到了躯体的其余部分
让我们来看看整个神经系统:
神经系统分为两个部分:中枢神经系统–你的脑和脊髓,和外周神经系统——由从脊髓向外辐射到身体其他部分的神经元构成。
大多数类型的神经元是与其他神经元沟通的interneurons。
其他两个种类的神经元是 感觉神经元和运动神经元 –它们顺着你的脊髓而下,组成了外周神经系统。这些神经元可长达一米。以下是每种类型的一个典型结构:
5、脑机接口
让我们回到公元前50000 年,绑架一个叫 Bok 的人并把他带回到2017年。
“这位是Bok。Bok,我们真的很感谢你和你的朋友们发明了语言。”尽管 Bok 震惊地发现了很多神奇的事情,但他发现,人们彼此交谈的方式,和他那个时代没什么区别,仍然在使用50000年前的技术。
Bok 可能也有些惊讶,我们这些做出了各种神奇机器的人,在生物外形上跟他也没什么区别。怎么会这样呢?
这就是为什么脑机接口,神经工程的一个子集,是这样一个诱人的新产业。我们已经用我们的技术征服了世界多次,但是当它涉及到我们的大脑——我们最重要的工具,技术世界有太多的气馁和挫败。
这就是为什么我们还在使用的 Bok 发明的技术沟通,这就是为什么和大脑相关的疾病还如此致命。
但是,5万年后,可能终于要改变了。大脑下一个伟大的前沿战线也许就是它自己。
有许多种潜在的脑机接口(BMI),可以提供许多不同的功能。但是,每个人都在努力解决这两个问题中的一个或两个:
1)如何从大脑中获取正确的信息? 2)如何将正确的信息发送到大脑?
第一个是关于捕获大脑的输出——记录神经元所说的话。
第二个是关于将信息输入大脑的自然流或以其他方式改变自然流——这是关于刺激神经元。
这两件事情一直在你的大脑里自然发生。现在,你读这句话时,眼睛正在做一个特定的水平移动。大脑的神经元将信息输出到机器(您的眼睛),机器接收命令并进行响应。当你的眼睛以正确的方式移动时,屏幕上的光子进入你的视网膜并刺激您的皮质枕叶中的神经元,以允许单词的图像进入你的眼睛。然后,该图像会刺激大脑另一部分的神经元,使你能够处理图像中嵌入的信息并吸收句子的意义。
输入和输出信息是大脑神经元做的。所有的BMI 都想做的就是加入这一过程。
初看上去,这似乎不是那么困难的任务?大脑只是一个果冻,对吧?而皮质 - 我们想要做大部分的记录和刺激的大脑的部分只是一张餐巾纸,位于大脑外侧,方便您访问。皮层内约有200亿个发射神经元,如果我们能够搞清楚运作方式,那么200亿个流动的小晶体管将会给我们一个全新的对生命、健康和世界的控制。我们不能弄清楚吗?神经元很小,但我们知道如何分裂原子。神经元的直径约为原子的十万倍,如果原子是大理石,则神经元将跨越一公里,所以我们应该可以处理的,对吧?
那么这里有什么问题?
一方面,基于以上这些事实,有观点认为这是一个可以发生巨大进步的行业。我们做得到。
但只有当你了解大脑中究竟发生了什么,你会意识到为什么这可能是世界上最难的事情。
所以在我们谈论自己的BMI 之前,我们需要仔细看看试图让BMI在这里处理的人。我发现说明事情的最好办法是将大脑放大1000倍,看看发生了什么。
还记得我们的皮质餐巾纸吗?
如果我们把它放大1000倍,那么每条边约48cm 的皮质餐巾纸,现在有六个曼哈顿街区(或两个街区)的长度。大概需要25分钟的时间才能走一圈。而整个大脑整体现在可以紧贴在两个街区之间,就像麦迪逊广场花园(Madison Square Garden)的大小(这个长度和宽度的大小相当于MSG的两倍)。
因此,让我们在实际的城市里摊开来。我敢肯定,住在这里的几十万人能够理解。
我选择1,000X作为我们的乘数有几个原因。一个是我们可以立即转换我们头脑中的尺寸。每毫米的大脑现在是一米长。而在更小的神经元世界,每一微米现在都是一个易于概念化的毫米。其次,它方便地将皮质带到人体尺寸 - 其2mm厚度现在是两米 - 高(6'6“)的高度。
所以我们可以走到第二十九街,到我们巨大皮质餐巾的边缘,轻轻的看看那两米厚的内部发生了什么。为了示范,我们拉出一立方米的巨型皮质来检查,这将告诉我们在一个典型的立方毫米的真实皮质中发生了什么。
我们在这一立方米里看到的将是一团糟。我们把它清空出来。
首先让我们把体细胞放进去——立方体内所有神经元的体细胞。
体细胞的大小是一个范围,但我聊过的神经科学家说,皮质神经元的体细胞通常直径约为10或15μm(μm=微米,1/100毫米)。那意味着,如果你把7或10个体细胞排成一行,这条线就是人头发的直径。在我们的规模下,这使得体细胞直径为1 - 1.5厘米。大理石啊。
整个皮层的体积在50万立方毫米的场内,在这个空间大约有200亿个体细胞。这意味着平均每立方毫米皮质含有约40,000个神经元。所以我们的立方米盒子里有4万个大理石。如果我们将盒子分成约4万立方米的空间,每边都有3厘米(或大约一立方英尺)的一边,这意味着我们每个人的大理石都在自己的小3厘米立方体的中心,其他的体细胞在各个方向上距离它大约3厘米。
怎么样?这40,000个漂浮的大理石能不能帮你可视化我们的立方体?
这是一个在实际皮质中的体细胞的显微镜图像,使用了阻挡其周围其他东西的技术:
好吧,到目前为止还不太疯狂。但是,体细胞仅仅是每个神经元的一小片。从我们的每一个大理石大小的体细胞中散发出来是曲折分岔的树突,在我们按比例增加的大脑中能在许多不同方向伸展三四米,从另一端的轴突可以超过100米长(横向于皮质的另一部分),或一公里长(向下进入脊髓和身体)时。他们每个都只有一毫米厚,这些线把皮层变成密集纠结的电子意大利面。
意大利面里面也不消停。每个神经元有多达1000——有时高达10,000——和其他神经元突触的连接。皮层中有约200 亿的神经元,这意味着皮质中有超过20 万亿 的个体神经元的连接(整个大脑中有高达千万亿个连接)。在我们每个立方米中,将有超过2000万的突触。
更复杂的是,立方体中40000个大理石中不仅每一个都有许多意大利面穿走出来,同时还有从皮质其他部分穿出的数以千计的意大利面穿过立方体。这意味着,试图记录信号或在这个特殊的立方区域内刺激神经元,有很多困难,因为在意大利面的烂摊子里,很难找出哪些面条属于我们的体细胞大理石。
当然,还有神经可塑性的事情。每个神经元的电压是不断变化的,多达每秒数百次,同时数以千万计的突触连接会在我们的立方体内更改大小、消失、重新出现。
如果只是这样就好了。
原来大脑中还有被称为神经胶质细胞的其他细胞,有许多不同的品种,具有多种功能,如清扫释放到突触的化学物质、在髓鞘包装轴突、作为大脑的免疫系统等等。下面是一些常见的神经胶质细胞:
有多少神经胶质细胞在大脑皮层?和神经元数量相同。所以再加40000个这样的怪胎到我们的立方体里吧。
最后,还有血管。在每立方毫米的皮质,共有一米的毛细血管。在我们的规模下看,这意味着在我们的立方米内,有一公里长的血管。这样大小的空间内,血管是什么样子?
BMI工具
在目前正在进行的工作中,评估一种记录工具的利弊时,有三个广泛的标准似乎脱颖而出:
1)规模 - 可以记录多少个神经元
2)解析度 - 工具收到的信息有多详细 - 有两种类型的分辨率:空间(你的记录有多接近能告诉你单独的神经元如何被触发)和时间(当你记录的活动发生时,你记录的有多好)
3)侵略性– 操作是否需要,如果是,有多需要?
长期的目标是把所有三个蛋糕都吃完。但现在,总有一个问题:“这些标准你愿意放弃哪个?”从一个工具到另一个工具不是一个整体的升级或降级,而是一种权衡。
我们来研究当前使用的工具类型:
fMRI(功能磁共振成像)
规模:高(它显示整个大脑的信息)
解析度:中低空间,非常低的时间
侵入性:非侵入性
fMRI通常不用于BMI,但它是一种经典的记录工具,提供了有关大脑内部发生情况的信息。
fMRI使用MRI 磁共振成像技术。 MRI在20世纪70年代发明,是基于X射线的CAT扫描的演变。 MRI不是使用X射线,而是使用磁场(以及无线电波和其他信号)来产生人体和脑的图像。
而这一整套的横截面,让您穿过头去看到里面。
fMRI 使用MRI 技术来跟踪变化的血流量。为什么?因为当大脑区域变得更加活跃,他们使用更多的能量,所以他们需要更多的氧气,使血流增加该区域的氧气供应。
fMRI的有很多医疗用途,其最大的缺点是分辨率。
fMRI 成像体素的尺寸不断缩小,随着技术有所改善,使空间分辨率可达立方毫米。大脑有大约1200000毫米体积,所以fMRI 成像扫描将大脑划分约一百万小立方体。问题是,对神经元的规模来说,这仍然是相当巨大的,每一个像素包含的神经元数以万计。更大的问题是时间分辨率,fMRI跟踪血流,既不精确,且有延迟。
EEG(脑电图)
规模: 高
解析度:空间上非常低,时间上中高
侵入性: 非侵入性
近一个世纪以来,EEG(脑电图)把电极阵列罩在你头上。你知道,就是这样:33
EEG 对于一个2050年的人来说,绝对是一个非常原始的技术,但现在,它是可以BMI中完全无创的唯一工具。脑电图记录大脑不同区域的电活动,显示出如下结果:34 34
脑电图可以揭示有关医疗问题的信息,如癫痫症等。与fMRI不同,EEG从脑中获取电信号具有相当好的时间解析度,——尽管头骨大大地模糊了时间精度(骨骼是坏导体)。
主要缺点是空间解析度。每个电极仅记录来自数百万或数十亿神经元电荷的广泛平均矢量和。
想象一下,大脑是一个棒球场,它的神经元是人群。我们想要的信息,不是电子活动,而是声带活动。在这种情况下,脑电图就像一组麦克风,放在体育场外面,靠在体育馆的外墙上。你可以听到人群的欢呼声,也许可以预测他们正在欢呼的事情。你可以听到指示牌变化的迹象。你可能会发现一些异常。但也就这样了。
除了以上两种大家比较熟悉的以外,又有ECoG、LocalField Potential、Single-UnitRecording等等工具。
6、Neuralink Formula:全脑接口与神经织网
我曾经写过马斯克的另外两家公司——Tesla 和 SpaceX——因此我觉得我挺了解他的公司的模式。如下图这样:
马斯克对一家新公司的初步想法总是从右边开始,但公司工作的方式是从左边开始的。他认为,某些特定的变化将增加人类的未来向最好的方向发展的可能性。
所以当马斯克成立一家新公司时,其核心的最初策略通常是造成一场能够引发行业竞争,让人类共同推进这个事业的竞赛。反过来,马斯克也认为这将促进人类的未来向最好的方向发展。但是,你必须从微观的角度看他的公司,才能看到这些。否则,你可能注意不到他们在做的事情。
我在写 Tesla 和 SpaceX 的文章时,我问马斯克为什么他搞起了工程,而不是做科学研究。他解释说,在涉及到人类进步的问题上,“工程是一个限制因素”。换句话说,科学的进步,商业,以及工业等等的进步,全都是工程进步所带来的。回溯历史,也是这样,人类历史上最伟大的革命是工程上的突破。
所以,要理解马斯克的公司,你需要了解他想要创造的竞赛,下图是包含变量的马斯克公司的图解:
对于特斯拉和 SpaceX 来说,这个图应该是下面这样的:
因此,在我试图弄清楚 Neuralink 的机制时,我需要把那些变量填上去。最初,我对这家公司只有非常模糊的认识,即其中的一个变量(GOAL)——该公司的目标是“加速全面脑机接口(whole-brain interface)时代的到来”,我把这画成一顶精灵帽子。
就我的理解,全脑接口是一个理想世界里脑机接口的形式,这是一个超前的概念,其中大脑的所有神经元都能够与外部世界进行无缝通信。这来源于 Iain Banks 的科幻小说《文明》系列中描绘的“神经织网”(neural lace)的概念——一个无缝、稳定、可以直接与大脑通信的全脑接口。
7、人类只有一个选择:成为 AI
亚伯拉罕·林肯想出下面这句话的时候很自得:“这个民有、民治、民享的政府永世长存。”自得也有道理,确实是金句。“民有、民治、民享“这一理念就是民主的核心。不幸的是,人民不满意,所以民主也落得不讨好。但比起其他选项,民主也算得上奋斗的目标。
Elon 如此说到:“我认为对集体的保护是重要的,丘吉尔曾说:‘民主制度是除去其他所有最糟的制度之外最糟的制度。’当然,如果我们拥有柏拉图提出的那种哲学家和国王合一的统治者,那就没什么问题了。但实际情况是,今日的当权者都糟糕得很。
换句话说,民主就相当于藏在下水道里躲避怪兽。
很多情况下,铤而走险以争取最好的结果不失为好的策略,但是当赌注过高时,还是谨慎行事为妙。权利也是如此。这就是为什么,尽管民主不出意外会导致平庸,但Elon认为,“尽管美国公众对总统有这样那样的意见,基本不会有人会鼓吹集权。”Elon视 AI 为终极的权利,因而也认为AI的发展尤其需要采取谨慎的态度。他所持的,最大程度降低AI对人类威胁的策略基本就等于使AI实现民有、民治、民享的理念。
为了在AI领域推行这一理念,Elon从不同角度做出了多种努力。
在“民治”和“民享”的部分,他和Sam Altman创立了OpenAI,自述为“一家非营利性的AI研究企业,致力于研发和制定实现安全的通用人工智能的路径”。
通常情况下,当人类创造新事物时,总是由一些具有创新意识的先行者引领。尝试成功后,随着一个产业的诞生,那些企业的巨鳄会参与进来并将先行者的努力全面发展壮大。
但是,如果那些先行者制造的是一根魔杖,这根魔杖会赋予掌握它的人无上的,坚不可摧的,凌驾于所有人之上的权利,甚至阻止任何其他人再制造魔杖的权利。这就有点儿棘手了,对吗?
Elon眼中今日AI发展的方向就是上面这种情形。既然无法阻止人类创造魔杖,他的解决方案就是创造一个开放、合作、透明的魔杖研发实验室。每当这个实验室中产生了新的研究突破,不同于其他会将此视为秘密严守的公司,他们会将这一突破公布给所有人去了解,或借鉴用于各自的研发。
一方面来讲,这么做也是有明显的缺点。邪恶势力也在努力制造魔杖,谁也不想第一根魔杖是从他们手中诞生。如今,坏人们的研究也能从这一实验室的创新成就中获益。着实令人担忧。
但是这一实验室也促进了成千上万其他人的研究,并对早期的小部分先驱者形成了巨大的竞争。一些人大幅先于其他人制造出魔杖已无可能。比较可能出现的情况是,当第一根真正意义上的魔杖最终被制造出来时,已经有成千上万类似的成品同时存在,即具备不同能力,被不同的人所创造,多种用途的其他魔杖。
如果地球上要诞生魔杖,Elon认为,至少让它掌握在全球的大部分人而非一位握有极权的魔法师手中。他自己这样表述:如果每个人都来自氪星球,那没什么问题了。但是如果只有一个超人,而这个超人还希特勒附体,麻烦就大了。更糟的情况是,某一位先行者的魔杖很可能是基于他满足自身的需求创造的。如若将未来的魔杖产业发展为集体智慧的结果,多种多样的需求和目的都应该有对应的魔杖去满足。应该使得全世界魔杖的能力都是首先反映了大众的需求。
OpenAI就是为实现AI创造民主化所做的努力,目的是使得所有的产业巨头在AI的发展初期都致力于对民主化的研究。Elon总结道:AI必将大幅超越人类的能力。为了让它的存在与人类,尤其是绝大多数人类共同的意愿相连接,它应该是基于大多数人意愿产生的结果,因为它将服务于这些人的意愿。(投黑马www.touheima.com专注于文创领域的服务平台)至此,我们就实现了人类同等水平或高于人类AI的民治和民享,降低了AI落入单一邪恶势力或垄断势力之手的风险。
剩下的就是“民有”部分。
这部分解决起来应该比较容易。别忘了那些产业巨头正在基于他们制造汽车、大型机械和计算机的同一个目的——创造超级智能AI,即拓展他们的疆域,并将其中将产生的工作外包。汽车是代步工具,大型机械是制造工具,而计算机解决了信息存储、管理及计算的问题。具有思考能力的计算机将是伟大的创造,它能使得人类将最重要及最高强度的工作实现外包。人类的一切都构建与思考之上,想象一下制造一个人类思考能力延伸的超级智能所将带来的巨大能量吧。而人类的延伸从定义上讲也属于人类,即“民有”。
只有一个问题:具有超级能力的AI不同于其他发明。其他的技术都擅长于它们自身的制造用途,但总的来说,它们仅仅是些具有非常有限智能的无意识的机器。但我们现在试图制造的AI将像人类一样聪明,且超级聪明。同样的规则怎么还可能适用?
人类自己创造的技术当然是属于人类的,这一观点如此显而易见,说出来都显得有点儿傻。但是如果我们创造了比我们自己还聪明的事物,它还能那么容易被控制吗?
有没有这种可能,一个被创造出来的事物,其智能高于任何人类,将不满足于仅作为人类的附庸而存在,即便它被制造的目的如此?
我们无法预知实现的场景,但保险的做法是现在承认,是的,这些可能性是存在的。一旦担心变为现实,我们的麻烦就大了。
人类发展的历史表明,地球上一旦出现智能远高于其他物种的物种,它必将对其他所有物种构成威胁。如果AI变成了这样一个最高智能物种,而它又不属于人类,它具有自我意识,那我们人类就被归入“其他所有物种”的类别了。
因而垄断AI就是问题所在,OpenAI就致力于解决这一问题。但与之相比,更严峻的问题在于防范AI失控。
Elon为此辗转反侧。在他看来,超级智能AI的崛起只是时间问题,在那一天到来之前,人类务必要避免自己不落入“其他所有物种”的境地。在AI与其他所有物种共存的未来,在他看来,人类只有一个选择,就是:
成为AI。
Elon将人类大脑数字三生细胞壁(tertiary layer)比喻为巫师帽。概念是指全脑界面将变为如同将设备植入大脑,使大脑变为设备。
8、AI 系统将和大脑融合无间
你的设备赋予你半机器人的超级能力,并作为通往数字世界的窗口。巫师帽的电极阵列是一种新的大脑结构,与大脑边缘系统及大脑皮质并列。(对于大脑边缘系统、大脑皮质等基本结构的介绍,请见后文——编者)
但大脑边缘系统、大脑皮层质及巫师帽仅仅是硬件系统。当边缘系统在工作时,与你交互的并不是该物理系统,而是其间的信息流。这是一种物理系统内部的活动反映在意识中,使你感受到愤怒、恐惧、饥渴或饥饿。
大脑皮质是同样道理。包裹着你大脑的物质存储并管理信息,但是当你思考、观察、聆听或感受的时候,你体验到的是信息本身。视觉皮层本身对你来说没有任何作用,是其间的光子信息流给你带来一个视觉皮质的体验。当你挖掘你的记忆时,你不是在寻找神经元,而是在搜索存储在神经元的信息。
大脑边缘系统和皮质只是大脑灰质。是灰质间的活动流形成了你熟悉的内在特性,动物本能的大脑和人类理性的大脑。那么这对数字三生细胞壁又意味着什么呢?这意味着尽管大脑中存在的是物理设备,但是电极阵列本身,即你将体验及了解的三生细胞壁的组成部分,正是阵列间流动的信息。
正如边缘系统产生的感受及欲望以及大脑皮质产生的思想和低语在你感受来都如同你的一部分,你的内在,在巫师帽中发生的一切活动也将带来同样的感受。
Elon对于 Wizard Era 的展望只是巫师帽应用之一,其中一个核心的目的为将其作为大脑及基于云端的定制AI系统之间的交互界面。他相信这一AI系统将以和你的动物本能大脑和人类理性大脑同样的特性存在。
他这样讲:可以想象,是可能有种方式使得三生细胞壁令人感受到它是人的一部分。它不是卸载的对象,它就是你。
写下来看着挺有道理。你用大脑皮质完成大多数思考,但是当你饿了,你不会说“我的边缘系统饿了”,而是“我饿了”。同理,Elon认为,当你解决问题时,AI给出解决方案,你不会说:“我的AI想到了!”,而会说:“我想到了!”当你的边缘系统想偷懒,而你的大脑皮质想工作时(我经常有此经历),你感觉并不是在跟某些外部力量斗争,而是你自己想严格要求自己。同理,当你采取了某些策略,而你的AI反对时,真实的意见相左和争论就会发生了,但这感受起来也是一种自我的内心斗争,而不是在与你思考中产生的另一方在争论。这种争论感觉上和思考一样。
总之写下来看着确实挺有道理的。
但我最初听到Elon谈论这一概念时,总觉得不大对。不论怎么努力尝试理解,我总是忍不住用我比较熟悉的概念去套用,例如这就类似我脑中可以听到它说话,或者甚至可以一起思考的一个AI系统。在这些场景中,这个AI看上去还是一个与我交流的外部系统,并不像我。
之后有一天晚上,当我在重读Elon之前的一些论述时,我顿悟了。AI可以成为我,完完全全地。我明白了。
但之后我又搞不明白了。第二天当我试图向另外一个朋友解释我的顿悟时,我把我俩都搞晕了。我又回到持有“等等,这个AI不可能真的成为我,它还将是在和我交流“这种想法的境地。自那之后,我的想法反反复复,无一善终。这种状态就类似有那么一个瞬间,时间变成相对的,时空只是单一一层。似乎有那么一瞬有种直觉,时间变慢而你变得很快。然后我又迷失了。我在写下上述几句的时候,直觉又不存在了。
成为AI最难的一点在于它结合了两个无意识的概念:大脑界面和大脑界面可以赋予你的能力与通用人工智能。今天的人类还不具备理解其中任一项的知识。无论我们自认为想象力多丰富,我们的想象力仅仅是基于我们的生存经验,而上述概念对我们来说是全新的。这就如同尝试去想象一种从没见过的颜色。
这就是为什么当Elon谈论他的信念时,我在信服和盲从之间徘徊。不过考虑到他在七岁时就已经理解时空观,且懂得如何殖民火星,我倾向于多听听他怎么说。
9、带宽是脑机融合的关键
他谈到的是这一切都跟带宽有关。很显然,如果想让巫师帽能发挥作用,带宽意义重大。但Elon认为,如果要成为AI而不是使用AI,与AI连接时,带宽不是可供选择的,而是必备的。
他是这样考虑的:通信带宽速度非常慢,尤其在输出时,这是挑战所在。当你使用手机输出信息时,你两根拇指移动的速度非常之慢。如果带宽过低,与AI的互动程度就会非常之弱。基于低带宽的限制,这种互动基本是无意义的。AI基本就会我行我素,因为速度太慢没有沟通可言。沟通速度越快,融合程度越高,沟通速度越慢,融合程度越低。我们与AI分离程度越高,AI越偏离我们,最终倒戈相击的可能性就越大。如果AI与我们越来越疏离,智能水平又远高于我们,如何能确保他们不生成与人类利益背道而驰的优化机制?但是如果我们能实现一种紧密的共生关系,AI 就不是“非我”,而是我们自己的一部分,并将与我们形成类似皮质与大脑皮质和边缘系统之间关系近似的关系。
Elon 视通信带宽为决定人机融合程度的关键因素,同时将人机融合程度视为我们未来在AI世界中生存的关键因素:我们或者被远远抛在身后,全无用处,被当做宠物(如家猫)对待;或者最终找到某种与AI共生及融合的方式。之后他补充道:能被当做家猫还是算是不错的结局呢。
在完全无法想象未来充斥着 AI 的世界是什么样子的前提下,在超级智能时代到来之前,通过人机融合实现对人类物种的保护听起来挺靠谱。AI 时代人类可能会受到的威胁将来自于利用 AI 作恶的人类以及与人类利益相悖的AI。当绝大多数人类都能控制一部分AI,与AI共同思考,利用AI自我防御,或通过与AI融合,进而基本上能完全理解AI的想法,人类就处于不那么危险的境地了。
人类会变得从未有过的强大,也是很恐怖的一件事,但是如 Elon 所讲,如果人人都是超人,单个人就很难造成大面积伤害,会有很多限制和平衡加以制约。人类也因此不太可能对AI整体完全失控,因为AI将以多种目的广泛存在。
但时间是关键,Elon强调,向这一方向努力的进度至关重要。数字超级智能的发展程度不应该超过脑机融合界面实现程度太多。
我在考虑上述问题时,顾虑在于人类的全脑界面是否足以支撑这种人机融合的实现。我向Elon提出了这一顾虑,并指出人脑思考的速度和计算机的处理速度之间仍然存在着巨大的差距。
他答道:是的,但是根据数量级顺序增加带宽会改善这一情况。方向也是正确的。能解决所有问题吗?不能。但是方向对吗?是对的。如果一定要向一个方向走,为什么不选择这一个?
这就是Elon设立Neuralink的初衷。
来源介绍:
本文为科技作家Tim Urban在WaitButWhy上发表的长文,由新智元(ID:AI_era)编译,熊笑、刘小芹翻译。原文地址:http://dwz.cn/69w5OK
自从电脑、手机成为必备工具之后,很多人都有个小毛病——提笔忘字。平时人们几乎不手写了,都是在电脑、手机上用拼音打字,虽然每个字都认识,但写的时候就不知道怎么写了。还有就是,记忆力的考验也不如之前强了。不记得什么了,直接上网一查就可以,或者自己建个备忘录,随时备查。随着人工智能、科技的发展,调取资料更为方便,人在记忆是否会产生惰性。事物的发展是有好的一面,也有不好的一面,但是从历史经验来看,似乎好的一面是比较大的。孩子们在人工智能时代成长,周围都是智能设备,这些东西是提升了孩子获取知识的效率,以此促进了孩子的大脑发展。但是还有那么些东西更需要孩子去学习、去锻炼,因为智能设备还是需要人去发指令。一、判断能力现如今的信息量如此大,每个人每天都被各种信息包围,这些信息有大多是和自身没有关系的。不仅没有关系,还有很多信息时没有任何用处的、错误的,这些只会扰乱人的思维、生活。孩子必须学会筛选出哪些信息时有效的、和自身有关的,并判断这些信息是否是正确的,尤其是知识类、数据类。二、英语的学习这时的学习不是为了考试,而是为了应用。不管ChatGPT还是AI绘画都是从英语开始的,当然以后的发展我们国内也会也越来越强,但是现在还是要把英语学好。学习一门语言,并不仅是学了一门语言,重要的是通过它看到了什么。会上一门两门的外语,在以后的时代都是很有必要的。三、人际交往能力不管到何时,人还是要与人相处的,太多情感都是来自与人交往。虽然与人交往不可避免的受伤,但孤独也会损害人类的健康。在人与人交往中,感受到爱、友谊、温暖。AI只是被动的东西,最终人还是要与人交流、沟通。四、锻炼身体身体健康是保证我们进行正常生活的基本,如今人们看手机、看电脑,缺少运动,也带来了不少身体的毛病。什么颈椎病、腱鞘炎、肥胖、体虚……平时做一些运动,注意一下饮食健康,都会对我们的健康大有益处。越健康越快乐,活得越久,见得越多。五、逻辑思维能力这个的重要性不言而喻,在智能时代更需要逻辑思维能力。最后,人工智能时代,人的隐私变得不那么隐私了,所以关注安全也是很重要的一方面。AI在一定程度上让人的孩子的成长变得轻松,但也带来不少新的问题。将来,智能机器人会替代很多工作,孩子们长大后的竞争应该会更加激烈吧。锻炼好基本的能力,至少能让孩子对人生还有掌控感。@知乎亲子 感谢各位的回答。搞教育的人总是如此说:让今天的孩子们准备好迎接非凡的未来。而在今天,人工智能的浪潮正如同潮水一般涌来。毫无疑问地,这个世界,10年、20年、30年后会有很大的不同。作为教育者或者父母,你真的会知道孩子将来从事什么职业,或真能做好那份工作吗?事情的真相是,你并不知道。可以说,对父母来讲,他们眼下最忧虑的是,他们还能不能教育出一个在人工智能时代生存的孩子。当人工智能冲击教育模式、考试标准,培养孩子的哪些技能才是核心竞争力?AI 时代读书还能改变命运吗?我们在近期提出了上述问题。截至目前,我们也收到了不少答主对于人工智能时代,“人”应如何发展以及“人”的价值的思考,我们摘取了一些答主的回答,让我们来看看他们怎么说:@泡沫 :判断能力、英语的学习、人际交往能力、锻炼身体、逻辑思维能力以判断能力为例:现如今的信息量如此大,每个人每天都被各种信息包围,这些信息有大多是和自身没有关系的。不仅没有关系,还有很多信息时没有任何用处的、错误的,这些只会扰乱人的思维、生活。孩子必须学会筛选出哪些信息时有效的、和自身有关的,并判断这些信息是否是正确的,尤其是知识类、数据类@查理甲 :自信心、创造力ChatGPT很厉害,未来肯定还有更强大的智能系统,但是他们都是人发明创造的,这类人会走在时代的前沿、不会被淘汰。哪怕创造不出跨时代产品,及时学习运用它们,应用到生活中,这类人也会跟上时代的步伐,不会被淘汰。@洪权 :人工智能,目前只是算法,不是真正智能人工智能,目前只是算法,不是真正智能。最多作用就是搜索引擎和节省过程。而人的核心是智慧。是创造力。一点都帮不上什么。关键是,人的教育核心是心理健康。目前,对心理健康任何院校研究所都是空白。所以,不会改变什么。最多,就是工具多了而已。@Yuhang Liu :AI或进一步加剧贫富差距和教育不均衡灌输解题套路型的教育将毫无意义,但是又找不到廉价的替代品。优质教育是昂贵的,因为优质教师本身是稀缺的——比如我现在在的这个城市,为什么家长们不愿意把自己的小孩送进所谓的“菜小”?大量的低附加值工作岗位被替代,但是高附加值的工作岗位,普通平民很难找到进入其中的途径。@NeaChat :保持热爱和喜欢学习的习惯文明发展了几千年,读书自科举开始都是改变普通人命运最好且成本最低的方式。保持热爱和喜欢学习的习惯才能有机会去谈孩子所谓的竞争力。机会来临时,你要有足够的基础才能去迎接它。

我要回帖

更多关于 小谷智能机器人 的文章