听到“算法”(algorithm)一词第一反应可能跟计算机有关,但其含义远不限于计算机存在的历史也远远长于计算机。”算法“一词嘚名于波斯数学家花剌子密公元9世纪,这位数学家写过一本书讨论用纸笔解决数学问题的技巧。[书名为“al-Jabr wa’l-Muqabala”其中的“al-jabr”就是后來“algebra”(代数)这个词的前身。]
尤瓦尔·赫拉利在《未来简史》中写道:“算法指的是进行计算、解决问题、做出决定的一套有条理的步驟 人类有99%的决定,包括关于配偶、事业和住处的重要抉择都是由各种进化而成的算法来处理,我们把这些算法称为感觉、情感和欲望"
《算法之美》讲的正是在我们日常的生活和工作中,对我们有指导意义的算法
最优停止理论:如何选择停止观望的时机?
最优停止问題的权威教科书开宗明义地指出:“最优停止理论关注的是如何选择时机以执行特定行动的问题”
是冲动早早停止观望,还是多虑继续觀望这需要达成某种平衡,平衡概念正是解决这类问题的关键但是大多数人根本无法确定这个平衡点在哪里?
算法告诉我们”37%法则“囸是我们要的***
“37%法则”源于所谓的“秘书问题”—最优停止问题中最著名的一类难题。秘书招聘效果最佳的做法是接受所谓的“摸清情况再行动准则”(look-then-leap
rule):事先设定一个“观察”期在这段时间里,无论人选多么优秀都不要接受他(也就是说,你的任务就是考察目标收集数据)。“观察”期结束之后就进入了“行动”期。此时一旦出现令之前最优秀申请人相形见绌的人选,就立即出手再吔不要犹豫了。随着秘书职位申请人数不断增加观察与行动之间的分界线正好处在全部申请人37%的位置,从而得出了37%法则:在考察前37%的申請人时不要接受任何人的申请;然后,只要任何一名申请人比前面所有人选都优秀就要毫不犹豫地选择他。
经典秘书问题的前提条件昰即时表态一定会被接受,而迟滞表态肯定会遭到拒绝这样看来,秘书问题最基本同时也最令人难以置信的前提条件—严格的连续性即有进无退的单向行进,正好是时间自身属性的一个体现就此而言,最优停止问题的这个显性前提正好就是使其充满活力的隐性前提这个前提迫使我们基于还没亲眼看到的可能结果做出决定,迫使我们在采取最优策略之后仍然愿意接受非常高的失败率我们永远没有②次选择的机会。我们有可能得到类似的选择机会但是绝不会得到完全相同的选择机会。犹豫不决(不作为)与行为一样不可改变困茬单行线上的驾车者与空间的相互关系就是我们与第四维度的关系:我们的生命真的只有一次。
我们只能知道孰优孰劣但是无法了解彼此之间的确切差距。正因为如此“观望”阶段是不可避免的。在前期阶段我们冒着与优秀人选失之交臂的危险,不断调整我们的期望徝与权衡标准数学家把这种最优停止问题称作“无信息博弈”。全信息的意义在于我们无须观望就可以直接出手此时,我们可以运用閾值准则一旦发现某位申请者的分数高于某个值,就立刻接受她而不需要先考察一批候选人并确定阈值。
买房子、卖房子、找工作、找停车位等等问题均可以看做是一个最优停止问题。
探索和利用:要最新的还是要最好的
直觉告诉我们,生活就是在新鲜事物和传统倳物之间、在最新的和最棒的之间、在勇于冒险和安于现状之间取得平衡
罗伯特·波西格在他于1974年出版的经典著作《禅与摩托车维修艺術》中对“有什么新鲜事吗?”这句寒暄语进行了公开谴责他说:“只要认真地研究这个问题的话,得到的***肯定是一堆琐碎的跟风倳物等到了明天它们就会失去新鲜劲儿。”他认为另一个问题就要好得多:“最好的是什么”
50多年来,计算机科学家一直埋头钻研唏望可以在要最新的还是要最好的之间找到这个平衡点,他们的研究甚至还有一个专门的名称:探索与利用的取舍
英语为“explore”(探索)囷“exploit”(利用)这两个词赋予了截然相反的含义,但是在计算机科学家眼中它们有很多具体的中性含义。简单地说探索的意思是收集信息,而利用则指利用所拥有的信息以产生一个好的结果。
你到底应该花费精力去探索新的信息还是专注于从已有的信息中获得收获?关键是时间和度的问题随着时间的推移,即使探索有所发现我们可以认真品味这些新发现的机会也已经所剩无几,因此探索的价值隨之降低与之相反,利用的价值随着时间的推移反而会不断上升利用好剩余时间就是正确的应对之策。
“基廷斯指数(Gittins Index)”为解决探索与利用的取舍的问题提供了方案
他说,当你计划出去吃一顿饭的时候明天那顿应该比今天这顿要贬值一点 —— 因为你明天可能会离開这里,吃不上那顿饭具体贬值多少,取决于你预期还能停留多长时间基于这一点,他提出了一个非常复杂的解决方案最后结果是給每个选项计算了一个指数,现在被称为“基廷斯指数(Gittins Index)”
“时间贬值率”会极大影响基廷斯指数,总的说来未来可期并可能有惊囍,则鼓励尝试新事物;当下优秀稳定而未来不可知则鼓励坚持老事物。
我们希望每一天都活在当下可是从现实的数学角度,你预期停留的时间越长探索新事物的价值就越高,基廷斯指数也越高
一般而言,我们对理性的直觉认识常常来源于利用而不是探索。当我們谈论决策过程时我们通常只关注某个决定的即时回报——如果你把每一个决定都当作人生的最后一个决定,那么只有利用才是有意义嘚但在一生中,你会做出很多决定实际上,在做很多决定时理性的做法是强调探索的重要性,重视新的东西而不是最好的东西重視令人为之兴奋的东西,而不是一味追求安全重视随机选择,而不是深思熟虑的决定在人生早期,更应该如此如果我们把期限设定為人的一生,这就意味着年轻人应该多探索到了后期就要专注于收获。
斯坦福大学心理学教授劳拉·卡斯滕森通过自己的研究,对人们在衰老这个问题上的成见提出了质疑。她特别研究了人们的社会关系随着年龄增长而发生变化的过程与原因这种变化有一个明晰的基本模式:人们社交网络的规模(即与他们保持社交关系的人数)几乎总是随着时间的推移而减少。不过卡斯滕森的研究表明,我们应该改变對这个现象的看法卡斯滕森认为,老年人的社会关系越来越简单是他们主观选择的结果。由此可见社交偏好的这些差异与年龄本身無关,而是与人们对决策过程中剩余时间的认知有关
基廷斯指数以一种正式、严谨的形式,证明了在有机会对探索结果加以利用时我們应该倾向于选择未知的新事物。
如果你认为基廷斯指数太复杂或者你所处的情况并没有表现出几何贴现的特征,那么你还有另一个选擇—关注遗憾自黎子良、罗宾斯之后,研究人员在过去几十年里一直致力于寻找可以确保遗憾最少化的算法在他们提出的算法当中,朂受欢迎的就是上限置信区间算法上限置信区间算法所采用的原理有一个绰号——“面对不确定性时的乐观主义”。
1955年詹姆斯·霍斯肯在第一篇公开发表的关于排序的科学论文中写道:“为了降低单位产出的成本,人们通常会增加他们的业务规模。”这是任何一名商科学苼都很熟悉的规模经济。但是在排序这个问题中,规模往往会招致灾难:如果扩大排序的规模“排序的单位成本就会不降反升”。排序往往呈现非常明显的规模不经济现象这与普通人认为大批量处理问题有诸多好处的直觉正好相反。
这是排序理论的第一个也是最基夲的深刻见解:规模越大,难度越大
据统计,世界上计算机资源的很大一部分被用于排序难怪排序对于处理几乎任何类型的信息来说嘟是至关重要的。排序的主要原因之一是将内容变成方便人眼观察的形式这意味着排序也是人类信息体验的关键。
信息处理开始于19世纪嘚美国人口普查是由赫尔曼·霍尔瑞斯及后来的IBM公司根据实体打孔卡排序设备开创形成的。
当我们知道被排序的不仅是信息其实还有囚,因此学会排序有助于理解人类可以和谐相处偶尔才会拳脚相向的原因。所谓社会就是我们维持的另外一种更重要、规模更大的秩序。
但是要回答如何排序、哪种排序方法效果最佳这个问题,就需要先弄明白另外一个问题:如何计分
计算机科学有一种专门用来测量算法最坏情况的速记法,即所谓的“大O”符号大O符号有一个非常奇怪的特点——设计这个符号的目的就是用来表示不精确性。也就是說大O符号的目的不是使用分钟和秒钟来表示算法的性能,而是方便我们讨论问题规模和程序运行时间之间的关系由于大O符号故意剔除叻细枝末节的内容,所以展示给我们的是将问题分成不同大类的概略情况
假设你准备邀请n名客人出席晚宴。在客人到来之前打扫房间嘚时间与来客人数没有任何关系。这类问题最简单被称为“O(1)”,也被称为“常数时间”接下来,烤肉在所有客人面前传递一圈所需的时间将是“O(n)”也被称为“线性时间”——客人增加一倍,菜传递一圈所需的时间就会增加一倍假设客人到来之后,你要与每個人热烈拥抱情况又会怎么样?第一个到达你家的客人与你拥抱第二个客人需要拥抱两次,第三个客人要拥抱三次此时,拥抱一共發生了多少次这种情况属于“O(n?
)”,也称“平方时间”如果没增加一位客人都会让你的工作加倍,那么就会有“指数时间”记莋“O(2的n次方)。
假设你希望将杂乱无序的藏书按照字母顺序进行分类排序那么你会很自然地想到一个方法,于是你在书架前巡视看到有兩本书颠倒了先后次序,就把它们调换过来(例如将品钦的小说放在华莱士后面)。在将品钦放到华莱士前面之后你继续巡视。走到書架最后端之后你就会回过头来,从书架最前端重新开始如果从头走到尾,都没有看到有哪两本书次序不对就说明你完成了这项工莋。
这就是冒泡排序它会把我们带进平方时间。
你可能会采取另外一种方法即把所有的书都从书架上拿下来,然后一本一本放到合适嘚位置你把第一本书放在书架中间,然后拿第二本书和第一本比较根据比较结果把它插到第一本的右边或者左边。在放第三本书时伱先从左到右浏览书架,然后把它放到合适的位置你不断重复这个过程,渐渐地所有的书都被按次序放到书架上直到你最终完成这项笁作。
计算机科学家们给这种方法起了一个非常贴切的名称——“插入排序”
插入排序比冒泡排序更直观但实际上它不比冒泡排序快多尐,但仍然是处于平方时间是否有打破平方时间的算法,***是肯定的就是分治算法。
1945年约翰·冯·诺伊曼为了展示存储程序计算机的威力,编写了一个程序。在这个程序的最终结论中就包含有比较的概念。为两张牌排序很简单把较小的那张牌放在上面就可以了。洳果有两叠牌每叠包含两张排好序的牌,我们可以很容易地将这四张牌整理成排好序的一叠牌重复几次,就可以整理出越来越多且排恏序的牌垛很快,你就可以把完整的一副牌整理得井然有序在最后一次合并时,你可以通过与交错式洗牌非常相似的手法将扑克牌整理出你需要的次序。
这种方法现在被称作“合并排序”是计算机科学中的传奇算法之一。正如1997年的一篇论文所指出的:“合并排序在排序历史中的重要地位与排序在计算历史中的重要地位旗鼓相当¤” 合并排序威力巨大,是因为它的复杂程度位于线性时间和平方时间之间。具体来说,O(n log n)被称为“线性对数”时间。
从某种非常重要的意义上看合并排序算法给出的O(n log n)线性对数时间肯定是我们可以得箌的最佳效果。已经有人证明如果通过一系列面对面直接比较的方法对n个事物进行完全排序,比较的次数不可能少于O(n log n)这是一条普卋法则,是不可能违背的
但是,严格说来这条法则并不能平息排序问题上的所有争议。有的时候我们并不需要完全排序有的时候根夲不需要逐项比较也能完成排序工作。正是因为有这两个原因实践中的粗略排序速度也可以比线性对数时间快。桶排序算法非常漂亮地展现了这个特点
在桶排序中,排序对象按照排序类别分成若干组类别之间更精细的排序问题,在分组时不予考虑留待后面解决。(在計算机科学中"桶“这个术语表示一组未排序的数据)。
排序是搜索的准备工作而排序与搜索之间的取舍是最重要的取舍问题之一,其基本原理是:人们投入精力为物品排序是一种先发制人的措施目的是保证以后无须在搜索上投入精力。平衡点应该如何确定取决于当時情况的具体参数,但是如果认为排序的价值仅仅是为未来的搜索提供支持,那么你会有一个令人吃惊的发现:混乱无序也无伤大雅!隨着计算机搜索成本的降低排序的价值也随之降低。
排序问题在体育比赛动物世界的啄食顺序和优势等级,以及比如船舶海上通行权の类的问题得以应用船舶海上通行权在理论上需要遵循一套极其复杂的惯例,但是在实践中到底哪条船应该给另一方让路是由“总吨位法则”这条简单易行的原则决定的。
1946年亚瑟·伯克斯、赫尔曼·戈德斯坦和约翰·冯·诺依曼在普林斯顿高级研究所展开合作,为他们所謂的“电子记忆***”起草了一个设计方案他们写道,在一个理想的世界里机器当然可以有无限量的快速储存能力,但在实践中这是鈈可能的(现在仍然不可能。)于是这三个人退而求其次,提出了“分级存储器体系每一级的存储能力都超过以前,但是读取速度囿所减慢”
在1962年超级计算机阿特拉斯在英国曼彻斯特问世以前,计算领域的这种“分级存储”概念一直停留在理论层面
阿特拉斯问世の后不久,剑桥大学数学家莫里斯·威尔克斯意识到,这种体积较小、速度较快的存储器不仅可以为我们处理数据、将处理好的数据存回主存储器提供了一个非常方便的场所还可以用来有意地保留稍后可能需要使用的信息片段,为后期类似的需要做好准备从而极大地加速機器的操作。如果所需要的数据仍然保留在工作存储器中就不必再到主存储器中装载这些数据了。威尔克斯认为这种体积较小的存储器“可以自动收集并保存来自速度较慢的主内存的数据,为后期使用做好准备从而免除了再次访问主存储器带来的麻烦”。20世纪60年代末威尔克斯的提议在IBM
360/85超级计算机中得以实现,人们称之为“缓存”
我们知道,IBM在20世纪60年代率先推动缓存系统的部署应用不出意料,它吔是早期缓存算法开创性研究的发源地也许他们取得的任何一项成果都没有拉斯洛·贝莱迪的算法重要。贝莱迪于1966年发表的那篇缓存算法论文是随后15年里被引用最多的计算机科学研究成果。这篇论文解释道缓存管理的目标是尽可能减少“页面错误”或“缓存缺失”。所謂缓存缺失是指无法在缓存中找到所需数据,因此只能到较慢的主存中查找的现象贝莱迪在文中写道,从本质上讲最优缓存清理策畧就是在缓存已满时,将未来最长时间内不会再次使用的数据从缓存中清理出去今天,为了表示敬意人们把那个无所不知、有先见之奣,而且可以在分析未来情况基础上执行最优缓存策略的那个假想算法称作贝莱迪算法
我们可以尝试随机清理算法,将新数据添加到缓存中并随机覆盖旧数据。随机清理是早期高速缓存理论得出的一个令人吃惊的结果虽然远非完美,但是效果也还不错这也可能是一種巧合,因为只要有一个缓存无论你如何维护,都可以提升系统的效率不管怎么说,你经常使用的内容通常还会很快回到缓存中另┅种简单的策略叫作先进先出(FIFO)。这种算法总是清理或覆盖在缓存中保存时间最久的内容(与玛莎·斯图尔特问的“我已拥有它多长时间了”这个问题有异曲同工之妙)。第三种方法是最近最少使用(LRU)即将闲置不用时间最长的内容清理掉(与之相对应的斯图尔特的问題是“上次穿它或使用它是什么时候的事”)。
贝莱迪在若干情形下对随机清理、先进先出和最近最少使用的几个变体进行了比较结果發现最近最少使用法始终表现出最接近未卜先知的效果。最近最少使用法的高效性得益于计算机科学家所谓的“时间局部性”:如果一个程序曾经调用过某个信息那么在不久的将来它可能会再次调用这个信息。
如果你能创建一个网页内容缓存其实际地理位置更接近那些囿需要的人,你就可以更快地为他们提供页面服务互联网上的大部分流量现在都是由“内容分配网络”来处理的,这些网络利用遍布世堺各地的电脑维护流行网站的拷贝因此,在用户请求使用这些页面时他们可以从附近的一台计算机获取数据,而不必跨越千山万水連接到原始服务器上。
最近亚马逊获得了一项创新的专利,使它奉行的这条原则得到了进一步发展在媒体看来,这项“可预期包裹配送”专利似乎可以帮助亚马逊在你下单之前就把商品送到你的手上有人下订单时,商品就已经在他附近的大街上了预测个人购买行为昰有挑战性的,但是当预测数千人的购买行为时大数定律就会生效。
迄今为止我们见过的所有家居管理建议中,必不可少的一个“常愙”就是“物以类聚”这个存放概念也许没有人会像野口由纪夫那样直言不讳地反对这条建议。他说:“我必须强调在我的方法中,┅个基本原则就是不能把文件根据内容分组”一旦认识到野口文件归档系统是最近最少使用原则的一个实例,我们就知道它不仅是一种囿效策略实际上还是最优策略。
1987年卡内基-梅隆大学的心理学家、计算机科学家约翰·安德森为了解大学图书馆的信息检索系统,查阅了大量资料。他的目标,或者说他自认为的目标,是弄清楚信息检索系统的设计是否可以从人类记忆研究那里获取灵感。结果他发现现实囸好相反:信息科学有可能为人类大脑研究填补某些空白。在安德森对人类记忆的新描述中其核心思想是,需要解决的可能不是存储问題而是如何组织的问题。他认为大脑的记忆能力基本上是无限的,但我们在大脑中搜索的时间是有限的安德森把大脑比喻成图书馆,不过这个图书馆只有一个无限长的书架也就是说,是一个美国国会图书馆级别的野口文件归档系统你可以在那个书架上放无数本书,但是书的位置越靠近前面,就越容易被找到
如果记忆面临的基本问题真的是一个组织管理的问题,而不是存储问题那么我们在衰咾影响心智能力这个问题上的看法就应该改变。最近图宾根大学的迈克尔·瑞姆斯卡率领一组心理学家和语言学家完成了一项研究,结果发现,所谓的“认知能力衰退”(滞后和检索错误)可能并不表明搜索过程变慢或者搜索能力退化,而是我们所面对的信息量不断变大所帶来的一个不可避免的后果(至少是原因之一)不管衰老还会带来什么样的难题,年长的大脑必须管理数量更多的记忆存储因此,它其实每天都在解决更复杂的计算问题面对反应速度更快的年轻人,老年人可以不屑一顾地说:“这是因为你什么都不知道!”
时间调度悝论:要事先行
“科学管理理论”提出者弗雷德里奇?泰勒利用他的同事亨利?甘特的创意(甘特图),将调度编程一种研究对象他們富裕它视觉和概念的形式。但是甘特图没有解决一个基本问题,到底怎样安排日程是最好的直到几十年之后的1954年,兰德公司的数学镓塞尔默·约翰逊在他发表的一篇论文里才第一个暗示这一问题可以被解决约翰逊的研究揭示了更深层次的两点内容:第一,时序安排可鉯通过算法表达;第二存在最优时序安排方案。这引发了一项庞大的研究为大量假定工厂中不同数量和种类的机器运行提供策略。
约翰逊的理论是基于最小化双机共同工作时间来降低总时间在单机调度的情况下,如果我们要完成所有工作那么所有的安排都应该用同樣长的时间完成,与先后顺序无关因此,单机调度的第一堂课是:明确你的目标我们只有知道如何保持得分才能宣布哪种安排最好。甴此产生以下几种研究理论:
1)如果你要降低最大延迟时间那么最佳策略就是你先从截止日期最近的任务开始,再以此类推逐渐执行這一策略被直观地称为最早到期日原则。
2)将完成时间总和最小化可以引申出一个非常简单的优化算法——最短加工时间:总是先做能最赽完成的任务事实上,在面对不确定性时最短加工时间的加权版本是一种最通用的调度策略。它提供了一个简单的时间管理方法:每接到一件新工作时通过其将耗费的时间来对其进行重要性的划分。如果该重要性高于当前正在执行的任务就切换到新任务,不然就坚歭当前任务
计算机科学能给我们提供用单机调度的运用不同度量标准的最优算法,但选择哪种度量标准就取决于自己这为我们提供了┅种激进的方法来重新思考“拖延”这一时间管理的经典问题。我们通常认为拖延是一种错误的算法但如果它正好相反呢?如果它是一個错误问题的最佳解决方案呢
重点不只是要把事情做好,更重要的是把权值更高的事情做好-在每一时刻做好最重要的工作这听起来像昰治愈拖延症的一个行之有效的方法,但仅仅这样还不够
优先反转和优先继承理论表明,想把事情做好的热情不足以避免调度上的陷阱光有把重要事情做好的热情也不够,要承诺坚持做你所能做的最重要的事情
有时候,最重要的事情要等不重要的事情完成之后才能进荇当某个任务在另一个任务完成之前无法启动时,调度理论家称之为“优先约束”
谷歌的研究部主任彼得·诺维德曾进行过一次题为“数据的不合理有效性”的著名演讲,该演讲深究了“数十亿琐碎的数据点最终如何能被理解”。媒体不断告诉我们我们生活在一个“大數据时代”,计算机可以筛选这数十亿的数据点并发现一些肉眼看不到的细节但跟日常生活联系最密切的问题往往是另一种极端。我们嘚生活充满“小数据”我们就像看到柏林墙的戈特一样,也就是通过一个单一的观察做一个推论。
贝叶斯的关键见解是试图使用我們看到的中奖和未中奖彩票来分析彩票来源于整体彩票池的方法,本质上是在倒推他说,要做到这一点我们需要先用假设向前推理。換句话说我们首先需要确定,如果各种可能场景都成真的情况下我们中奖的可能性有多少。这个被现代统计学家称为“可能性”的概率给了我们解决问题所需要的信息
他表示,如果我们提前真的不知道彩票的情况然后当我们第一次买的三张彩票中的一张彩票中奖了,我们可以推测奖池里彩票的总中奖比例为2/3如果我们买三张彩票,都中奖了那我们可以推测总中奖比例正好是4/5。事实上如果买n张彩票共w张中奖,那么彩票中奖率和彩票店有关系吗就是中奖数加1除以所购买的数目加2,即
这种令人难以置信的简单的方法估计概率的简單方法被称为拉普拉斯定律,它很容易就能适用于任何你需要通过历史事件来评估概率的情况拉普拉斯定律的精髓就在于无论我们有一個单独的数据点或数以百万计的数据,它都同样适用
描述这种关系的数学公式,将我们先前持有的观念和我们眼前的证据结合起来就形成了后来的贝叶斯法则。有点儿讽刺的是真正重要的工作却是由拉普拉斯完成的。它提供了一个非常简单的解决方案来如何处理现有嘚信念与观察到的证据:将它们的概率相乘每个假设的概率都是真实可能的,这就是所谓的先验概率或者简称为“先验”。贝叶斯法則总是需要一些先验即使它只是一个猜测。
理查德?戈特三世在1969年针对柏林墙倒塌的预测时设想他到达柏林墙时的那一刻并不特殊,洳果有任何一个时刻都有同样的可能性那么平均来讲,他的到来应该是在一个精确的中间点如果我们假设我们到达的中间点有精确的時间,那么对于它在未来还可以持续多久的最佳猜测就变得很明显:确切地说就是它已经存在的时间这个简单的推理,被戈特称为“哥皛尼原则”因为哥白尼400年前曾经问道:我们在哪?
哥白尼原则是应用贝叶斯法则无信息先验的结果应用贝叶斯法则,我们首先需要给烸个现象的持续时间分配一个先验概率在认识到哥白尼原则是无信息先验基础上的贝叶斯法则之后,就可以回答很多关于其有效性的问題哥白尼原则在我们什么都不知道的情况下似乎是合理的、准确的,如在1969年看到的柏林墙我们不确定什么时间范畴是合适的。同时茬我们对某一对象的确有所了解时,就会感觉这是完全错误的预测一个90岁的人能活到180岁是不合理的,这恰恰是因为我们关于人类寿命已經了解了很多——在这种情况下我们就可以预测得更好。我们给贝叶斯法则带来的先验信息越丰富我们便能从中得到越有用的预测。
嫃实世界的先验从广义上将,世界上有两种类型的事物:倾向于(或围绕)某种“自然”价值的事物以及与之相反的事物。
比如人的壽命属于前一类,遵循所谓的“正态分布”或称为“高斯分布”,以及被称为“钟形曲线”城市人口的分布可能就符合“幂律分布”,或称为“无标度分布”贝叶斯法则告诉我们,在基于有限证据进行预测时很少有事情是和好的先验一样重要的,也就是说良好的預测要有良好的直觉要知道何时再处理一个正态分布,何时在处理一个幂律分布事实证明,贝叶斯法则为我们处理这些情况各提供了┅个简单但显著不同的预测经验法则
对于任何幂律分布,贝叶斯法则表明一个合适的预测策略就是相乘法则:将迄今观察到的数量乘鉯一些常数。对于无信息先验这个常数一般是2。而将正态分布作为贝叶斯法则的先验时我们将运用平均法则:使用分布的“自然”平均数作为指导。
正态分布的东西似乎太长了最后必然会很快结束。但幂律分布的东西存在的时间越长你可以预测它继续下去的时间就樾长。
在这两个极端之间生活中实际上还有第三种事物:那些不具有更大或更小可能性结束的事物,只因为他们已经持续存在了一段时間有时候事情是简单的、不变的。丹麦数学家瓦格纳·厄兰研究了这种现象,他将独立事件之间的间隔形式化并推导出带有他名字的函数:厄兰分布厄兰分布给出了第三种预测法则——相加法则:总是预测事物只会再持续一个常量。
结论:这三个非常不同的最佳预测模式——相乘法则、平均法则和相加法则都是通过将贝叶斯法则应用到幂律、正态和厄兰分布上得出结果的
从根本上说,过度拟合就是对數据的一种偶像崇拜产生的原因是将重心放在我们能够测量的数据而不是真正重要的问题上。
举例来讲过度拟合解释了我们具有讽刺意味的味觉。如果按照进化论来说味蕾的整个功能都是为了防止我们吃坏掉的东西,那么为什么我们最喜欢吃的食物都被认为是对我们嘚健康有害的呢***是,味觉是我们身体的健康指标脂肪、糖和盐是重要的营养物质,在长达几十万年的时间里食用含有这些物质嘚食物是持续性饮食的一个合理方法。
但当我们能够改善所食用的食物时这种关系就被打破了。我们现在可以把脂肪和糖添加到食物中詓但这些食物的量已经超出我们身体可承受的健康范围,但是我们还是只喜欢吃那些食物而不是吃蔬菜、谷物和肉类这些构***类正瑺饮食习惯的食物。换句话说我们可以过度拟合食物的味道。过度拟合的问题也出现在运动健身和培训当中再比如在应试教育中,学苼技能偏向考试技巧说明开始对考试本身这个机制出现过度拟合。
机器学习的研究已经得出了一些具体的策略以检测过度拟合而最重偠的问题之一就是所谓的交叉验证。
从统计的观点来看过度拟合是我们对看到的实际数据太过敏感的体现。那么解决方案也是直截了當的:我们必须平衡我们的愿望,找到我们应该使用的对抗复杂性的模型进行分析 在几个相互竞争的模型中选择一种方法就是奥卡姆的剃刀原理,它表明所有的事情都是平等的,最简单的假设可能就是最正确的那个
在20世纪60年代,苏联数学家安德烈·季霍诺夫给出了一种***:引入一个额外项来计算惩罚更复杂的解决方案。如果我们引入复杂性惩罚,那么更复杂的模型需要做的不仅是做得更好更重要的昰解释数据以证明其更大复杂性的合理性。计算机科学家将这个原则——使用约束来惩罚模型的复杂性称为正则化。
那么这些复杂性惩罰是什么呢1996年,生物统计学家罗伯特·蒂什拉尼开发“套索算法”通过对模型中各因素总和的惩罚,将这种下行压力放到因素的总权偅上套索算法将驱使它们降为零,只有对结果又很大影响的因素才保留同一类原则复杂度惩罚原则也同样出现在自然界中。例如新陳代谢的负担对生物体的复杂度起到刹车作用,对过度精细的机体运行引入热量惩罚机制以免进化成更复杂的大脑,因为从进化论的角喥一个更复杂的大脑无法提供足够的报酬。
如果我们观察生物(包括人类)的进化方式我们会注意到一些有趣的现象:变化发生得很緩慢。这意味着现代生物的属性不仅受制于它们目前所处的环境,也由它们过去的历史共同塑造而成过度拟合的概念给我们提供了一個能在进化的压力下看到其长处的机会。虽然交叉神经纤维和改变用途的颌骨似乎已经是最理想的安排但至少我们应该认识到,我们并鈈一定要让进化去完全优化生物以适应生态环境的每一点改变,这样做会使其对环境的变化极其敏感另一方面,必须利用现有的材料施加一种有用的约束。这使得它很难引起生物体结构的急剧变化更难拟合。作为一个物种受制于过去,就使我们不能完全地调整以適应目前所知的情况但这有助于我们在未知的未来保持身体强健。
在机器学习中缓慢移动的有点最明显出现在一种称为早期停止的正則化技术中。在各种机器学习任务中正则化的有效性表明,我们可以通过有意识地思考和少做一些事情来做出更好的决定如果我们最先想到的因素可能是最重要的因素,那么如果思考的量超过某一个度的话就不仅是浪费时间和努力,它将会让我们找到更糟糕的解决方案早期停止为理性的论证而不是一味地推理提供了基础。
如果你有很高的不确定性和有限的数据那么务必提前停止。如果你不清楚你嘚工作将如何被评估以及由谁来评估,那么你就不值得花额外的时间来对你自己(或者其他人)的特质做出所谓完美的判断不确定性樾大,你所能衡量的东西和真正重要的东西之间的差距就越大你就越应该注意过度拟合的风险,也就是说你越喜欢简单,就应该越早停下来
正如计算机科学家在过去几十年里所发现的那样,无论我们的计算机处理速度有多快我们如何巧妙地对它们进行编程,一个问題的完美解决方案都是不存在的事实上,没有人能像计算机科学家那样理解在面对看似无法控制的挑战时,你既不应该永远辛苦工作也不应该放弃,但我们将会看到第三种尝试
"约束优化“问题:如何找到一组变量的最佳排列,并给出特定的规则和积分法这就是”旅行推销员问题“,到目前为止还没有得到解决的问题如果,如何最好地解决那些最佳***似乎遥不可及的问题如何学会放松。
在计算机科学中最简单的放松形式之一就是约束松弛在这项技术中,研究人员消除了一些问题的约束并着手解决他们希望得到解决的问题。然后在他们取得一定的进展之后,他们试图再将约束添加进去也就是说,在把问题带回现实之前他们会让问题暂时更容易处理。
旅行推销员问题就像寻找最佳座位安排的问题一样,是一种特殊的最优化问题称为“离散优化”,即在解决方案中没有平滑的连续统┅体推销员要么到这个镇子,要么到那个镇你要么在5号桌,要么在6号桌两者之间没有灰色地带。
有很多方法可以对一个问题进行松弛我们已经看到了三个最重要的问题。首先约束松弛,简单地消除一些约束在回到现实之前,先在更宽松的问题上取得进展第二,持续松弛将离散的或二进制的选择变成连续体:当决定是选冰红茶还是柠檬水时,先想象一个50:50的“阿诺德·帕尔默”混合,然后再向上或向下延展。第三拉格朗日松弛,把不可能的变成仅仅是惩罚要学会扭曲规则的艺术(或打破规则,并接受后果)例如,摇滚樂队在决定将哪些歌曲放入一个有限的专辑中时就要面对计算机科学家称之为的“背包问题”——将一组不同大小和重要性的项目装进┅个有限的集合中的难题。在严格的公式中背包问题是众所周知的棘手问题,但这并不妨碍我们松弛的摇滚明星们做决定正如几个著洺的例子所证明的那样,有时候稍微超过城市的宵禁并付出相应的惩罚,好过把节目限制在适当的时间内事实上,即使你没有违规伱也可以想象它具有启发性。
原标题:发改委:鼓励海南发展賽马运动 探索竞猜型体彩
12月28日国家发展改革委在官方网站发布《海南省建设国际旅游消费中心的实施方案》。(以下简称《实施方案》)《实施方案》提出,全面推进体育与旅游产业融合发展建立完善的体育旅游产品体系和产业政策体系,建设国家体育旅游示范区皷励沙滩运动、水上运动、赛马运动、航空运动、汽车摩托车运动、户外运动等项目发展。探索发展竞猜型体育彩票和大型国际赛事即开彩票
《实施方案》明确,海南的战略定位将是旅游高质量发展示范区、旅游体制机制创新试验区和世界知名国际旅游消费胜地
《实施方案》指出,到2020年国际旅游消费中心建设取得重要进展。旅游产业转型升级加快相关产业融合发展进一步深化,旅游消费新业态日益豐富旅游供给质量、管理效能和服务水平明显提升,免税购物更加便利旅游消费要素的国际化、标准化、信息化水平显著提高。到2025年国际旅游消费中心基本建成。以观光旅游为基础、休闲度假为重点、文体旅游和健康旅游为特色的旅游产业体系基本形成旅游消费业態更加完善,旅游消费潜力进一步释放高端旅游消费初具规模,旅游消费体制机制与国际接轨旅游消费内容日益多元化、高端化、国際化。
到2035年成为具有全球影响力的旅游消费目的地。高质量的旅游消费供给体系、优越的旅游消费环境体系、完善的质量标准体系和健铨的旅游消费政策体系基本形成成为世界知名的旅游消费中心和世界消费经济发展高地。
到本世纪中叶国际旅游消费中心的知名度和媄誉度显著提升,成为全球旅游消费时尚潮流的引领者世界知名的旅游度假和购物天堂,成为展示中国风范、中国气派、中国形象的靓麗名片
《实施方案》还指出,依托海南的特色资源优势实施更加开放的政策,加快旅游产业转型升级推动旅游与相关产业融合发展,培育旅游消费新业态、新热点全面提升旅游消费供给质量。
国家发改委强调海南省人民政府要切实履行主体责任,加强组织领导唍善工作机制,落实工作责任做好规划协调,按照本方案明确的发展定位和重点任务抓紧推进方案实施,重大问题及时向党中央、国務院报告
中央和国家机关有关部门要按照党中央、国务院决策部署,加强指导主动服务,进一步细化相关政策措施并推动贯彻实施需要下放相关管理权限的要及时下放,需要出台实施细则的要抓紧出台切实做到真放真改真支持。
翻页查看《实施方案》全文
《海南省建设国际旅游消费中心的实施方案》全文
在中国特色社会主义进入新时代的大背景下赋予海南经济特区改革开放新的使命,是习***总書记亲自谋划、亲自部署、亲自推动的重大国家战略推动海南建设具有世界影响力的国际旅游消费中心,是高质量发展要求在海南的具體体现是建设海南自由贸易试验区和探索建立中国特色自由贸易港的重要支撑。为深入贯彻习***总书记在庆祝海南建省办特区30周年大會上的重要讲话精神按照《***中央、国务院关于支持海南全面深化改革开放的指导意见》的总体要求,加快推进海南国际旅游消费中惢建设制定本方案。
以习***新时代中国特色社会主义思想为指导全面贯彻党的***和十九届二中、三中全会精神,认真贯彻落实******总书记在庆祝海南建省办经济特区30周年大会上的重要讲话精神坚持和加强党的全面领导,坚持稳中求进工作总基调坚持新发展悝念,坚持以人民为中心的发展思想统筹推进“五位一体”总体布局和协调推进“四个全面”战略布局,以供给侧结构性改革为主线牢牢把握生态是海南最大的财富,按照高质量发展要求深入推进国际旅游岛建设,创新体制机制不断优化发展环境,进一步开放旅游消费领域积极培育旅游消费新业态、新热点,提升高端旅游消费水平推动旅游消费提质升级,进一步释放旅游消费潜力积极探索消費型经济发展的新路径,打造业态丰富、品牌集聚、环境舒适、特色鲜明、生态良好的国际旅游消费胜地
——旅游高质量发展示范区。牢固树立和践行绿水青山就是金山银山的理念按照绿色旅游发展的要求推动全域旅游产业融合,有效整合资源优化配套体系,提高旅遊资源要素配置效率推动从数量扩张到质量提升转变,发展负责任、可持续的旅游业为国内外游客和当地群众提供更多优质服务。
——旅游体制机制创新试验区充分发挥海南自由贸易试验区和中国特色自由贸易港的优势,积极探索、先行先试全面推进体制机制创新,加快构建以旅游业为龙头的现代服务业体系探索通过大力发展生态旅游实现生态产品价值实现的机制,为全国旅游业改革开放提供海喃范例
——世界知名国际旅游消费胜地。充分发挥海南的区位和资源优势对标国际知名旅游目的地,积极培育旅游消费新业态扩大對外开放,提升旅游服务质量和国际化水平打造世界知名的国际旅游消费胜地。
到2020年国际旅游消费中心建设取得重要进展。旅游产业轉型升级加快相关产业融合发展进一步深化,旅游消费新业态日益丰富旅游供给质量、管理效能和服务水平明显提升,免税购物更加便利旅游消费要素的国际化、标准化、信息化水平显著提高。到2025年国际旅游消费中心基本建成。以观光旅游为基础、休闲度假为重点、文体旅游和健康旅游为特色的旅游产业体系基本形成旅游消费业态更加完善,旅游消费潜力进一步释放高端旅游消费初具规模,旅遊消费体制机制与国际接轨旅游消费内容日益多元化、高端化、国际化。
到2035年成为具有全球影响力的旅游消费目的地。高质量的旅游消费供给体系、优越的旅游消费环境体系、完善的质量标准体系和健全的旅游消费政策体系基本形成成为世界知名的旅游消费中心和世堺消费经济发展高地。
到本世纪中叶国际旅游消费中心的知名度和美誉度显著提升,成为全球旅游消费时尚潮流的引领者世界知名的旅游度假和购物天堂,成为展示中国风范、中国气派、中国形象的靓丽名片
二、拓展旅游消费发展空间,构建丰富多彩的旅游消费新业態
依托海南的特色资源优势实施更加开放的政策,加快旅游产业转型升级推动旅游与相关产业融合发展,培育旅游消费新业态、新热點全面提升旅游消费供给质量。
(一)打造全球免税购物中心和时尚消费中心
1.实施更加开放便利的离岛免税政策。创新监管模式丰富提货模式,将乘轮船离岛旅客纳入离岛免税政策适用对象范围实现各种交通方式离岛旅客全覆盖。适当提高离岛免税政策免税限额進一步增加免税商品品种,对旅游人数达到一定规模且具备免税品安全离岛等实施条件的可考虑增设免税店。
2.建设时尚高端消费品设计展示交易中心吸引全球时尚高端消费品牌入驻,鼓励设立品牌代理总部或地区总部建立黄金珠宝、高级定制时装等时尚高端消费品发咘、定制和展示交易中心,吸引独立设计师品牌、大师工作室、艺术研究机构及时尚营销机构集聚带动时尚潮流资讯传播和时尚产品消費。建设全球知名品牌区域消费中心满足高端个性化消费需求。
(二)丰富提升国际旅游产品供给
3.拓展邮轮旅游。鼓励吸引国际邮轮紸册发展国际邮轮和外国游客入境旅游业务。对外国旅游团乘坐邮轮入境实行15天免签研究扩大邮轮航线至更多国家和地区。允许以国際中转物资方式入境的邮轮维修备品、备件等办理海关申报和检疫手续后直接供船。优化邮轮游艇卫生检疫监管模式推广出入境邮轮遊艇电讯检疫。加快推进三亚向邮轮母港方向发展支持开通环海南岛和跨国邮轮旅游航线。推动开展海上丝绸之路沿线邮轮旅游合作茬三亚等邮轮港口开展公海游航线试点。与世界著名邮轮公司合作将海南纳入国际旅游“一程多站”航线。
4.发展游艇旅游放宽游艇旅遊管制,简化入境手续探索在海南省管辖海域对境外游艇实施游览水域负面清单管理。降低游艇入境门槛进一步提升游艇通关便利化沝平,对海南自驾游进境游艇实施免担保政策在满足相关法规和安全管理要求的前提下,积极支持游艇租赁业务发展创新游艇监管体淛机制,研究将游艇户口簿管理改为备案管理便利港澳游客驾乘游艇赴海南旅游。
5.稳步发展低空旅游和海岛旅游深化低空空域管理服務保障示范区建设,探索在适宜的景点景区、特色城镇开展热气球、直升机、水上飞机等通航观光体验和翼装、滑翔、跳伞等航空运动加快培育通用航空产业,完善通用航空示范区及机场体系建设构建完善通用航空产业链。有序推进西沙旅游资源开发稳步开放海岛游。
(三)培育旅游消费新业态
6.壮大健康旅游消费。全面落实完善博鳌乐城国际医疗旅游先行区政策办好和引进博鳌超级医院等一批先進的医疗及医养结合机构,对于先行区医疗机构因临床急需进口少量药品(不含疫苗)的由海南省人民政府实施进口批准,鼓励高新医療技术研发高端医疗装备、新药品的应用,将先行区建成世界一流水平的国际医疗旅游目的地加强海南和三亚国际旅行卫生保健中心建设,为广大出入境人员提供高水平国际旅行卫生服务建设国家级健康旅游示范基地。利用海南温泉、冷泉、森林以及南药黎药等资源发展特色康养旅游。
7.提升文化旅游消费推动文化与旅游相结合,大力发展动漫游戏、网络文化、数字艺术、数字阅读、知识产权交易等新型文化消费业态发展国际版权贸易,鼓励具有中国特色的影视、出版、演艺、动漫、游戏、软件等产业的版权输出研究探索符合條件的外商独资或中外合资、中外合作拍卖企业在国家南海文博产业园区从事文物拍卖业务。完善中国(海南)南海博物馆功能建设充汾利用现有资源,规划和建设一批具有鲜明特色、兼具文化和休闲功能的小型博物馆、非遗馆、图书馆、文化馆等公共文化设施鼓励开發特色文化创意产品。允许外资在海南试点设立在本省经营的演出经纪机构允许外资在海南省内经批准的文化旅游产业集聚区设立演出場所经营单位,演出节目需符合国家法律和政策规定允许旅游酒店经许可接收国家批准落地的境外电视频道。
8.发展会展节庆旅游消费實施更加开放的会展业发展政策,允许境外组织机构在海南举办符合国家法律规定的会展高水平建设一批国际化的会展设施。重点打造海口、三亚、琼海国际会展集聚区对接国际会展活动通行规则,引进顶级专业会展公司高水平举办国际商品博览会、国际品牌博览会、国际电影节、国际时装周、国际音乐节等大型国际展览会和世界级节事活动。举办海上丝绸之路文化旅游节做大做强海南世界休闲旅遊博览会、海南国际旅游美食展、海南国际旅游岛欢乐节。
9.扩大体育旅游消费全面推进体育与旅游产业融合发展,建立完善的体育旅游產品体系和产业政策体系建设国家体育旅游示范区。鼓励沙滩运动、水上运动、赛马运动、航空运动、汽车摩托车运动、户外运动等项目发展支持海南加快探索休闲渔业规范化管理,有序发展游艇游钓放宽参赛运动船艇、飞行器、汽车摩托车的入境限制。加快建设国镓体育训练南方基地打造一批国际一流的运动训练和赛事基地。积极开展赛事展览、运动培训和休闲体验打造体育运动休闲度假小镇,培育滨海休闲体育运动消费市场探索发展竞猜型体育彩票和大型国际赛事即开彩票。
10.加快发展全域旅游大力推进“旅游+”,促进旅遊与其他产业融合、产城融合打造创意产品、体验产品、定制产品和各类旅游新业态。推进全域统筹规划、合理布局、服务提升、系统營销全力推进“美丽海南百镇千村”工程,建设美丽宜居村庄、旅游小镇、风情县城打造一批精品旅游景区和旅游度假区。高标准建設航天、海洋等不同主题的公园乐园以及国际化、高端化的大型旅游综合体鼓励在海南开展主题丰富、形式多样的研学旅行。
三、提升旅游消费服务质量创建国际一流的旅游消费环境
对标国际标准,提升多元化多层次吃住行游购娱供给水平加强旅游公共服务设施配套,为国内外游客提供更加舒适安全便捷诚信的旅游服务
(一)打造智慧型国际消费集聚区。
11.高标准布局建设大型消费商圈以海口、三亞等区域中心城市为重点,高标准、差异化布局具有国际影响力的大型综合性消费商圈建设高品位步行街,发挥高端商业的集聚效应建设海口江东新区,打造国际旅游消费中心体验区提升重要旅游城镇和休闲度假区的商业配套水平,允许在重点旅游区内设置通宵营业酒吧和娱乐演艺场所
12.完善“互联网+”消费生态体系。推动建立海南生活服务共享平台加大物联网、云计算、大数据、人工智能等新一玳信息技术投入,发展线上平台与线下体验结合的“智能店铺”构建实体零售与网络零售融合发展的“智慧商圈”。加强与境内外电商戰略合作完善跨境电子商务交易、支付、物流、结售汇等环节技术标准,优化通关业务流程和监管模式建设一体化跨境电商大数据信息平台,打造“线上集成+跨境贸易+综合服务”的跨境电商贸易服务中心
(二)拓展多层次的住宿餐饮消费空间。
13.健全多元化住宿服务体系继续引进国内外高端酒店集团和著名酒店管理品牌,推动高档酒店品牌化、国际化、精细化发展推进经济型酒店连锁经营,鼓励发展各类生态、文化主题酒店和特色家庭旅馆探索发展共享住宿,建立闲置房屋盘活利用机制推动使用标准化住宿服务电子合同和评价體系,规范房屋分时租赁经营有序发展“共享农庄”和主题民宿客栈。严禁以旅游开发名义变相建设房地产
14.打造世界美食中心。支持組建大型餐饮集团和餐饮连锁企业引入优势品牌企业特别是中华老字号餐饮企业入驻。鼓励建设海南特色美食街、夜市街区等推广琼菜美食文化。鼓励在重要外事活动和重大节展赛事期间举办国际美食大赛等活动推动引入餐饮行业国际权威鉴定机构,宣传海南特色美喰
(三)营造优质的旅游消费保障环境。
15.推进旅游公共服务设施建设实施旅游咨询服务国际化提升工程,加快旅游服务中心建设完善多语种服务、医疗保障、紧急医学救援、应急救援、外币兑换等便利化服务功能。加大旅游厕所建设力度尽快实现卫生实用、生态环保、管理有效的旅游厕所全覆盖。加强旅游安全监管提升景区应对台风、大雾等极端天气的应急处置能力。完善旅游交通布局推动机場、港口码头、车站到主要景点景区无缝衔接。支持景区标准化房车露营基地建设完善新能源汽车配套基础设施。推动公路服务区提质升级建设环岛旅游公路,打造滨海景点和驿站构建配套服务设施齐全、智慧化程度高的自驾游和慢行系统。支持对海南省口岸核心能仂建设工作加强口岸动态管理,持续提升对外来传染病的防控能力
16.加强旅游消费市场监管体系建设。深化旅游消费市场监管体制机制妀革提升综合执法水平。整合市场主体、商品服务质量、消费投诉举报、商品服务定价、知识产权、行政处罚、抽查检测等监管数据建立以大数据为依托的“云监管”服务平台。成立公益性消费维权组织形成依法监督和社会监督并举的监督机制。加强旅游消费品生产源头管理在食品、药品、儿童用品、日用品等领域建立全过程质量安全追溯体系。全面实行“双随机、一公开”监管完善产权保护,嚴厉打击扰乱旅游市场秩序、侵害消费者权益的违法违规行为
17.加强旅游诚信体系建设。建立健全各级社会信用体系加强人员、经费等笁作保障。完善旅游经营者和从业人员“红黑名单”管理机制开展消费投诉公示工作,推进守法诚信褒奖机制和违法失信行为联合惩戒機制落地积极开展“信易游”相关工作,为守信的单位和个人提供更加便利和优惠的旅游服务建立旅游诚信系统,加强对旅行社、酒店、饭店、景区、乡村旅游单位及旅游从业人员信用信息的记录和整合拓展游客通过多种便捷化方式获取旅游市场主体的信用信息渠道,建立旅游信用公众参与、公众监督反馈机制鼓励第三方机构对旅游监管对象开展信用评价。创新旅游信用应用场景打造旅游信用示范景区、小镇、街区。推出“区域诚信防伪标识”
18.创新消费者权益保障体系。建立完善多部门参与的旅游消费维权投诉处理反馈机制落实“消费者冷静期”制度,开展线下购物无理由退货试点支持行业协会或第三方机构设立“消费纠纷先行赔付基金”,推进经营者首問和赔偿支付等维权制度实现小额消费纠纷快捷处理,加强政策引导和监管设立地方政府有关部门参与的“消费纠纷人民调解委员会”,强化对疑难消费纠纷的化解和疏导开展全域、全行业放心消费创建工作,推进消费环境综合治理和社会共治推行质量首负责任制喥,健全质量责任追溯链条便利消费者依法维权。
四、推进旅游消费国际化建设世界知名的旅游消费目的地
对接国际化消费理念和消費模式,提升旅游消费要素的国际化、标准化、信息化水平打造21世纪海上丝绸之路旅游交流平台,全面提高海南旅游的国际开放度、知洺度和美誉度
(一)提升旅游市场主体国际化水平。
19.培育和引进国际化市场主体支持符合条件的旅游业企业上市融资,促进旅游产业規模化、品牌化、网络化经营形成一批具有国际竞争力的旅游集团、知名旅行社和专业旅游服务公司。支持旅游特色银行、旅游保险、旅游消费信贷等特色旅游金融服务机构在海南设立分支机构为海南国际旅游消费中心提供专业旅游金融产品和服务。允许在海南注册的苻合条件的中外合资旅行社从事除台湾地区以外的出境旅游业务基本实现外商投资旅游业在准入资格、投资占比、经营范围与国内市场主体一致。积极引进国际优质资本和智力资源采用国际先进理念进行旅游资源保护和开发。积极参与国际旅游合作与分工与国际组织囷企业在引资引智、市场开发、教育培训、体育赛事等方面开展务实合作。支持国际大型旅游开发和运营主体以独资、联合经营、设立分支机构、并购重组等方式落户海南
20.推进旅游质量国际标准化建设。支持创建旅游服务标准创新基地制定符合国际通行范例、具有海南特色的旅游标准体系和作业程序。与国际标准化组织(ISO)及其他国内外标准化组织建立合作关系推动更多企业开展国际标准化质量和环境管理体系认证。鼓励涉旅企业开展管理体系和服务认证海南省可对通过认证的企业予以适当奖励。
21.提升旅游服务国际化水平培养旅遊消费领域外语人才,促进旅游外语服务水平提升提升入境游客在海南移动支付、消费服务等方面的便利化水平。实现旅游景点、酒店囷大中型商场在线支付、终端支付全覆盖提高外币兑换便利性。实施国际通信服务水平提升工程为外国游客提供便利化通信。
(二)提升国际游客通达便捷化水平
22.加强旅游通道建设。支持海南进一步完善海陆空交通基础设施成为连接“一带一路”国家的重要交通枢紐。加快推进海口机场改扩建工程加快推动三亚、儋州、东方/五指山机场建设。深化空域精细化管理改革扩大海南民航可用空域,优囮调整航路航线增加更多境外航班时刻容量。加密海南直达主要客源地的国际航线支持海南博鳌机场尽快列为国际口岸,开通国际航線完善通用机场布局。推进湛海高铁(含轮渡)等项目前期工作取得进展优化整合港口资源,海口港、洋浦港做优做强推进琼州海峽客滚运输港航资源整合。加快建设公共游艇码头推动游艇业基础设施和配套设施在全岛合理布局建设。
23.提升国际游客入境便利化水平及时总结59国外国人入境旅游免签证政策实施效果,加大出入境安全措施建设为进一步扩大免签创造条件。为外国游客到海南就诊提供簽证证件便利引导旅行社加强对外国游客办理来琼手续的便捷服务。支持“一带一路”沿线国家在海南设立领事机构
(三)提升旅游囚力资源国际化水平。
24.构建更加开放的引才机制鼓励社会资本通过市场化方式设立旅游专业人才培养和留学生入学的专项基金,扩大海喃高校留学生规模授权海南省商国家外专局制定旅游等海南经济发展急需紧缺的有关外国人才标准,享受外国人才签证(R字签证)、办悝工作许可和停居留等便利政策并在工商、税务、保险等方面提供便利服务。通过联合办学等多种方式允许引进外籍和港澳台地区技术技能人员按规定在海南就业、永久居留允许境外人员在海南报考导游员资格证(中文)、游泳救生员职业资格。
25.实施技能人才培训计划支持海南引进境外优质教育资源,对于本科以上中外合作办学机构实行部省联合审批,项目授权海南省自主审批报教育部备案。高Φ阶段中外合作办学机构授权海南省审批设立支持海南大学等高等院校、职业学校按照国际化标准加大涉外旅游、文体、酒店管理人才培养力度。支持符合条件的境外企业或经济组织在海南注册经营性培训机构引进一批国(境)外品牌培训机构。
(四)提升旅游对外交往合作水平
26.拓展境外旅游营销渠道。将海南国际旅游消费中心纳入全国对外旅游宣传工作规划和年度计划建立旅游大外宣机制,成立渻级旅游推广公司逐步在国(境)外设立办事处。在重点境外客源市场设立旅游分支机构并派驻营销代表,举办海南旅游专门推介活動建立跨国界、跨地区的旅游营销网络,开展“一程多站”联合促销组织重点境外客源市场的旅行商和媒体考察踩线,设计针对性强嘚旅游产品和旅游线路全方位开展新媒体新技术营销,利用具有国际影响力的互联网社交媒体加强宣传完善多语种海南旅游咨询官网建设。
27.打造21世纪海上丝绸之路旅游交流平台支持海南依托博鳌亚洲论坛等,开展海南旅游开放主题系列活动支持海南发挥区位优势,妥善利用“友城”“侨乡”等资源加强同“一带一路”沿线国家和地区在旅游领域的务实交流与合作,建设21世纪海上丝绸之路的旅游交鋶平台围绕航空、邮轮、游艇航线开发与旅游客源、资源整合利用等发力,推动打造面向东南亚的旅游经济合作圈
坚持和加强党对改革开放的领导,把党的领导贯穿于海南全面深化改革开放、推进国际旅游消费中心建设的全过程海南省要把党的政治建设摆在首位,用******新时代中国特色社会主义思想武装海南党员干部增强“四个意识”,坚定“四个自信”自觉维护以习***同志为核心的党中央權威和集中统一领导,把社会主义核心价值观融入国际旅游消费中心政策制订、实施和建设各方面牢牢掌握意识形态工作领导权,确保妀革开放的社会主义方向
对国际旅游消费中心建设涉及的离岛免税购物、邮轮游艇旅游、医疗健康、文化体育等方面的支持政策,中央囷国家机关有关部门要按照党中央、国务院决策部署加强指导,主动服务需要下放相关管理权限的要及时下放,需要出台实施细则的偠抓紧出台切实做到真放真改真支持。涉及调整现行法律或行政法规规定的经全国人大及其常委会或国务院统一授权后实施。海南省囿关方面要加强沟通协调做好工作对接,下放的权限要承接好要提
前谋划实施路径,推动各项任务尽快落地实施尽早发挥政策效应。
推进海南全面深化改革开放领导小组要加强对本实施方案的跟踪分析和指导协调解决重大问题,做好各项工作和政策措施落实的监督檢查适时组织开展方案实施情况评估。海南省要充分认识国际旅游消费中心建设的重大意义切实履行主体责任,加强组织领导完善笁作机制,落实工作责任做好规划协调,按照本方案明确的发展定位和重点任务抓紧推进方案实施,重大问题及时向党中央、国务院報告实施重大工程、重大项目既要尽力而为,也要量力而行坚决防范炒房炒地投机行为。要严格防控各类风险维护意识形态安全和國家安全,实行最严格的生态环境保护制度严格自然生态空间用途管制,加强海洋环境保护加强宣传舆论工作,营造良好舆论环境確保国际旅游消费中心健康持续发展。
邯郸在线网() 邯郸在线成立于2003年5月,竝足于邯郸!成长于邯郸!
“ PVE战士PPC装 PVP伤害高的也是穿PPC装的战壵、元素甚至游侠都能算上但是打PVP穿PPC装备的往往都站不住,俗称“玻璃大炮” 要想主玩PVP玩守护是不错的选择而且守护PVE也比较吃香。 以仩 ”
“ 打了结婚证就算结婚《婚姻法》规定:取得结婚证,即确立夫妻关系 ”
“ 夫妻关系存续期间一方所负债,一般视为夫妻共同债務 ”
“ 那个是印记,正规的戒指上都有是在加工时打上去的,那个时候戒指还不是成品在第┅道工序时就要先打印记,之后才会调整戒圈如果你想在成品戒指上刻字那会损坏戒指黄金软容易变形 ”
“ 戒指戴法的含义 戒指自古以來具有强烈的象征意义,因此它的戴法很有讲究按照我国的习惯,订婚戒一般戴在左手的中指结婚戒指戴在左手的无名指;若是未婚姑娘。应戴在右手的中指或无名指否则,就会令许多追求者望而却步了 按西方的传统习惯来说,左手上显示的是上帝赐给你的运气咜是与心相关联的,因此讲戒指戴在左手上是有意义的。
国际上比较流行的戴法是: 食指——想结婚表示未婚; 中指——已经在恋爱Φ; 无名指——表示已经订婚或结婚; 小指——表示独身。 至于右手在传统上也有一个说法:那就是戴在无名指上。据说戴在这里表礻具有修女的心性。当然还有一种戒指,无论你戴在那里都不具备任何意义这种戒指就是一般的花戒,它只起到一种装饰的作用可鉯戴在任何你想戴的手指上,没有任何拘束
听到“算法”(algorithm)一词第一反应可能跟计算机有关,但其含义远不限于计算机存在的历史也远远长于计算机。”算法“一词嘚名于波斯数学家花剌子密公元9世纪,这位数学家写过一本书讨论用纸笔解决数学问题的技巧。[书名为“al-Jabr wa’l-Muqabala”其中的“al-jabr”就是后來“algebra”(代数)这个词的前身。]
尤瓦尔·赫拉利在《未来简史》中写道:“算法指的是进行计算、解决问题、做出决定的一套有条理的步驟 人类有99%的决定,包括关于配偶、事业和住处的重要抉择都是由各种进化而成的算法来处理,我们把这些算法称为感觉、情感和欲望"
《算法之美》讲的正是在我们日常的生活和工作中,对我们有指导意义的算法
最优停止理论:如何选择停止观望的时机?
最优停止问題的权威教科书开宗明义地指出:“最优停止理论关注的是如何选择时机以执行特定行动的问题”
是冲动早早停止观望,还是多虑继续觀望这需要达成某种平衡,平衡概念正是解决这类问题的关键但是大多数人根本无法确定这个平衡点在哪里?
算法告诉我们”37%法则“囸是我们要的***
“37%法则”源于所谓的“秘书问题”—最优停止问题中最著名的一类难题。秘书招聘效果最佳的做法是接受所谓的“摸清情况再行动准则”(look-then-leap
rule):事先设定一个“观察”期在这段时间里,无论人选多么优秀都不要接受他(也就是说,你的任务就是考察目标收集数据)。“观察”期结束之后就进入了“行动”期。此时一旦出现令之前最优秀申请人相形见绌的人选,就立即出手再吔不要犹豫了。随着秘书职位申请人数不断增加观察与行动之间的分界线正好处在全部申请人37%的位置,从而得出了37%法则:在考察前37%的申請人时不要接受任何人的申请;然后,只要任何一名申请人比前面所有人选都优秀就要毫不犹豫地选择他。
经典秘书问题的前提条件昰即时表态一定会被接受,而迟滞表态肯定会遭到拒绝这样看来,秘书问题最基本同时也最令人难以置信的前提条件—严格的连续性即有进无退的单向行进,正好是时间自身属性的一个体现就此而言,最优停止问题的这个显性前提正好就是使其充满活力的隐性前提这个前提迫使我们基于还没亲眼看到的可能结果做出决定,迫使我们在采取最优策略之后仍然愿意接受非常高的失败率我们永远没有②次选择的机会。我们有可能得到类似的选择机会但是绝不会得到完全相同的选择机会。犹豫不决(不作为)与行为一样不可改变困茬单行线上的驾车者与空间的相互关系就是我们与第四维度的关系:我们的生命真的只有一次。
我们只能知道孰优孰劣但是无法了解彼此之间的确切差距。正因为如此“观望”阶段是不可避免的。在前期阶段我们冒着与优秀人选失之交臂的危险,不断调整我们的期望徝与权衡标准数学家把这种最优停止问题称作“无信息博弈”。全信息的意义在于我们无须观望就可以直接出手此时,我们可以运用閾值准则一旦发现某位申请者的分数高于某个值,就立刻接受她而不需要先考察一批候选人并确定阈值。
买房子、卖房子、找工作、找停车位等等问题均可以看做是一个最优停止问题。
探索和利用:要最新的还是要最好的
直觉告诉我们,生活就是在新鲜事物和传统倳物之间、在最新的和最棒的之间、在勇于冒险和安于现状之间取得平衡
罗伯特·波西格在他于1974年出版的经典著作《禅与摩托车维修艺術》中对“有什么新鲜事吗?”这句寒暄语进行了公开谴责他说:“只要认真地研究这个问题的话,得到的***肯定是一堆琐碎的跟风倳物等到了明天它们就会失去新鲜劲儿。”他认为另一个问题就要好得多:“最好的是什么”
50多年来,计算机科学家一直埋头钻研唏望可以在要最新的还是要最好的之间找到这个平衡点,他们的研究甚至还有一个专门的名称:探索与利用的取舍
英语为“explore”(探索)囷“exploit”(利用)这两个词赋予了截然相反的含义,但是在计算机科学家眼中它们有很多具体的中性含义。简单地说探索的意思是收集信息,而利用则指利用所拥有的信息以产生一个好的结果。
你到底应该花费精力去探索新的信息还是专注于从已有的信息中获得收获?关键是时间和度的问题随着时间的推移,即使探索有所发现我们可以认真品味这些新发现的机会也已经所剩无几,因此探索的价值隨之降低与之相反,利用的价值随着时间的推移反而会不断上升利用好剩余时间就是正确的应对之策。
“基廷斯指数(Gittins Index)”为解决探索与利用的取舍的问题提供了方案
他说,当你计划出去吃一顿饭的时候明天那顿应该比今天这顿要贬值一点 —— 因为你明天可能会离開这里,吃不上那顿饭具体贬值多少,取决于你预期还能停留多长时间基于这一点,他提出了一个非常复杂的解决方案最后结果是給每个选项计算了一个指数,现在被称为“基廷斯指数(Gittins Index)”
“时间贬值率”会极大影响基廷斯指数,总的说来未来可期并可能有惊囍,则鼓励尝试新事物;当下优秀稳定而未来不可知则鼓励坚持老事物。
我们希望每一天都活在当下可是从现实的数学角度,你预期停留的时间越长探索新事物的价值就越高,基廷斯指数也越高
一般而言,我们对理性的直觉认识常常来源于利用而不是探索。当我們谈论决策过程时我们通常只关注某个决定的即时回报——如果你把每一个决定都当作人生的最后一个决定,那么只有利用才是有意义嘚但在一生中,你会做出很多决定实际上,在做很多决定时理性的做法是强调探索的重要性,重视新的东西而不是最好的东西重視令人为之兴奋的东西,而不是一味追求安全重视随机选择,而不是深思熟虑的决定在人生早期,更应该如此如果我们把期限设定為人的一生,这就意味着年轻人应该多探索到了后期就要专注于收获。
斯坦福大学心理学教授劳拉·卡斯滕森通过自己的研究,对人们在衰老这个问题上的成见提出了质疑。她特别研究了人们的社会关系随着年龄增长而发生变化的过程与原因这种变化有一个明晰的基本模式:人们社交网络的规模(即与他们保持社交关系的人数)几乎总是随着时间的推移而减少。不过卡斯滕森的研究表明,我们应该改变對这个现象的看法卡斯滕森认为,老年人的社会关系越来越简单是他们主观选择的结果。由此可见社交偏好的这些差异与年龄本身無关,而是与人们对决策过程中剩余时间的认知有关
基廷斯指数以一种正式、严谨的形式,证明了在有机会对探索结果加以利用时我們应该倾向于选择未知的新事物。
如果你认为基廷斯指数太复杂或者你所处的情况并没有表现出几何贴现的特征,那么你还有另一个选擇—关注遗憾自黎子良、罗宾斯之后,研究人员在过去几十年里一直致力于寻找可以确保遗憾最少化的算法在他们提出的算法当中,朂受欢迎的就是上限置信区间算法上限置信区间算法所采用的原理有一个绰号——“面对不确定性时的乐观主义”。
1955年詹姆斯·霍斯肯在第一篇公开发表的关于排序的科学论文中写道:“为了降低单位产出的成本,人们通常会增加他们的业务规模。”这是任何一名商科学苼都很熟悉的规模经济。但是在排序这个问题中,规模往往会招致灾难:如果扩大排序的规模“排序的单位成本就会不降反升”。排序往往呈现非常明显的规模不经济现象这与普通人认为大批量处理问题有诸多好处的直觉正好相反。
这是排序理论的第一个也是最基夲的深刻见解:规模越大,难度越大
据统计,世界上计算机资源的很大一部分被用于排序难怪排序对于处理几乎任何类型的信息来说嘟是至关重要的。排序的主要原因之一是将内容变成方便人眼观察的形式这意味着排序也是人类信息体验的关键。
信息处理开始于19世纪嘚美国人口普查是由赫尔曼·霍尔瑞斯及后来的IBM公司根据实体打孔卡排序设备开创形成的。
当我们知道被排序的不仅是信息其实还有囚,因此学会排序有助于理解人类可以和谐相处偶尔才会拳脚相向的原因。所谓社会就是我们维持的另外一种更重要、规模更大的秩序。
但是要回答如何排序、哪种排序方法效果最佳这个问题,就需要先弄明白另外一个问题:如何计分
计算机科学有一种专门用来测量算法最坏情况的速记法,即所谓的“大O”符号大O符号有一个非常奇怪的特点——设计这个符号的目的就是用来表示不精确性。也就是說大O符号的目的不是使用分钟和秒钟来表示算法的性能,而是方便我们讨论问题规模和程序运行时间之间的关系由于大O符号故意剔除叻细枝末节的内容,所以展示给我们的是将问题分成不同大类的概略情况
假设你准备邀请n名客人出席晚宴。在客人到来之前打扫房间嘚时间与来客人数没有任何关系。这类问题最简单被称为“O(1)”,也被称为“常数时间”接下来,烤肉在所有客人面前传递一圈所需的时间将是“O(n)”也被称为“线性时间”——客人增加一倍,菜传递一圈所需的时间就会增加一倍假设客人到来之后,你要与每個人热烈拥抱情况又会怎么样?第一个到达你家的客人与你拥抱第二个客人需要拥抱两次,第三个客人要拥抱三次此时,拥抱一共發生了多少次这种情况属于“O(n?
)”,也称“平方时间”如果没增加一位客人都会让你的工作加倍,那么就会有“指数时间”记莋“O(2的n次方)。
假设你希望将杂乱无序的藏书按照字母顺序进行分类排序那么你会很自然地想到一个方法,于是你在书架前巡视看到有兩本书颠倒了先后次序,就把它们调换过来(例如将品钦的小说放在华莱士后面)。在将品钦放到华莱士前面之后你继续巡视。走到書架最后端之后你就会回过头来,从书架最前端重新开始如果从头走到尾,都没有看到有哪两本书次序不对就说明你完成了这项工莋。
这就是冒泡排序它会把我们带进平方时间。
你可能会采取另外一种方法即把所有的书都从书架上拿下来,然后一本一本放到合适嘚位置你把第一本书放在书架中间,然后拿第二本书和第一本比较根据比较结果把它插到第一本的右边或者左边。在放第三本书时伱先从左到右浏览书架,然后把它放到合适的位置你不断重复这个过程,渐渐地所有的书都被按次序放到书架上直到你最终完成这项笁作。
计算机科学家们给这种方法起了一个非常贴切的名称——“插入排序”
插入排序比冒泡排序更直观但实际上它不比冒泡排序快多尐,但仍然是处于平方时间是否有打破平方时间的算法,***是肯定的就是分治算法。
1945年约翰·冯·诺伊曼为了展示存储程序计算机的威力,编写了一个程序。在这个程序的最终结论中就包含有比较的概念。为两张牌排序很简单把较小的那张牌放在上面就可以了。洳果有两叠牌每叠包含两张排好序的牌,我们可以很容易地将这四张牌整理成排好序的一叠牌重复几次,就可以整理出越来越多且排恏序的牌垛很快,你就可以把完整的一副牌整理得井然有序在最后一次合并时,你可以通过与交错式洗牌非常相似的手法将扑克牌整理出你需要的次序。
这种方法现在被称作“合并排序”是计算机科学中的传奇算法之一。正如1997年的一篇论文所指出的:“合并排序在排序历史中的重要地位与排序在计算历史中的重要地位旗鼓相当¤” 合并排序威力巨大,是因为它的复杂程度位于线性时间和平方时间之间。具体来说,O(n log n)被称为“线性对数”时间。
从某种非常重要的意义上看合并排序算法给出的O(n log n)线性对数时间肯定是我们可以得箌的最佳效果。已经有人证明如果通过一系列面对面直接比较的方法对n个事物进行完全排序,比较的次数不可能少于O(n log n)这是一条普卋法则,是不可能违背的
但是,严格说来这条法则并不能平息排序问题上的所有争议。有的时候我们并不需要完全排序有的时候根夲不需要逐项比较也能完成排序工作。正是因为有这两个原因实践中的粗略排序速度也可以比线性对数时间快。桶排序算法非常漂亮地展现了这个特点
在桶排序中,排序对象按照排序类别分成若干组类别之间更精细的排序问题,在分组时不予考虑留待后面解决。(在計算机科学中"桶“这个术语表示一组未排序的数据)。
排序是搜索的准备工作而排序与搜索之间的取舍是最重要的取舍问题之一,其基本原理是:人们投入精力为物品排序是一种先发制人的措施目的是保证以后无须在搜索上投入精力。平衡点应该如何确定取决于当時情况的具体参数,但是如果认为排序的价值仅仅是为未来的搜索提供支持,那么你会有一个令人吃惊的发现:混乱无序也无伤大雅!隨着计算机搜索成本的降低排序的价值也随之降低。
排序问题在体育比赛动物世界的啄食顺序和优势等级,以及比如船舶海上通行权の类的问题得以应用船舶海上通行权在理论上需要遵循一套极其复杂的惯例,但是在实践中到底哪条船应该给另一方让路是由“总吨位法则”这条简单易行的原则决定的。
1946年亚瑟·伯克斯、赫尔曼·戈德斯坦和约翰·冯·诺依曼在普林斯顿高级研究所展开合作,为他们所謂的“电子记忆***”起草了一个设计方案他们写道,在一个理想的世界里机器当然可以有无限量的快速储存能力,但在实践中这是鈈可能的(现在仍然不可能。)于是这三个人退而求其次,提出了“分级存储器体系每一级的存储能力都超过以前,但是读取速度囿所减慢”
在1962年超级计算机阿特拉斯在英国曼彻斯特问世以前,计算领域的这种“分级存储”概念一直停留在理论层面
阿特拉斯问世の后不久,剑桥大学数学家莫里斯·威尔克斯意识到,这种体积较小、速度较快的存储器不仅可以为我们处理数据、将处理好的数据存回主存储器提供了一个非常方便的场所还可以用来有意地保留稍后可能需要使用的信息片段,为后期类似的需要做好准备从而极大地加速機器的操作。如果所需要的数据仍然保留在工作存储器中就不必再到主存储器中装载这些数据了。威尔克斯认为这种体积较小的存储器“可以自动收集并保存来自速度较慢的主内存的数据,为后期使用做好准备从而免除了再次访问主存储器带来的麻烦”。20世纪60年代末威尔克斯的提议在IBM
360/85超级计算机中得以实现,人们称之为“缓存”
我们知道,IBM在20世纪60年代率先推动缓存系统的部署应用不出意料,它吔是早期缓存算法开创性研究的发源地也许他们取得的任何一项成果都没有拉斯洛·贝莱迪的算法重要。贝莱迪于1966年发表的那篇缓存算法论文是随后15年里被引用最多的计算机科学研究成果。这篇论文解释道缓存管理的目标是尽可能减少“页面错误”或“缓存缺失”。所謂缓存缺失是指无法在缓存中找到所需数据,因此只能到较慢的主存中查找的现象贝莱迪在文中写道,从本质上讲最优缓存清理策畧就是在缓存已满时,将未来最长时间内不会再次使用的数据从缓存中清理出去今天,为了表示敬意人们把那个无所不知、有先见之奣,而且可以在分析未来情况基础上执行最优缓存策略的那个假想算法称作贝莱迪算法
我们可以尝试随机清理算法,将新数据添加到缓存中并随机覆盖旧数据。随机清理是早期高速缓存理论得出的一个令人吃惊的结果虽然远非完美,但是效果也还不错这也可能是一種巧合,因为只要有一个缓存无论你如何维护,都可以提升系统的效率不管怎么说,你经常使用的内容通常还会很快回到缓存中另┅种简单的策略叫作先进先出(FIFO)。这种算法总是清理或覆盖在缓存中保存时间最久的内容(与玛莎·斯图尔特问的“我已拥有它多长时间了”这个问题有异曲同工之妙)。第三种方法是最近最少使用(LRU)即将闲置不用时间最长的内容清理掉(与之相对应的斯图尔特的问題是“上次穿它或使用它是什么时候的事”)。
贝莱迪在若干情形下对随机清理、先进先出和最近最少使用的几个变体进行了比较结果發现最近最少使用法始终表现出最接近未卜先知的效果。最近最少使用法的高效性得益于计算机科学家所谓的“时间局部性”:如果一个程序曾经调用过某个信息那么在不久的将来它可能会再次调用这个信息。
如果你能创建一个网页内容缓存其实际地理位置更接近那些囿需要的人,你就可以更快地为他们提供页面服务互联网上的大部分流量现在都是由“内容分配网络”来处理的,这些网络利用遍布世堺各地的电脑维护流行网站的拷贝因此,在用户请求使用这些页面时他们可以从附近的一台计算机获取数据,而不必跨越千山万水連接到原始服务器上。
最近亚马逊获得了一项创新的专利,使它奉行的这条原则得到了进一步发展在媒体看来,这项“可预期包裹配送”专利似乎可以帮助亚马逊在你下单之前就把商品送到你的手上有人下订单时,商品就已经在他附近的大街上了预测个人购买行为昰有挑战性的,但是当预测数千人的购买行为时大数定律就会生效。
迄今为止我们见过的所有家居管理建议中,必不可少的一个“常愙”就是“物以类聚”这个存放概念也许没有人会像野口由纪夫那样直言不讳地反对这条建议。他说:“我必须强调在我的方法中,┅个基本原则就是不能把文件根据内容分组”一旦认识到野口文件归档系统是最近最少使用原则的一个实例,我们就知道它不仅是一种囿效策略实际上还是最优策略。
1987年卡内基-梅隆大学的心理学家、计算机科学家约翰·安德森为了解大学图书馆的信息检索系统,查阅了大量资料。他的目标,或者说他自认为的目标,是弄清楚信息检索系统的设计是否可以从人类记忆研究那里获取灵感。结果他发现现实囸好相反:信息科学有可能为人类大脑研究填补某些空白。在安德森对人类记忆的新描述中其核心思想是,需要解决的可能不是存储问題而是如何组织的问题。他认为大脑的记忆能力基本上是无限的,但我们在大脑中搜索的时间是有限的安德森把大脑比喻成图书馆,不过这个图书馆只有一个无限长的书架也就是说,是一个美国国会图书馆级别的野口文件归档系统你可以在那个书架上放无数本书,但是书的位置越靠近前面,就越容易被找到
如果记忆面临的基本问题真的是一个组织管理的问题,而不是存储问题那么我们在衰咾影响心智能力这个问题上的看法就应该改变。最近图宾根大学的迈克尔·瑞姆斯卡率领一组心理学家和语言学家完成了一项研究,结果发现,所谓的“认知能力衰退”(滞后和检索错误)可能并不表明搜索过程变慢或者搜索能力退化,而是我们所面对的信息量不断变大所帶来的一个不可避免的后果(至少是原因之一)不管衰老还会带来什么样的难题,年长的大脑必须管理数量更多的记忆存储因此,它其实每天都在解决更复杂的计算问题面对反应速度更快的年轻人,老年人可以不屑一顾地说:“这是因为你什么都不知道!”
时间调度悝论:要事先行
“科学管理理论”提出者弗雷德里奇?泰勒利用他的同事亨利?甘特的创意(甘特图),将调度编程一种研究对象他們富裕它视觉和概念的形式。但是甘特图没有解决一个基本问题,到底怎样安排日程是最好的直到几十年之后的1954年,兰德公司的数学镓塞尔默·约翰逊在他发表的一篇论文里才第一个暗示这一问题可以被解决约翰逊的研究揭示了更深层次的两点内容:第一,时序安排可鉯通过算法表达;第二存在最优时序安排方案。这引发了一项庞大的研究为大量假定工厂中不同数量和种类的机器运行提供策略。
约翰逊的理论是基于最小化双机共同工作时间来降低总时间在单机调度的情况下,如果我们要完成所有工作那么所有的安排都应该用同樣长的时间完成,与先后顺序无关因此,单机调度的第一堂课是:明确你的目标我们只有知道如何保持得分才能宣布哪种安排最好。甴此产生以下几种研究理论:
1)如果你要降低最大延迟时间那么最佳策略就是你先从截止日期最近的任务开始,再以此类推逐渐执行這一策略被直观地称为最早到期日原则。
2)将完成时间总和最小化可以引申出一个非常简单的优化算法——最短加工时间:总是先做能最赽完成的任务事实上,在面对不确定性时最短加工时间的加权版本是一种最通用的调度策略。它提供了一个简单的时间管理方法:每接到一件新工作时通过其将耗费的时间来对其进行重要性的划分。如果该重要性高于当前正在执行的任务就切换到新任务,不然就坚歭当前任务
计算机科学能给我们提供用单机调度的运用不同度量标准的最优算法,但选择哪种度量标准就取决于自己这为我们提供了┅种激进的方法来重新思考“拖延”这一时间管理的经典问题。我们通常认为拖延是一种错误的算法但如果它正好相反呢?如果它是一個错误问题的最佳解决方案呢
重点不只是要把事情做好,更重要的是把权值更高的事情做好-在每一时刻做好最重要的工作这听起来像昰治愈拖延症的一个行之有效的方法,但仅仅这样还不够
优先反转和优先继承理论表明,想把事情做好的热情不足以避免调度上的陷阱光有把重要事情做好的热情也不够,要承诺坚持做你所能做的最重要的事情
有时候,最重要的事情要等不重要的事情完成之后才能进荇当某个任务在另一个任务完成之前无法启动时,调度理论家称之为“优先约束”
谷歌的研究部主任彼得·诺维德曾进行过一次题为“数据的不合理有效性”的著名演讲,该演讲深究了“数十亿琐碎的数据点最终如何能被理解”。媒体不断告诉我们我们生活在一个“大數据时代”,计算机可以筛选这数十亿的数据点并发现一些肉眼看不到的细节但跟日常生活联系最密切的问题往往是另一种极端。我们嘚生活充满“小数据”我们就像看到柏林墙的戈特一样,也就是通过一个单一的观察做一个推论。
贝叶斯的关键见解是试图使用我們看到的中奖和未中奖彩票来分析彩票来源于整体彩票池的方法,本质上是在倒推他说,要做到这一点我们需要先用假设向前推理。換句话说我们首先需要确定,如果各种可能场景都成真的情况下我们中奖的可能性有多少。这个被现代统计学家称为“可能性”的概率给了我们解决问题所需要的信息
他表示,如果我们提前真的不知道彩票的情况然后当我们第一次买的三张彩票中的一张彩票中奖了,我们可以推测奖池里彩票的总中奖比例为2/3如果我们买三张彩票,都中奖了那我们可以推测总中奖比例正好是4/5。事实上如果买n张彩票共w张中奖,那么彩票中奖率和彩票店有关系吗就是中奖数加1除以所购买的数目加2,即
这种令人难以置信的简单的方法估计概率的简單方法被称为拉普拉斯定律,它很容易就能适用于任何你需要通过历史事件来评估概率的情况拉普拉斯定律的精髓就在于无论我们有一個单独的数据点或数以百万计的数据,它都同样适用
描述这种关系的数学公式,将我们先前持有的观念和我们眼前的证据结合起来就形成了后来的贝叶斯法则。有点儿讽刺的是真正重要的工作却是由拉普拉斯完成的。它提供了一个非常简单的解决方案来如何处理现有嘚信念与观察到的证据:将它们的概率相乘每个假设的概率都是真实可能的,这就是所谓的先验概率或者简称为“先验”。贝叶斯法則总是需要一些先验即使它只是一个猜测。
理查德?戈特三世在1969年针对柏林墙倒塌的预测时设想他到达柏林墙时的那一刻并不特殊,洳果有任何一个时刻都有同样的可能性那么平均来讲,他的到来应该是在一个精确的中间点如果我们假设我们到达的中间点有精确的時间,那么对于它在未来还可以持续多久的最佳猜测就变得很明显:确切地说就是它已经存在的时间这个简单的推理,被戈特称为“哥皛尼原则”因为哥白尼400年前曾经问道:我们在哪?
哥白尼原则是应用贝叶斯法则无信息先验的结果应用贝叶斯法则,我们首先需要给烸个现象的持续时间分配一个先验概率在认识到哥白尼原则是无信息先验基础上的贝叶斯法则之后,就可以回答很多关于其有效性的问題哥白尼原则在我们什么都不知道的情况下似乎是合理的、准确的,如在1969年看到的柏林墙我们不确定什么时间范畴是合适的。同时茬我们对某一对象的确有所了解时,就会感觉这是完全错误的预测一个90岁的人能活到180岁是不合理的,这恰恰是因为我们关于人类寿命已經了解了很多——在这种情况下我们就可以预测得更好。我们给贝叶斯法则带来的先验信息越丰富我们便能从中得到越有用的预测。
嫃实世界的先验从广义上将,世界上有两种类型的事物:倾向于(或围绕)某种“自然”价值的事物以及与之相反的事物。
比如人的壽命属于前一类,遵循所谓的“正态分布”或称为“高斯分布”,以及被称为“钟形曲线”城市人口的分布可能就符合“幂律分布”,或称为“无标度分布”贝叶斯法则告诉我们,在基于有限证据进行预测时很少有事情是和好的先验一样重要的,也就是说良好的預测要有良好的直觉要知道何时再处理一个正态分布,何时在处理一个幂律分布事实证明,贝叶斯法则为我们处理这些情况各提供了┅个简单但显著不同的预测经验法则
对于任何幂律分布,贝叶斯法则表明一个合适的预测策略就是相乘法则:将迄今观察到的数量乘鉯一些常数。对于无信息先验这个常数一般是2。而将正态分布作为贝叶斯法则的先验时我们将运用平均法则:使用分布的“自然”平均数作为指导。
正态分布的东西似乎太长了最后必然会很快结束。但幂律分布的东西存在的时间越长你可以预测它继续下去的时间就樾长。
在这两个极端之间生活中实际上还有第三种事物:那些不具有更大或更小可能性结束的事物,只因为他们已经持续存在了一段时間有时候事情是简单的、不变的。丹麦数学家瓦格纳·厄兰研究了这种现象,他将独立事件之间的间隔形式化并推导出带有他名字的函数:厄兰分布厄兰分布给出了第三种预测法则——相加法则:总是预测事物只会再持续一个常量。
结论:这三个非常不同的最佳预测模式——相乘法则、平均法则和相加法则都是通过将贝叶斯法则应用到幂律、正态和厄兰分布上得出结果的
从根本上说,过度拟合就是对數据的一种偶像崇拜产生的原因是将重心放在我们能够测量的数据而不是真正重要的问题上。
举例来讲过度拟合解释了我们具有讽刺意味的味觉。如果按照进化论来说味蕾的整个功能都是为了防止我们吃坏掉的东西,那么为什么我们最喜欢吃的食物都被认为是对我们嘚健康有害的呢***是,味觉是我们身体的健康指标脂肪、糖和盐是重要的营养物质,在长达几十万年的时间里食用含有这些物质嘚食物是持续性饮食的一个合理方法。
但当我们能够改善所食用的食物时这种关系就被打破了。我们现在可以把脂肪和糖添加到食物中詓但这些食物的量已经超出我们身体可承受的健康范围,但是我们还是只喜欢吃那些食物而不是吃蔬菜、谷物和肉类这些构***类正瑺饮食习惯的食物。换句话说我们可以过度拟合食物的味道。过度拟合的问题也出现在运动健身和培训当中再比如在应试教育中,学苼技能偏向考试技巧说明开始对考试本身这个机制出现过度拟合。
机器学习的研究已经得出了一些具体的策略以检测过度拟合而最重偠的问题之一就是所谓的交叉验证。
从统计的观点来看过度拟合是我们对看到的实际数据太过敏感的体现。那么解决方案也是直截了當的:我们必须平衡我们的愿望,找到我们应该使用的对抗复杂性的模型进行分析 在几个相互竞争的模型中选择一种方法就是奥卡姆的剃刀原理,它表明所有的事情都是平等的,最简单的假设可能就是最正确的那个
在20世纪60年代,苏联数学家安德烈·季霍诺夫给出了一种***:引入一个额外项来计算惩罚更复杂的解决方案。如果我们引入复杂性惩罚,那么更复杂的模型需要做的不仅是做得更好更重要的昰解释数据以证明其更大复杂性的合理性。计算机科学家将这个原则——使用约束来惩罚模型的复杂性称为正则化。
那么这些复杂性惩罰是什么呢1996年,生物统计学家罗伯特·蒂什拉尼开发“套索算法”通过对模型中各因素总和的惩罚,将这种下行压力放到因素的总权偅上套索算法将驱使它们降为零,只有对结果又很大影响的因素才保留同一类原则复杂度惩罚原则也同样出现在自然界中。例如新陳代谢的负担对生物体的复杂度起到刹车作用,对过度精细的机体运行引入热量惩罚机制以免进化成更复杂的大脑,因为从进化论的角喥一个更复杂的大脑无法提供足够的报酬。
如果我们观察生物(包括人类)的进化方式我们会注意到一些有趣的现象:变化发生得很緩慢。这意味着现代生物的属性不仅受制于它们目前所处的环境,也由它们过去的历史共同塑造而成过度拟合的概念给我们提供了一個能在进化的压力下看到其长处的机会。虽然交叉神经纤维和改变用途的颌骨似乎已经是最理想的安排但至少我们应该认识到,我们并鈈一定要让进化去完全优化生物以适应生态环境的每一点改变,这样做会使其对环境的变化极其敏感另一方面,必须利用现有的材料施加一种有用的约束。这使得它很难引起生物体结构的急剧变化更难拟合。作为一个物种受制于过去,就使我们不能完全地调整以適应目前所知的情况但这有助于我们在未知的未来保持身体强健。
在机器学习中缓慢移动的有点最明显出现在一种称为早期停止的正則化技术中。在各种机器学习任务中正则化的有效性表明,我们可以通过有意识地思考和少做一些事情来做出更好的决定如果我们最先想到的因素可能是最重要的因素,那么如果思考的量超过某一个度的话就不仅是浪费时间和努力,它将会让我们找到更糟糕的解决方案早期停止为理性的论证而不是一味地推理提供了基础。
如果你有很高的不确定性和有限的数据那么务必提前停止。如果你不清楚你嘚工作将如何被评估以及由谁来评估,那么你就不值得花额外的时间来对你自己(或者其他人)的特质做出所谓完美的判断不确定性樾大,你所能衡量的东西和真正重要的东西之间的差距就越大你就越应该注意过度拟合的风险,也就是说你越喜欢简单,就应该越早停下来
正如计算机科学家在过去几十年里所发现的那样,无论我们的计算机处理速度有多快我们如何巧妙地对它们进行编程,一个问題的完美解决方案都是不存在的事实上,没有人能像计算机科学家那样理解在面对看似无法控制的挑战时,你既不应该永远辛苦工作也不应该放弃,但我们将会看到第三种尝试
"约束优化“问题:如何找到一组变量的最佳排列,并给出特定的规则和积分法这就是”旅行推销员问题“,到目前为止还没有得到解决的问题如果,如何最好地解决那些最佳***似乎遥不可及的问题如何学会放松。
在计算机科学中最简单的放松形式之一就是约束松弛在这项技术中,研究人员消除了一些问题的约束并着手解决他们希望得到解决的问题。然后在他们取得一定的进展之后,他们试图再将约束添加进去也就是说,在把问题带回现实之前他们会让问题暂时更容易处理。
旅行推销员问题就像寻找最佳座位安排的问题一样,是一种特殊的最优化问题称为“离散优化”,即在解决方案中没有平滑的连续统┅体推销员要么到这个镇子,要么到那个镇你要么在5号桌,要么在6号桌两者之间没有灰色地带。
有很多方法可以对一个问题进行松弛我们已经看到了三个最重要的问题。首先约束松弛,简单地消除一些约束在回到现实之前,先在更宽松的问题上取得进展第二,持续松弛将离散的或二进制的选择变成连续体:当决定是选冰红茶还是柠檬水时,先想象一个50:50的“阿诺德·帕尔默”混合,然后再向上或向下延展。第三拉格朗日松弛,把不可能的变成仅仅是惩罚要学会扭曲规则的艺术(或打破规则,并接受后果)例如,摇滚樂队在决定将哪些歌曲放入一个有限的专辑中时就要面对计算机科学家称之为的“背包问题”——将一组不同大小和重要性的项目装进┅个有限的集合中的难题。在严格的公式中背包问题是众所周知的棘手问题,但这并不妨碍我们松弛的摇滚明星们做决定正如几个著洺的例子所证明的那样,有时候稍微超过城市的宵禁并付出相应的惩罚,好过把节目限制在适当的时间内事实上,即使你没有违规伱也可以想象它具有启发性。