大数据之“小”_数据分析师培训
理论是灰色的,而生命之树常青。——歌德
有已知的已知,有已知的未知,还有未知的未知。——拉姆斯菲尔德
计算机和网络技术的发展,让人们搜集、分析数据的能力大增。千百万消费者的购买记录、众多企业的销售情况、人们对某项商品的查询数量、人们在各种场合有意无意表现出来的个人偏好……这些以前零散在各处,根本无法收集的数据,现在可以尽收囊中,一览无余。数据量大大增加,范围、种类也大为拓展。相比以前的数据量,这被称为大数据。
掌握了大数据,进行深入分析,可以了解很多以前完全无从知晓的社会情况。对商业很有价值,可以帮助企业家准确把握消费者需求,生产出适销对路的产品,并以尽可能小的营销成本卖出去。
从这个角度来说,大数据技术有效地拓展了人们的能力,提高了生产效率和经营水平。但是,随着大数据技术的发展,一些人产生了错觉,以为这下终于可以全面掌控社会和市场了。有人甚至认为,一败涂地的计划经济可以通过大数据技术起死回生。在他们看来,计划经济的失败只是个技术问题。过去的人们没有大数据技术。如果有大数据技术,计划经济完全可行。
这就大错特错了!
相对于IT革命以前的数据量,现在的大数据技术确实很“大”,但相对于他们设想的全面、准确地掌控社会和市场所需要的信息量,大数据实在只能被称为“小”——小得很。
哈耶克论证计划经济必然失败,市场经济才是唯一可行之道的核心原理就在于:人类处于永恒的“无知”状态。
看上去,人类知道很多。图书馆中堆积如山的各种书,不都是人类掌握的知识吗?无数个硬盘、光盘、磁带中存储的,不都是数据和知识吗?这些知识总量之大,简直如恒河沙数、难以计量。既然如此,为何还要说人类必然地、永恒地处于“无知”状态呢?
这其中的道理是:人们实际应用的知识,要远远多于他们能够理解、表达、记录的知识。大量被人们每时每刻应用的知识,并不为人的理性所感所知。这些知识固然存在,但对人类理性来说,却处于“无知”的领域。
鸟类自由自在地天空翱翔,但它们对其始终都在运用的空气动力学一无所知。猎豹追逐羚羊时,奔跑速度惊人、姿态优美。豹羊双方都高效运用着自身的骨骼、神经和肌肉。但无论是猎豹,还是羚羊,都对生物力学和解剖学一窍不通。
这种一无所知和一窍不通,丝毫也没有妨碍生物圈的生生不息。演化而成的生物圈,并不需要身处其中的动物、植物在理性上掌握生物学知识。动物、植物所具有的,是演化而成的性状和生存技能。换句话说,它们会使用那些知识,但它们丝毫也不理解那些知识。它们甚至连起码的理性也不具备。
人类组成的社会,虽然比生物圈高级得多,人类的理性能力也比动物植物强大得多。但在理性掌握的知识和实际运用的知识之间的巨大差距上,社会和生物圈并无本质不同。
实际上,人们正是通过对生物圈的观察受到启发,开始从演化而非设计的角度理解社会。曼德维尔的《蜜蜂的寓言》是这方面的开创之作。在达尔文进化论和亚当斯密《国富论》之间,也有明显的知识亲缘关系。
构建、维持、发展社会所需要的知识,远远超过任何人类大脑所能理解的知识。不管人类如何努力,不管计算机技术如何发达,人类在知识领域的“无知”状态都无可改变。
大数据技术的前提是,人们已经认识和了解到某项数据的存在和意义。过去,由于技术的限制,无法搜集或者分析这些数据。有了计算机以后,就可以搜集、分析这些数据了。如果有更强大的计算机,还可以搜集、分析更多的已知数据。
由于人类无可改变的“无知”状态,大量的知识,虽然时时刻刻发挥着不可或缺的作用,但却不为人所知。因为这些知识不是以可表达、可记录数据的方式存在,计算机再强大,也无从搜集、分析这些不存在的数据。再精准的狙击枪,也无法命中不知在哪里的靶子。这些数据,处于“未知的未知”领域中。换句话说,有些事情,你知道;有些事情,你知道你不知道。但最多的事情是,你都不知道你的不知道。
如果人们如此无知,社会为什么没有崩溃呢?构建、维持、发展社会所需要的知识,如果没有存在于任何人的大脑中,那么,又存在于哪里呢?
答案是,哪里也不存在,所以也别费心去找了。人类确实需要超出大脑能力的智慧和知识量,但这个任务是由演化来完成的。人类社会是演化的结果。通过长期优胜劣汰、适者生存的演化,人类逐渐学会了运用那些必须的知识,但只是学会运用而已,并不能理性地掌握。被理性掌握的,只是其中的一小部分。能看到的冰山,只是水面上的那一小块儿。
也就是说,人类大脑的能力虽然有限,但经过演化,有限的大脑在社会中却能成功地运用远超出其理解范围的知识。
人人都会说话,但理解和掌握语法规则的,只是人群中的一小部分语法学家。在对语法规则毫无所知的情况下,人们已经正常说话成千上万年了——那千万年中,语法知识藏在哪里呢?
很多人学外语时,虽然对语法规则很熟悉,却连起码的会话能力都没有,语言能力还不如那种语言的文盲。其实,即使是语法学家,也远远没有彻底理解语言。比如,语言到底是如何产生的,到今天也没人能说清楚。而外语学习的规律,人们也只理解到很初级的水平。
货币、法律、国家、道德、习俗……这些长期演化而成的社会事物,文明人都能在生活中运用自如,随心而不逾矩,但绝大多数人对这些事物没有起码的研究。甚至说他们对此一无所知,也无大错。有几个人能看懂货币学专著呢?法律难道不是最艰深的学问吗?但一无所知又怎样呢?人们因此就不会使用货币,动辄触犯法律吗?
计划经济者的虚妄,就在于他们认为,只有那些被表达出来、被记录下来的知识才是知识。于是,只会用不会说的正常人,就被划为毫无知识的愚昧民众。愚昧民众必须由有知识的委员会来指挥。如果民众不服从委员会,就是无知挑战知识,就是落后对抗先进。为了社会的发展和进步,就要用刺刀强迫他们服从。这就是中央计划。可是,委员会在现实中稍一尝试,就立刻体验到巨大的“无知感”。
十月革命后不久,托洛茨基就感叹:一个只有五百亩的小农场,居然有那么多事务要去判断、决定。苏维埃那几个计划人员,如何忙得过来?沙皇时期,俄国长期向欧洲出口粮食。在委员会计划取代愚昧农民的自主安排以后,一直到解体,苏联农业也是谁都解决不了的大难题。曾经的粮食主产区、土壤肥沃的乌克兰,居然发生了可怕的大饥荒。数百万人成为委员会农业计划的牺牲品。
为什么计划经济无一例外地都萎缩成匮乏经济,商品供应不足,且种类稀少?为什么计划经济社会都色彩单调,蓝蚂蚁满街走?这不仅是因为生产力落后,仅从计划人员的工作强度来说,他们也不能让社会太丰富多彩啊——社会太丰富,委员会的人,忙死也计划不过来啊。
研究苏联计划经济的经济学家发现,要想让苏联市场维持基本运转,计划委员会至少要日日确定2600万种商品的价格及其变化。如此可怕的任务,还是交给天使去完成吧。商品、服务种类的增加,对消费者来说,是福音。对计划委员会来说,是噩梦。
计划经济的核心不是计划,而是强制。委员会通过强制,禁止人们运用那些虽然说不出来、但可以正常使用的知识——这些知识表现为经验和转瞬即逝的临时信息,比如某街区特定时段适于销售的商品种类和价格。委员会代之以被他们头脑所理解、可以写在文件中的知识。
可是,相比社会正常运转所必需,委员会掌握的那点儿知识,九牛一毛都不到。结果就是,知识根本不够用,社会也就因为缺乏知识而迅速落后和衰败。
为了维持、发展一个大社会,人类必须运用很多知识,但却只能理解其中很小一部分,记录和研究更小的一部分,这就是人类无可改变的知识状况——无知。在大数据时代,这种“无知”状况有望改变甚至扭转吗?这还用问吗?
市场往往被形容为无形的手。其实,市场更本质的特征是一个超级大脑。这个大脑时时刻刻都在收集、储存和运用巨量的知识。这个大脑的能力远超任何人两耳之间的那个东西。试图用自己的脑袋或者计算机代替市场这个超级大脑的,都是十足的妄人。他们的结局,只是害人害己。
大量须臾不可离的、极有价值的知识和信息,是不可能被集中收集到某个中心的。这些知识和信息,注定只能以分散的形式存在于社会的各个地方。开发、利用这些知识的唯一办法是让人们去自由探索和试错,让事实而不是某个人、某些人的意志决定谁对谁错,谁成谁败。
自由人的自由探索,和任何形式的、基于强制的中央计划都格格不入,绝不兼容,不管这个中央计划声称自己掌握了多少数据。
接下来进入广告时间。各位请不要走开。
说是广告,其实是一个现实的例子,用来进一步说明大数据的局限性。
我的一个朋友——新浪微博ID @迢书——开发了一款APP,名为“熟信”,用于熟人之间的借贷。熟信通过巧妙的设计,解决了熟人之间借贷的信用问题,让人们更有机会通过熟人借贷满足资金需求。
借贷,面临的主要问题就是风险控制。银行业,说到底,就是靠风险处理能力来赚钱的行业。
判断风险,也就是判断借款人还不起、赖账的可能性,无非两种办法:
第一、数据和大数据方法
这种方法搜集借款人的种种特征和信息,也就是数据,比如过去的消费记录、信用记录、资产状况、婚姻状况、犯罪记录,等等;另外就是借款的用处和赢利前景。通过这些数据,判断借款人借钱不还的可能性。
自从银行产生以来,银行家大致就是这么控制风险的。一个曾经借钱不还,或者很穷,或者借钱去处很不靠谱的人,就很难从银行借到钱。
注意:银行收集的这些数据,一定是那种“你知道你不知道”的知识。你知道,一个资不抵债的人很可能赖账,你不知道的,是他具体的资产状况。要做的,是去搜集他的资产状况数据。搜集到了,就可以用来判断风险。
进入大数据时代以后,人们知道了更多值得知道的数据。比如,一个人十年没有更换过手机号码,那么,他应该比较可信,因为这说明他至少十年没躲过债。一个人多次出国旅游,护照都用了好几本了,他的收入多半比较高。根据一个人的淘宝购物记录,可以比较准确地判断出他的经济状况。
在大数据时代以前,确实无从搜集这些数据。即使知道这些数据很管用,也搜集不到。
问题在于,这些数据真能全面、准确地反映一个人的信用状况吗?恐怕只是近似和大致而已。重要的是,你知道这些数据很重要,借款人当然也知道。你的大脑并不比他更能干。于是,那些蓄意骗贷的人,会在这些方面提前下功夫,制造出符合要求的数据。
因此,现实中的银行,即使搜集到很多这种数据,一般也不敢轻易放款。他们还要借款人提供足够的抵押和担保。这足以表明,银行其实很清楚,靠这些有形数据,即使数据量再大,也不能真正控制风险。
可是这样一来,银行就要放弃一大块借贷市场。放弃那些其实很有前途、信用也很好,只是不能提供有形数据或足够抵押的借款人。银行只能眼睁睁看着风险投资在这个市场中赚钱了。
风险投资的做法是干脆放弃判断风险,转而追求一将功成万骨枯。只要盈利项目的收入足以弥补亏损项目,有多少项目亏损,无所谓。
可是,这样也有问题。只有那些具备高成长性和有可能赚到超额利润的项目才会得到风险投资。正常利润的投资需求,风险投资是懒得关注的。
第二、综合判断
一个熟悉的亲戚或朋友向你借钱,你不会像银行那些去搜集他的种种数据,顶多会问一下借款的用处。
为什么你不去搜集他的种种数据?因为你掌握着更丰富、更详实的数据——只不过,这些数据是不可见的。它们并没有被记录、储存在某个地方,而是融合成一个整体,形成你对那个人的印象。也正因此,他被称为你的熟人。你对他的为人、信用、性格、收入、家庭都有着足够的了解。无须依靠任何可见数据,你就能判断出他是否会赖账。
给你一张纸,让你写出某个熟人的种种特征,你很可能写不出太多。可是实际上,你对他的了解,是一个极大的“数据库”。这个数据库由多年面对面打交道的经历积累而成,无数的交谈、语气、表情、感受……其中包含的知识和信息量之大,根本无法计量。你可以自如、简单地使用这些知识,以判断这位熟人的信用,但你自己也说不清这些知识到底是什么。
到底他什么时候的哪次谈话,让你开始觉得这个人可以信任的?他说了什么,让你觉得他这个人不靠谱的?为什么别人都觉得他不错,就你认为他不好?每次吃饭他都抢着买单,为什么你还不愿意和他一起吃饭聊天?他做生意已经赔了好几次了,为什么你觉得他这次会成功……
类似的问题,根本无从回答。但回答不出来,并不影响你做出判断。即使你忘记了所有细节,只要是熟人,你就会对他有清晰的印象和判断。这种熟人之间的互相了解,不依赖有形数据,却拥有比任何大数据都要大得多的数据量。相比这个无形的数据库,大数据所能搜集、分析的数据实在太小——小得很。
各有各的用处
两种方法相比,显然,综合判断所能利用的数据量要大得多,可靠性也高得多。因此,在那些由于种种困难银行不能开展业务的地方,熟人之间的借贷成为满足人们资金需求的主要方法。银行不是哪里都有,熟人借贷却无处不在。
那些困扰银行,以至于使其无法开展业务的障碍,却不能阻挡熟人借贷的顺利进行。就算是在极端情况下,比如逃荒途中,正直可靠有信用的人,也依然会从熟人那里借到钱粮。你能想象有什么银行会向狼狈困顿的逃荒者发放贷款吗?
虽然熟人借贷能够利用那个最大的数据库,可靠性很高,但世事无完美,熟人之间的违约、赖账当然也会发生。熟人借贷的短板正在这里。
生人之间的借贷,或银行发放的贷款,债权人可以毫不客气地追收借款,并不必顾忌人情和面子。熟人借贷就不同了。面对多年的熟人,以及相关的社会关系,严厉追收欠款,说起来容易做起来难。
正因为有这个顾忌,所以熟人之间的借贷,即使违约风险很小,人们往往也敬而远之。“不向朋友借钱,也别把钱借给朋友”。无数长辈都这样教导后人。因为他们见到或听说太多借钱导致朋友互相尴尬,甚至反目成仇的例子。
熟信正是为了解决这个问题。
如果你有余钱放贷,打算赚取利息收入,那么,熟信请你给目前的朋友分别作出匿名评估。评估无须具体描述,而是列出你对某人放心借贷的资金量。
你愿意借给他多少钱,足以显示出你对他的信任度。这实际是一个价格信号,而价格信号正是演化而成的市场体系的核心部分。价格信号的独特优势在于,它虽然抽象简单,但却是一种完备信息,包含了所有你意识到、没意识到的可用知识和信息。所有这些知识打包在一起,形成价格。
通过技术手段,熟信在打算放贷和打算借钱的熟人之间进行匹配。熟信并不经手资金,仅限于居中搭桥,让双方匿名借贷。借到你钱的,一定是你的熟人,借贷额不超过你给他的信任评估额。另一方面,你借到的钱,一定来自熟人,数额不超过他对你的信任度——这个信任度是用钱表达出来的,非常可信,比当面夸奖可信多了。
为什么一定要匿名呢?这就是为了解决熟人借贷的风险问题。熟人之间发生违约赖账,大家不好撕破脸皮制裁赖账者,现在,这个恶人角色由熟信来充当了。即使只违约一天,他们也将毫不客气地公布赖账者,即使债权人不忍心也不行。
其实,这个恶人也并非由熟信经营方来充当,而是由一个事先声明、参与者都自愿接受的自动机制来充当。正因为是自动机制,被制裁者无法迁怒于任何具体人。规则就是如此。抱歉,谁也帮不了你。
没有熟信,债务人违约赖账,只被债权人和少数知情者得知。即使债权人撕破脸大闹,其他人也不见得就完全相信——谁知道你们俩当初是怎么说的,后来又发生了什么事……
有了熟信,债务人的违约信息,将以正规清晰的形式发布给所有参与者。大家将相应改变对他的信用评估。他以后再想借钱,即使不是不可能,也一定困难重重。这种效果简直和传统社会的债务监狱差不多——违反市场规则的人,在作出赔偿和超额弥补以前,被赶出市场。他没有机会再次破坏市场秩序了。
传统社会中债务监狱的存在,是市场纪律必须的保证机制之一。金本位约束了政府滥发货币的贪欲。债务监狱则约束了个人的怠惰和不负责。可惜,后来由于片面人道主义的泛滥,债务监狱不再被允许存在。这就破坏了市场纪律的基础,成为当代许多败德行为和无赖心理的源头。
熟信的这些巧妙设计,把人类社会产生以来就有的那个熟人信息数据库开发出来了。过去,这个数据库也存在,但由于熟人之间缺乏有效的制裁手段,数据库的使用受到很大限制。现在,借助熟信,人们有了空前广泛的机会开发利用这个数据库中的大量知识。从这个角度,说熟信实现了市场的一种解放,并不是夸张和溢美之词。
当然,世界上毕竟不可能全都是熟人借贷。生人之间的借贷,势必大量存在。银行依靠有形数据和抵押担保的风险控制方法虽然不理想,但毕竟可以满足生人之间的许多借贷需求。两种风险控制的方法,并不存在高低优劣的差别。它们分别适用于不同的领域而已。方法本身没有错,错的是误用和滥用方法。
有人试图利用大数据来客观分析出人们信用水平,不再用抵押担保,就开展生人之间的借贷业务。这就是对大数据技术的滥用。这些平台的很快失败,甚至爆出丑闻,完全在预料之中。
之所以会误用、滥用大数据技术,就是因为他们没有意识到大数据之“小”。大数据技术确实为人们提供了比过去多得多的数据,但面对无限广大的社会知识领域,人类无知的状况并没有多大改变。人类在这个世界上依然很容易犯错误、永远要面对未来的风险和不确定性。探索的唯一方式还是试错、反馈和持续修正。真理永远可望不可即。
熟信的意义,在于创造出一个框架,人们可以借此开发利用自身掌握的丰富知识,而不是像那些无知的大数据拥趸那样,试图取而代之,用自己收集到的拙劣、贫乏的“大数据”去挑战无比丰富、无限广大的社会知识库。这些拥趸,如果有了刺刀,就会弄出毁灭社会的计划经济。没有刺刀,就会弄出一场场注定失败的烧钱游戏。
哈耶克对人类知识状况的揭示,既说明了人类理性的永恒局限,也告知世人自由的极端重要。自由,不仅有高度的道德意义,也有不可取代的效率价值。自由的社会,才是繁荣富强的社会,这绝非偶然。人类永恒的无知状况,这并不是一个坏消息。直面这种不可改变的无知,人们才会抑制自身的狂妄,去努力探寻真实的成功之道。