博客

  • 大模型AI距离人类有多远

    自从chatGPT火爆兴起,到Midjourney图片生成,AI又一次站到了风口浪尖,而且来势汹汹,大有颠覆行业之势。那么到底大模型AI距离人类,差距在哪些地方?

    要说差距,先看大模型AI到底能做到些什么?大模型,无论是chatGPT还是谷歌的Bard,原理都是用足够多的参数(数千亿,上万亿),和足够多的数据(号称人类全部知识)去训练模型。所谓AI模型,就是去模拟人类的输入-输出,参数量越大,模拟得越准确。

    再来看人类认知能力是怎样的。从哲学的“认识论”上来说,人类认识能力,无外乎先天知识和经验知识。先天知识是与生俱来的认知能力,而经验知识是在客观环境中,通过先天知识获得的反馈。

    先天知识对应到GPT就是预训练模型,只是这个预训练模型特别牛逼,是生命出现在地球上以来,大概35亿年的训练过程,加上好几次非常特别的参数变化:大洪水、大火山、陨石撞地球等等。训练的结果就是DNA,有效性息量大概也就3.2G(当然也可能我们对遗传物质的认知不够),而GPT3的预训练模型大小已经有几百G。其存储效率以及对应的能耗差别巨大。

    经验知识,更接近用预训练模型针对特殊场景的训练,人类这个过程就是从出生到发育完成的过程,经历十多年,并终身不断更新。不同的生活背景、教育背景、把每个人都训练成了不一样的模型。

    然而人类作为一个种群,还有跟现在大模型AI不一样的地方,就是种群内大量的模型,进行自然选择。OpenAI再厉害,也就训练出来了一个模型(或者几个),但是人类同时训练着几十亿个模型,历史上曾经出现过上千亿的人类,也就是训练了上千亿的模型,并通过自然选择,传承了最合适的一部分。单体模型和群体模型,有着根本性的区别,也就是社会性。人类作为一个独立个体,失去了社会性,只剩下动物性,其认知能力可能比现在的大模型AI更弱。我觉得这也是目前大模型AI的能力天花板。

    人类社会性有哪些体现?简单说,包括:道德、阶级、自觉、利他、服从、依赖等等,这些确实是目前AI与人类最大的区别。

    所以,AI目前的发展道路,指向的还是工具、更高级的工具,更智能的工具,而非人类的替代。就像工业化进程,并没有让人类被机器替代,反而让人类的生产能力获得空前的提升,物资空前的丰富。(本文配图来自百度文心一言)

    AI真正要变成人类,先解决模型的能效问题,再通过大量的模型之间的合作与竞争,建立社会性,才有可能。

  • 你好,2023

    虽然短期不确定性还那么多,但是有些趋势是确定性的,比如:夏天到来之前,中国就会走出疫情的影响(虽然留下重重的伤痕);全球气候异常会愈演愈烈,人类控制气温的努力节节败退;中国人口开始减少带来的经济社会压力逐步体现。

    要在不确定性下,寻找确定性的机会,对于商业来说,不管是国企民企,不管是政策怎么调整,开源节流、谋取合理的利润,一定是正确的。对于商业保险来说,健康险的机会也是确定性的,健康险与医疗服务的结合也是确定性的。在这些确定性来临之前,如何活下来,对客户有价值、对员工有价值,也一定是正确的。瞄着这些确定性的事情来做,才能穿越这个冬天,走到春暖花开的日子。

    对于个人,不断学习提升、也是必走之路。

    先说一下读书计划,2022以历史为主,读了几套大部头,2023打算以哲学为主,内心的疑惑越来越多,需要给自己的思想做个大扫除,套用苏格拉底的话,“一个未经审视的人生不值得过”。

    具体书目:

    • 《柏拉图四书》
    • 《精神现象学》
    • 《存在与时间》

    希望自己能有决心和毅力啃下来这些。

    第二个大的目标就是健身,22年断断续续,23年给自己一个小目标,每周两次健身,内容形式不限,比如跑步、力量都可以。

  • 为什么要读《自由宪章》

    我一直觉得哈耶克可以称得上人类文明之光,他给在黑暗中摸索的人类文明照亮了方向,作为一个经济学家,他的思想却远远超出了经济学的范畴。他的政治思想,在当下世界局势中,尤其值得重视。目前全球经济在疫情影响和中美脱钩的大背景下,又遇到俄乌战争,必然困难重重,导致政治局势多变,世界会进入一个长期的动荡期。这个期间,最容易被损害的,一定是底层民众的利益甚至基本权利。所以,我们有必要重新拿出哈耶克的书,来给世界一个提醒。

    《自由宪章》是哈耶克最知名的作品之一。它先论述了什么是自由。自由向来有积极自由(想做什么的自由)和消极自由(不想做什么的自由)两种区分,但是哈耶克认为这两种自由本质上是一致的,只是程度不同而已。他认为,真正的自由,应该是“除了一般原则禁止的,所有其他的事情都可以做”。也就是常说的“法无禁止即可为”,当然,前提是法足够小,政府的权力足够小,把权力关进笼子。

    接下来,是论述自由的价值。哈耶克认为自由是创造力的保障,是其他权力的基础。这点其实在中国有非常好的体现。中国改革开放,并没有对政治体系进行什么大的调整,而仅仅是对经济减少管制,就迸发了巨大的活力。不可否认,中间有不少政府主动行为的助力,比如招商引资、基础建设,但是最核心的还是减少管制带来的对企业家精神的鼓励。从历史上看,政府对社会和经济活动干预最少的宋元时期,也是科技进步、经济发展、文化繁荣最好的时期。

    然后,哈耶克论述了一系列自由与法律的关系,自由与社会各方面的关系,为他前面的观点提供了丰富而坚实的支持。

  • 冒泡社区回忆点滴

    有一次和一个新员工聊天,他说他从小就是玩着《冒泡社区》长大的,然后在学校看到我们的招聘海报,义无反顾地投了简历。听完,我脑子里“嗡”的一声,当年的回忆就像汩汩泉水一样涌了出来,更有一种记录下来的冲动,也就有了这篇文章。想到一点写一点,也不一定有先后顺序,甚至可能有记错的地方,望谅解。

    2008年,我从北京回到杭州,加入了年轻的斯凯,在CTO区力所在的社区项目组。当时公司在西溪路浙大科技园里,紧挨着浙大玉泉校区,窗户正对着青山竹林,园区里环境幽静,项目组坐在一个大大的办公室里,几排桌椅,没有隔间,区力也和我们一起坐在工位上,标准的科技企业的风格。当时觉得团队里都是老鸟,在那个年代,有经验的程序员还很少,但是冒泡社区团队里,几乎都是,很多都是玩过硬件、跨过N个行业,连测试都很资深,平时还玩音响那种。能把这么多人凑起来,我想,这个公司真牛逼。

    为什么会诞生这么个产品?功能机时代,斯凯在行业里绝对是独领风骚,但是非手机行业的人几乎完全没有听说过,具体数据懒得查了,但是70%-80%的国产手机里预装了斯凯的平台,当时虽然高高在上,但是已经略显疲态的诺基亚系列遇到了国产手机的冲击,国产手机出货量飞速提升,也有斯凯mrp平台的一份功劳。另一个契机就是3G的到来,让手机可以真正联网了,除了手机QQ以外,斯凯嗅到了手机社区和网游的机会。以冒泡社区为承载,上面规划了一系列产品,包括网游、论坛、基于LBS的交友社区、聊天系统、甚至为了支持网游付费,还专门做了一整套虚拟货币体系、发行了自己的点卡、打通了银行卡支付。后期又增加了视频、小说等等产品。这里面每一个小功能,几乎都在后来移动互联网时代来临以后,成就了几家巨头公司。当然,从斯凯出去创业的兄弟姐妹们,也经历了几波红利,有成功套现上岸的,也有走向歧路进来监狱的,当中太多故事,将来有机会再慢慢讲来,斯凯也得了个“移动互联网黄埔军校”的名头。

    说回冒泡社区,我当时负责的是基础模块,包括手机端的网络连接和数据包的编解码,服务端的接收等等。当时要手机连上网,可没有现在这么简单,仅仅是连接模式就有NET、WAP,还有直连和代理模式,网络时好时坏,所以数据包的重发机制、缓存机制、握手和应答机制做得非常复杂,我又做了个自动测试网络连接的逻辑,选择最快的连接模式,最后让上层应用不再需要关心连接问题。上线第一天,这空空聊天室里,第一个注册用户发了言,整个团队欢呼雀跃,但是不到半小时,系统就宕机了。一方面开始拼命查问题,一方面开始做了个服务期自动重启的脚本来临时解决问题。我心里很着急,但团队里大家一点都不紧张,好像觉得我可以轻松解决这个问题,互相之间这种超乎想象的信任,不通过冗杂的项目管理的方式,而通过一群顶尖研发的个人能力,来保证产品的质量,这样的模式我至今还没有在其他地方遇到过。用户更是出奇地容忍,虽然每个小时都会掉线,但是每次都会努力重连上了,在聊天室里跟其他用户打招呼。有一种当年拨号上BBS论坛的感觉。

    为了测试平台的能力,我们自己做了一个飞机大战的对战游戏,就是个PK分数的对战,没有什么互动,但是也吸引了一大帮用户。平台上线以后,开始引入CP来研发网游。我负责设计虚拟货币体系,当时为了设计好这套体系,我去自学了经济学里货币论相关内容,怎么保证不同游戏之间发行的货币可以和用户充值的货币进行兑换?怎么来计算不同货币之间的兑换值?最后想到了在一定范围内做自由浮动,市场化的兑换机制,当时甚至考虑过后期做货币交易所。为了避开充值货币和奖励货币的价值计算系统内部把货币也分成了三套,分别是直接充值带来的,充值赠送带来的,和游戏/系统赠送带来的。这个给后期财务计算收入、运营活动成本带来无比的便利。这套货币系统上线以后,用了超过10年了吧,连服务迭代升级都没有做过,承载了最高每月几亿的流水。

    社区最早只在部分机型上线,上线了几款游戏以后,公司面临一个选择,是把有限的手机列表位置留给冒泡社区,还是留给其他单机游戏。当时单机游戏的收入已经起来了,手机里每个位置都十分值钱。但是社区是网游,前期收入没有这么高,公司运营觉得上线会影响收入,影响他们的KPI。(这是个很明显的大公司里创新项目为什么很难成功的例子)为了能够说服运营,我负责和他们来一起核对收入。我加入了留存率的概念,把每个位置的收入加上时间的维度,虽然每个位置在短时间内收入上,单机游戏明显超过网游,但是我测算下来的模型是,超过一个时间,网游收入就能达到并且超过单机游戏,而且时间越长,网游总收入越高。(这个道理后来游戏行业都以为是天经地义,当时却很难想到)。Michael下了决心,所有适配机型都上线了冒泡社区,后来又引入专门的网游运营负责人,再后来冒泡平台就出了包括《幻想三国》在内的爆款。这些游戏跨越了从功能机到智能机的时代,至今仍然给斯凯提供着丰厚的利润。当然,这是后话了。

    苹果智能手机和安卓智能机起来以后,打开了移动互联网的大门,但是斯凯最早只按照功能机时代的思维,给手机厂商做了可以定制化的应用商店。(当时91无线还来商谈收购事宜,错过了这个机会,后来91卖给了百度,开启了百度移动互联网化的第一步。类似的故事还有很多,比如我上一家公司,互联网元老二六三,老板李小龙也反复讲当初马化腾去找他,想让他收购腾讯,他看了一下产品,觉得没有什么,自己也能做,就没有谈拢的故事)冒泡社区本身没有推出智能机版本,但是我们运营发现有很多来自智能机的用户,而且还充值花钱在玩网游。后来一了解,是玩家实在等不及了,就自己做了一个模拟器,在模拟器里运行冒泡社区。有这样的玩家,也是幸福。公司及时调整了策略,甚至把做模拟器的玩家招进公司,推出了智能机版本的冒泡社区。因为ios的政策原因,不允许做模拟器,又研发了纯H5版本的冒泡社区,去覆盖苹果手机市场。智能机版本的冒泡社区,迅速成为收入主流,帮助斯凯度过了艰难的从功能机到智能机的转型。(另一个智能机时代的利润大头,就是话费支付SDK,当然,这是另外一个话题了)

    冒泡社区里,为了支持银行卡付费,专门招了一个支付行业出来的产品经理,就叫小强吧,第一家对接的银行是农业银行(如果没有记错的话)。现在产品要对接支付太方便了,把支付宝、微信支付一接入就结束了,当时可没有这些,而且在手机上直接用银行卡付费,还是非常稀罕的事情,我都担心用户的接受程度。跟银行对接,对我们的系统也是一个考验,要符合他们非常多的要求,还要处理很多超时和失败的异常,还要从机房拉光纤到银行的机房。上线第一天,用户第一笔充了100元的时候,感觉难以相信。很快,银行卡支付的量占比逐渐提升,用户不再需要去报刊亭买点卡或者话费卡来充值了。后来逐步接入了几家第三方支付,广易联、e宝等等,冒泡社区成了他们非常重视的客户。有一家也是红杉投资的做信用支付的公司Mo9,进入中国以后,在共同的投资商红杉的介绍下,找到我们,把我们作为国内的第一个尝试的客户。虽然效果不好,坏账很高,但是这是我们第一次接触金融模式,学到了信用评估、风险控制等等理念,当互联网金融那一波风潮来的时候,成功地避开了雷区。当然,也有很多小伙伴投身大潮,一夜暴富,第二夜身陷囹圄。从话费支付、点卡支付、银行卡支付、话费卡支付、第三方支付平台一直做到金融保险,也开启了我半个金融科技之路。

    接手整个冒泡社区以后,顺便把冒泡社区官方QQ群都加了,要么是群主要么是管理。QQ群里刷屏的主要是广告(当然,会被我踢出去)、骂游戏的、反馈问题的、找玩伴的,最怕的是吵架的。跟一群年轻人在那里聊天也很有意思,有些用户看我是官方的,回来加我,然后来吐槽或者提各种建议,看得出,是真心喜欢这个游戏。有几个时间长了,把我当朋友(当然他们以为我只是个客服),会聊他们的生活,一般是生活在四线或者更小的地方,打着一份简单的工,游戏是他们主要的休闲方式,有些遇到生活上不顺的,也会来聊,我一般鼓励鼓励,他们就觉得好很多。

  • 记亚马逊几个小事

    Kindle退出中国的消息让我一直耿耿于怀,毕竟作为一个深度用户,基本把kindle当作自己的唯一的阅读器在使用,看了一下,书架里有近千本书籍,最早的电子书是2013年买的,也就是kindle正式进入中国那年。

    亚马逊是我非常尊敬的一家公司,但是在中国市场上却一直没有站稳脚跟,从电商到电子书,都基本退出了中国,丢掉了这么大一个市场,究其原因还是对中国市场的了解不足,没有真正用灵活的、适合中国市场策略来做好中国市场,这算不算是一种大公司病呢?

    2014年的时候,亚马逊想在国内找一家话费支付的合作伙伴,在国内找了一圈,最后找到我们(好像是运营商直接推荐的)。我接手这个合作,也是第一次发现国外一流公司对供应商的选择是如此严格,甚至会去机房数服务器的数量、会有那么多文件要签署,那么对规范要执行,而且都配了非常高的违约金和保证金。不过,最后合作没有建立的原因是亚马逊对话费支付的要求远远超过了电信运营商能做到的,不说坏账率、付款周期,单单是一个退费就无法达到要求。甚至我们在谁向谁开发票的问题上,都纠结了非常久。最后,我推荐他们电子书这块业务直接去和移动的阅读基地合作,通过内容+支付的方式,而不仅仅把话费当作一个支付手段。

    后来,当时亚马逊想在中国开展应用商店业务,约我去上海总部,见了他们一个全球副总裁,名字已经想不起来了。只记得那个楼在静安区、高耸入云,边上小区里都是小洋楼,马路上绿树成荫,让我真正感受了上海的洋气。亚马逊说他们的安卓应用商店全球排名第二(第一当然是谷歌),然后我告诉他我们应用商店的用户量,让对方直接惊掉了下巴。他仔细咨询了国内智能手机行业的情况,后来应用商店进军中国这个计划也就不了了之了。

    这次kindle退出中国,原因没有那么复杂,就是国内的竞争对手太厉害,掌阅、微信读书这样的产品在对中国用户的运营上,远远超过了亚马逊,无奈之举。这方面,苹果做得比它好很多,虽然我不太喜欢苹果这家公司。

  • 顺利升级到Anolis OS

    顺利从CentOS升级到Anolis OS,顺便把wordpress也升级了一下,感觉什么都没变化

  • 2022读书计划

    粗略看了一下,Kindle上2021年读完了45本,加上纸质书,应该在55本以上。其中读得最长的一本是《追忆似水年华》。

    2022年计划把《讲谈社*日本历史》和《讲谈社*中国的历史》两套大部头读完。其他重点阅读方向是社会学与哲学。

  • 《医学数据挖掘案例与实践》

    罗列一堆方法,举一些例子,甚至告诉你用什么软件,怎么操作。学习这本书之前应该有完整的数据挖掘理论知识和方法了解,否则这种不讲原理、没有思考方法的书,不应该学。

    ISBN:978-7-302-44188-5 清华大学出版社

  • 《病案首页大数据分析与应用》

    病案首页医疗统计管理、医保支付结算的重要依据,随着DRG的推进,病案首页的填写质量也越来越被重视。病案首页的数据质量提升以后,能够给大数据分析带来更多价值。这本书介绍了目前病案首页大数据分析的各个主要用途,可供医疗大数据从业人员参考。

    人民卫生出版社 ISBN 978-7-117-31101-4

  • 《算法设计》学习笔记-网络流

    最大流问题

    定义流网络是有向图G=(V,E),具有以下特征:
    1,每条边e关联一个容量,它是非负数,记为Ce
    2,存在单个源(source)节点s∈V
    3,存在单个汇(sink)节点t∈V
    除了s和t以外的节点被称为内部节点

    定义,我们说s-t流是一个函数f,它把每条边e映射到一个非负实数,f: E->R+;f(e)直观地表示边e所承载的流量。流f必须满足下面两个条件:
    1,(容量条件)对于每条边e∈E,有0≤f(e)≤Ce
    2,(守恒条件)对于s和t以外的每个节点v,进入节点的所有流量等于流出节点的所有流量

    定义v(f)是源点处产生的流量v(f)=fout(s)

    假设把图的节点分为两个集合A和B,使得s∈A和t∈B,从s到t的任何流都必须从A穿越到B,这表明每个这样的“割”都限制了最大可能的流量值。最大流量值等于每个这样的“割”的最小容量。

    剩余图:给定流网络G和G上的流f,我们如下定义G相对于f的剩余图Gf
    1,Gf的节点集与G的节点集相同
    2,对于f(e)<ce的G的每条边e=(u,v),有ce-f(e)个“剩余”容量单位,我们可以考虑尝试正向增加流量。因此,我们在Gf中包含边e=(u,v),其容量为 ce-f(e) 。我们将这种方式包含的边成为正向边(forward edge)。
    3,对于f(e)>0的G的每条边e=(u,v),有f(e)个流量单位,如果需要,可以通过反向增加流量来“撤销”。因此,我们在Gf中包含边e’=(v,u),容量为f(e)。我们将这种方式包含的边称为反向边(backward edge)。

    我们把bottleneck(P,f)定义为P上任何边相对于流量f的最小剩余价值。定义操作augment(f,P),它在G中产生一个新的流f’

    augment(f,P):
    令b=bottleneck(P,f)
    For 每条边(u,v)∈P
      If e=(u,v)是一头正向边 then
        在G中将f(e)增加b
      Else (u,v)是一条反向边,且令e=(v,u)
        在G中将f(e)减少b
      Endif
    Endfor
    Return(f)

    Fold-Fulkerson算法:

    Max-Flow
      对G中所有的e初始化f(e)=0
      While 在增广图Gf中存在一条s-t路径
        令P是Gf中的一条简单s-t路径
        f'=augment(f,P)
        将f更新为f'
        将剩余图Gf更新为Gf'
      Endwhile
      Return f

    通过改进选择增广路径的方法,来减少迭代次数。定义Gf(Δ)为剩余图的子集,仅包含剩余容量至少为Δ的边。算法如下:

    缩放最大流
    
      对G中所有的e初始化f(e)=0
      初始化设置Δ是2的最大幂,且不大于离开s的最大容量
    
      While Δ≥1
        While 在图Gf(Δ)中存在一条s-t路径
        令P是Gf(Δ)中的一条简单s-t路径
        f'=augment(f,P)
        将f更新为f'病更新Gf(Δ)
        Endwhile
        Δ=Δ/2
      Endwhile
      Return f