分类：停停

冒泡社区回忆点滴

有一次和一个新员工聊天，他说他从小就是玩着《冒泡社区》长大的，然后在学校看到我们的招聘海报，义无反顾地投了简历。听完，我脑子里“嗡”的一声，当年的回忆就像汩汩泉水一样涌了出来，更有一种记录下来的冲动，也就有了这篇文章。想到一点写一点，也不一定有先后顺序，甚至可能有记错的地方，望谅解。

一

2008年，我从北京回到杭州，加入了年轻的斯凯，在CTO区力所在的社区项目组。当时公司在西溪路浙大科技园里，紧挨着浙大玉泉校区，窗户正对着青山竹林，园区里环境幽静，项目组坐在一个大大的办公室里，几排桌椅，没有隔间，区力也和我们一起坐在工位上，标准的科技企业的风格。当时觉得团队里都是老鸟，在那个年代，有经验的程序员还很少，但是冒泡社区团队里，几乎都是，很多都是玩过硬件、跨过N个行业，连测试都很资深，平时还玩音响那种。能把这么多人凑起来，我想，这个公司真牛逼。

为什么会诞生这么个产品？功能机时代，斯凯在行业里绝对是独领风骚，但是非手机行业的人几乎完全没有听说过，具体数据懒得查了，但是70%-80%的国产手机里预装了斯凯的平台，当时虽然高高在上，但是已经略显疲态的诺基亚系列遇到了国产手机的冲击，国产手机出货量飞速提升，也有斯凯mrp平台的一份功劳。另一个契机就是3G的到来，让手机可以真正联网了，除了手机QQ以外，斯凯嗅到了手机社区和网游的机会。以冒泡社区为承载，上面规划了一系列产品，包括网游、论坛、基于LBS的交友社区、聊天系统、甚至为了支持网游付费，还专门做了一整套虚拟货币体系、发行了自己的点卡、打通了银行卡支付。后期又增加了视频、小说等等产品。这里面每一个小功能，几乎都在后来移动互联网时代来临以后，成就了几家巨头公司。当然，从斯凯出去创业的兄弟姐妹们，也经历了几波红利，有成功套现上岸的，也有走向歧路进来监狱的，当中太多故事，将来有机会再慢慢讲来，斯凯也得了个“移动互联网黄埔军校”的名头。

二

说回冒泡社区，我当时负责的是基础模块，包括手机端的网络连接和数据包的编解码，服务端的接收等等。当时要手机连上网，可没有现在这么简单，仅仅是连接模式就有NET、WAP，还有直连和代理模式，网络时好时坏，所以数据包的重发机制、缓存机制、握手和应答机制做得非常复杂，我又做了个自动测试网络连接的逻辑，选择最快的连接模式，最后让上层应用不再需要关心连接问题。上线第一天，这空空聊天室里，第一个注册用户发了言，整个团队欢呼雀跃，但是不到半小时，系统就宕机了。一方面开始拼命查问题，一方面开始做了个服务期自动重启的脚本来临时解决问题。我心里很着急，但团队里大家一点都不紧张，好像觉得我可以轻松解决这个问题，互相之间这种超乎想象的信任，不通过冗杂的项目管理的方式，而通过一群顶尖研发的个人能力，来保证产品的质量，这样的模式我至今还没有在其他地方遇到过。用户更是出奇地容忍，虽然每个小时都会掉线，但是每次都会努力重连上了，在聊天室里跟其他用户打招呼。有一种当年拨号上BBS论坛的感觉。

三

为了测试平台的能力，我们自己做了一个飞机大战的对战游戏，就是个PK分数的对战，没有什么互动，但是也吸引了一大帮用户。平台上线以后，开始引入CP来研发网游。我负责设计虚拟货币体系，当时为了设计好这套体系，我去自学了经济学里货币论相关内容，怎么保证不同游戏之间发行的货币可以和用户充值的货币进行兑换？怎么来计算不同货币之间的兑换值？最后想到了在一定范围内做自由浮动，市场化的兑换机制，当时甚至考虑过后期做货币交易所。为了避开充值货币和奖励货币的价值计算系统内部把货币也分成了三套，分别是直接充值带来的，充值赠送带来的，和游戏/系统赠送带来的。这个给后期财务计算收入、运营活动成本带来无比的便利。这套货币系统上线以后，用了超过10年了吧，连服务迭代升级都没有做过，承载了最高每月几亿的流水。

四

社区最早只在部分机型上线，上线了几款游戏以后，公司面临一个选择，是把有限的手机列表位置留给冒泡社区，还是留给其他单机游戏。当时单机游戏的收入已经起来了，手机里每个位置都十分值钱。但是社区是网游，前期收入没有这么高，公司运营觉得上线会影响收入，影响他们的KPI。（这是个很明显的大公司里创新项目为什么很难成功的例子）为了能够说服运营，我负责和他们来一起核对收入。我加入了留存率的概念，把每个位置的收入加上时间的维度，虽然每个位置在短时间内收入上，单机游戏明显超过网游，但是我测算下来的模型是，超过一个时间，网游收入就能达到并且超过单机游戏，而且时间越长，网游总收入越高。（这个道理后来游戏行业都以为是天经地义，当时却很难想到）。Michael下了决心，所有适配机型都上线了冒泡社区，后来又引入专门的网游运营负责人，再后来冒泡平台就出了包括《幻想三国》在内的爆款。这些游戏跨越了从功能机到智能机的时代，至今仍然给斯凯提供着丰厚的利润。当然，这是后话了。

五

苹果智能手机和安卓智能机起来以后，打开了移动互联网的大门，但是斯凯最早只按照功能机时代的思维，给手机厂商做了可以定制化的应用商店。（当时91无线还来商谈收购事宜，错过了这个机会，后来91卖给了百度，开启了百度移动互联网化的第一步。类似的故事还有很多，比如我上一家公司，互联网元老二六三，老板李小龙也反复讲当初马化腾去找他，想让他收购腾讯，他看了一下产品，觉得没有什么，自己也能做，就没有谈拢的故事）冒泡社区本身没有推出智能机版本，但是我们运营发现有很多来自智能机的用户，而且还充值花钱在玩网游。后来一了解，是玩家实在等不及了，就自己做了一个模拟器，在模拟器里运行冒泡社区。有这样的玩家，也是幸福。公司及时调整了策略，甚至把做模拟器的玩家招进公司，推出了智能机版本的冒泡社区。因为ios的政策原因，不允许做模拟器，又研发了纯H5版本的冒泡社区，去覆盖苹果手机市场。智能机版本的冒泡社区，迅速成为收入主流，帮助斯凯度过了艰难的从功能机到智能机的转型。（另一个智能机时代的利润大头，就是话费支付SDK，当然，这是另外一个话题了）

六

冒泡社区里，为了支持银行卡付费，专门招了一个支付行业出来的产品经理，就叫小强吧，第一家对接的银行是农业银行（如果没有记错的话）。现在产品要对接支付太方便了，把支付宝、微信支付一接入就结束了，当时可没有这些，而且在手机上直接用银行卡付费，还是非常稀罕的事情，我都担心用户的接受程度。跟银行对接，对我们的系统也是一个考验，要符合他们非常多的要求，还要处理很多超时和失败的异常，还要从机房拉光纤到银行的机房。上线第一天，用户第一笔充了100元的时候，感觉难以相信。很快，银行卡支付的量占比逐渐提升，用户不再需要去报刊亭买点卡或者话费卡来充值了。后来逐步接入了几家第三方支付，广易联、e宝等等，冒泡社区成了他们非常重视的客户。有一家也是红杉投资的做信用支付的公司Mo9，进入中国以后，在共同的投资商红杉的介绍下，找到我们，把我们作为国内的第一个尝试的客户。虽然效果不好，坏账很高，但是这是我们第一次接触金融模式，学到了信用评估、风险控制等等理念，当互联网金融那一波风潮来的时候，成功地避开了雷区。当然，也有很多小伙伴投身大潮，一夜暴富，第二夜身陷囹圄。从话费支付、点卡支付、银行卡支付、话费卡支付、第三方支付平台一直做到金融保险，也开启了我半个金融科技之路。

七

接手整个冒泡社区以后，顺便把冒泡社区官方QQ群都加了，要么是群主要么是管理。QQ群里刷屏的主要是广告（当然，会被我踢出去）、骂游戏的、反馈问题的、找玩伴的，最怕的是吵架的。跟一群年轻人在那里聊天也很有意思，有些用户看我是官方的，回来加我，然后来吐槽或者提各种建议，看得出，是真心喜欢这个游戏。有几个时间长了，把我当朋友（当然他们以为我只是个客服），会聊他们的生活，一般是生活在四线或者更小的地方，打着一份简单的工，游戏是他们主要的休闲方式，有些遇到生活上不顺的，也会来聊，我一般鼓励鼓励，他们就觉得好很多。

2022年6月24日
记亚马逊几个小事

Kindle退出中国的消息让我一直耿耿于怀，毕竟作为一个深度用户，基本把kindle当作自己的唯一的阅读器在使用，看了一下，书架里有近千本书籍，最早的电子书是2013年买的，也就是kindle正式进入中国那年。

亚马逊是我非常尊敬的一家公司，但是在中国市场上却一直没有站稳脚跟，从电商到电子书，都基本退出了中国，丢掉了这么大一个市场，究其原因还是对中国市场的了解不足，没有真正用灵活的、适合中国市场策略来做好中国市场，这算不算是一种大公司病呢？

2014年的时候，亚马逊想在国内找一家话费支付的合作伙伴，在国内找了一圈，最后找到我们（好像是运营商直接推荐的）。我接手这个合作，也是第一次发现国外一流公司对供应商的选择是如此严格，甚至会去机房数服务器的数量、会有那么多文件要签署，那么对规范要执行，而且都配了非常高的违约金和保证金。不过，最后合作没有建立的原因是亚马逊对话费支付的要求远远超过了电信运营商能做到的，不说坏账率、付款周期，单单是一个退费就无法达到要求。甚至我们在谁向谁开发票的问题上，都纠结了非常久。最后，我推荐他们电子书这块业务直接去和移动的阅读基地合作，通过内容+支付的方式，而不仅仅把话费当作一个支付手段。

后来，当时亚马逊想在中国开展应用商店业务，约我去上海总部，见了他们一个全球副总裁，名字已经想不起来了。只记得那个楼在静安区、高耸入云，边上小区里都是小洋楼，马路上绿树成荫，让我真正感受了上海的洋气。亚马逊说他们的安卓应用商店全球排名第二（第一当然是谷歌），然后我告诉他我们应用商店的用户量，让对方直接惊掉了下巴。他仔细咨询了国内智能手机行业的情况，后来应用商店进军中国这个计划也就不了了之了。

这次kindle退出中国，原因没有那么复杂，就是国内的竞争对手太厉害，掌阅、微信读书这样的产品在对中国用户的运营上，远远超过了亚马逊，无奈之举。这方面，苹果做得比它好很多，虽然我不太喜欢苹果这家公司。

2022年6月16日
顺利升级到Anolis OS

顺利从CentOS升级到Anolis OS，顺便把wordpress也升级了一下，感觉什么都没变化

2022年6月16日
2022读书计划

粗略看了一下，Kindle上2021年读完了45本，加上纸质书，应该在55本以上。其中读得最长的一本是《追忆似水年华》。

2022年计划把《讲谈社*日本历史》和《讲谈社*中国的历史》两套大部头读完。其他重点阅读方向是社会学与哲学。

2022年1月1日
《医学数据挖掘案例与实践》

罗列一堆方法，举一些例子，甚至告诉你用什么软件，怎么操作。学习这本书之前应该有完整的数据挖掘理论知识和方法了解，否则这种不讲原理、没有思考方法的书，不应该学。

ISBN:978-7-302-44188-5 清华大学出版社

2021年9月30日
《病案首页大数据分析与应用》

病案首页医疗统计管理、医保支付结算的重要依据，随着DRG的推进，病案首页的填写质量也越来越被重视。病案首页的数据质量提升以后，能够给大数据分析带来更多价值。这本书介绍了目前病案首页大数据分析的各个主要用途，可供医疗大数据从业人员参考。

人民卫生出版社 ISBN 978-7-117-31101-4

2021年9月7日
《算法设计》学习笔记-网络流
最大流问题

定义流网络是有向图G=(V,E)，具有以下特征：
1，每条边e关联一个容量，它是非负数，记为C_e
2，存在单个源(source)节点s∈V
3，存在单个汇(sink)节点t∈V
除了s和t以外的节点被称为内部节点

定义流，我们说s-t流是一个函数f，它把每条边e映射到一个非负实数，f: E->R⁺；f(e)直观地表示边e所承载的流量。流f必须满足下面两个条件：
1，（容量条件）对于每条边e∈E，有0≤f(e)≤C_e
2，（守恒条件）对于s和t以外的每个节点v，进入节点的所有流量等于流出节点的所有流量

定义v(f)是源点处产生的流量v(f)=f^out(s)

假设把图的节点分为两个集合A和B，使得s∈A和t∈B，从s到t的任何流都必须从A穿越到B，这表明每个这样的“割”都限制了最大可能的流量值。最大流量值等于每个这样的“割”的最小容量。

剩余图：给定流网络G和G上的流f，我们如下定义G相对于f的剩余图G_f
1，G_f的节点集与G的节点集相同
2，对于f(e)<c_e的G的每条边e=(u,v)，有c_e-f(e)个“剩余”容量单位，我们可以考虑尝试正向增加流量。因此，我们在G_f中包含边e=(u,v)，其容量为 c_e-f(e) 。我们将这种方式包含的边成为正向边（forward edge）。
3，对于f(e)>0的G的每条边e=(u,v)，有f(e)个流量单位，如果需要，可以通过反向增加流量来“撤销”。因此，我们在G_f中包含边e’=(v,u)，容量为f(e)。我们将这种方式包含的边称为反向边（backward edge）。

我们把bottleneck(P,f)定义为P上任何边相对于流量f的最小剩余价值。定义操作augment(f,P)，它在G中产生一个新的流f’
```
augment(f,P):
令b=bottleneck(P,f)
For 每条边(u,v)∈P
  If e=(u,v)是一头正向边 then
    在G中将f(e)增加b
  Else (u,v)是一条反向边，且令e=(v,u)
    在G中将f(e)减少b
  Endif
Endfor
Return(f)
```
Fold-Fulkerson算法：
```
Max-Flow
  对G中所有的e初始化f(e)=0
  While 在增广图G_f中存在一条s-t路径
    令P是G_f中的一条简单s-t路径
    f'=augment(f,P)
    将f更新为f'
    将剩余图G_f更新为G_f'
  Endwhile
  Return f
```
通过改进选择增广路径的方法，来减少迭代次数。定义G_f(Δ)为剩余图的子集，仅包含剩余容量至少为Δ的边。算法如下：
```
缩放最大流

  对G中所有的e初始化f(e)=0
  初始化设置Δ是2的最大幂，且不大于离开s的最大容量

  While Δ≥1
    While 在图G_f(Δ)中存在一条s-t路径
    令P是G_f(Δ)中的一条简单s-t路径
    f'=augment(f,P)
    将f更新为f'病更新G_f(Δ)
    Endwhile
    Δ=Δ/2
  Endwhile
  Return f
```
2021年8月18日
《算法设计》学习笔记-动态规划
当某些问题不能用贪心算法来解决的时候，我们可以考虑动态规划。动态规划的思想类似于分治，探索所有可能的解，然后把问题分解成一系列子问题，然后为越来越大的子问题构筑正确的解。

加权的区间调度问题

我们有n个请求，标记为1,2,…,n。每个请求i指定了开始时间s_i和结束时间f_i。每个区间i也有一个值，即权重v_i。如果两个区间不重叠，那么它们是相容的。求一个彼此相容的子集，是所选区间的值的总和最大。
```
定义p(j)，表示区间j中最大的序标i<j，使得区间i和j不相交。就是i是在j开始前结束的，左边最近的区间。
定义OPT(n)是最优解，则：
OPT(j) = max(v_j+OPT(p(j)),OPT(j-1))

一个记录了中间计算结果的算法：
M-Compare-Opt(j)
  If j=0 then
    Return 0
  Else if M[j]不为空 then
    Return M[j]
  Else
    定义M[j]=max(v_j+M-Compare-Opt(p(j)), M-Compare-Opt(j-1))
    Return M[j]
  Endif
```
分段最小二乘

用尽可能少的线段来拟合二维平面上的点。给定一组点P={(x₁,y₁), (x₂,y₂),…,(x_n,y_n)}。我们用p_i来表示点(x_i,y_i)。首先把P分成若干段，每个段是P的子集，表示一组连续的坐标。对于P中划分的每个分段S，计算出相对于S中的点的误差最小的线。定义划分的penalty为以下项之和：
(i)P划分的段数乘以固定的给定乘数C>0;
(ii)对于每个段，穿过该段的最优线的误差值
```
如果最优划分的最后一段是p_i,...,p_n，那么最优解的值就是OPT(n)=e_i,n+C+OPT(i-1)
对于点p₁,...p_j上的子问题OPT(j)=min_1≤i≤j(e_i,j+C+OPT(i-1))

Segmengted-Least-Squares(n)
  数组M[0...n]
  置M[0]=0
  For 所有的对 i≤j
    为分段p_i,...p_j计算最小方差e_i,j
  Endfor
  For j=1,2,...,n
    使用递归OPT(j)公式来计算M[j]
  Endfor
  Return M[n]

Find-Segmnets(j)
  If j=0 then
    不输出
  Else
    找到一个i使得e_i,j+C+M[i-1]最小
    输出分段{p_i,...p_j}和Find-Segments(i-1)的结果
  Endif
```
子集和问题

在考虑调度问题中，有一台可以处理作业的机器，以及一组请求{1，2，…,n}。对于某个数W，我们只能在时刻0和时刻W期间内使用该资源。每个请求对应于一个作业，处理它需要时间w_i。我们希望选择一个子集S，使得S中作业的总时间≤W，并且尽可能大。
```
如果w<w_i，那么OPT(i,w)=OPT(i-1,w)；否则
    OPT(i,w)=max(OPT(i-1,w), wi+OPT(i-1,w-w_i))

Subset=Sum(n,W)
  数组M[0...n, 0...W]
  对每个w=0,1,...,W，初始化M[0,w]=0
  For i=1,2,...,n
    For w=0,...,W
      利用递归OPT(i,w)公式来计算M[i,w]
    Endfor
  Endfor
  Return M[n,W]

算法的时间复杂度为O(nW)
```
背包问题也可以用类似的方法来递归解决

RNA二级结构（略）

序列对比

如何定义两个字符串之间的相似性？假设给定两个字符串X和Y，其中X是由符号序列x₁x₂…x_m组成，Y是由符号序列y₁y₂…y_n组成。匹配(matching)是一组有序对，其性质是每个项最多出现一对。如果不存在交叉对，那么这两个集合中的匹配M是一个比对(alignment)。我们对相似性的定义将基于找到X和Y之间的最优比对。假设M是X和Y之间的给定比对。
(i)存在一个参数δ>0，它定义了空隙罚分(gap cost)。对于在m中不匹配的X或Y的每个位置（空隙），产生δ的开销
(ii)对于字母表中没对字母p和q，存在用q对齐p的不匹配开销(mismatch cost)，记为α_pq。通常假设每个字母p的α_pp=0
(iii)M的开销是其空隙开销和不匹配开销的总和，我们寻求最低开销的对齐
```
设M是X和Y的任意比对，如果(m,n)!∈M，则X的第m个位置或Y的第n个位置在M中没有匹配

在最优比对M中，至少以下之一为真
(i)（m,n)∈M
(ii)X的第m个位置不匹配
(iii)Y的第n个位置不匹配

对于i≥1和j≥1，最小比对开销满足以下递归：
OPT(i,j)=min[α_xiyi+OPT(i-1,j-1), δ+OPT(i-1,j),δ+OPT(i,j-1))]

Alignment(X,Y)
  数组A[0...m,0...n]
  对每个i，初始化A[i,0]=iδ
  对每个j，初始化A[0,j]=jδ
  For j=1,...,n
    For i=1,...m
      利用递归计算OPT(i,j)公式计算A[i,j]
    Endfor
  Endfor
  Return A[m,n]
```
图中的最短路径

前面讨论过通过Dijkstra算法解决所有边的开销都是正数的情况，对于更一般的情况，需要用到动态规划的算法。
设G=(V,E)是有向图，假设每条边(i,j)∈E具有权重c_ij。在没有负环的情况下，考虑最小开销路径。如果G没有负环，那么存在一条从s到t的简单最短路径（没有重复节点），因此最多有n-1条边。我们用OPT(i,v)表示使用最多i条边的路径的最小开销，我们最初的问题是计算OPT(n-1,s)
```
如果i>0，那么
OPT(i,v)=min(OPT(i-1,v),min_w∈V(OPT(i-1,w)+c_vw))

Shortest-Path(G,s,t)
  n=G中点的个数
  数组M[0...n-1,V]
  对于所有其他v∈V，定义M[0,t]=0且M[0,v]=∞
  For i=1,...,n-1
    For v∈V以任何顺序
      利用递归OPT(i,v)计算M[i,v]
    Endfor
  Endfor
  Return M[n-1,s]
```
2021年6月25日
《算法设计》学习笔记-分治算法
分治算法也是常用的一种解决问题的思路，它把输入分成几个部分，递归地求解每个部分中的问题，然后将这些子问题的解组合成一个整体解。所以，分治算法通常涉及递归关系。

归并排序：把输入分成两个相同大小的部分；通过递归分别解决这两个部分的两个子问题；然后将两个结果组合成一个整体解，只用线性时间进行初始划分和最终重组。证明归并排序的方法的时间复杂度是O(nlogn)。

求解递归的一般方法：一种是展开前几层递归，并确定递归展开时会继续的模式，然后对所有层的运行时间求和；一种是从猜测一个解开始，然后替换到递归关系中，来检查是否有效。

计数逆序：考虑两个排名，如何评估两个排名的差异有多大？我们说两个索引i<j形成逆序，就是a(i)<a(j)，即两个元素顺序不同。计算逆序的个数，数字越大，两个序列差异越大。自然的想法，需要O(n²)的时间。用分治的方法，用分治算法，类似归并排序，可以优化到O(nlogn)。
```
Merge-and-Count(A,B)
  对每个列表维护一个只想它的Current指针，初始化向首个元素
  维护一个变量Count记录逆序的个数，初始化为0
  While 两个列表都不为空
    令a_i和b_j是Current指针指向的元素
    将较小的一个添加到输出列表
    If b_j是较小的元素 then
      让 Count加上A中剩下元素的个数
    Endif
    将选出较小元素的列表的Current指针向前移
  Endwhile
  当一个列表为空时，将另一个列表中剩下的元素添加到输出
  Return Count和归并的列表
```
寻找最近点对：给定平面中n个点，找到最近的一对点。显而易见，有一个O(n²)的算法，就是逐一计算两个点之间的距离。使用分治的思想，可以优化到O(nlogn)。考虑把点集均匀地分成两个部分，分别计算最近点。合并时考虑两个点被分在两边的情况。
```
Closet-Pair(P)
  构造P_x和P_y
  (p₀^*,p₁^*)=Closet-Pair-Rect(P_x,P_y)

Closet-Pair-Rect(P_x,P_y)
  If |P| <= 3 then
    度量所有两个点之间的距离，找到最近点对
  Endif

  构造Q_x,Q_y,P_x,P_y
   (q₀^*,q₁^*)=Closet-Pair-Rect(Q_x,Q_y)
   (r₀^*,r₁^*)=Closet-Pair-Rect(R_x,R_y)

  δ=min(d(q₀^*,q₁^*),d(r₀^*,r₁^*))
  x^*=集合Q中点最大的x坐标
  L={(x,y):x=x^*}
  S=P与L中相距在a之内的点集

  构造S_y
  For 每个点s∈S_y，计算从s到S_y中接下来15个点的所有距离
    令s,s'是其中距离最小的点对
    If d(s,s')< δ then
        Return (s,s')
    Else if d(q₀^*,q₁^*) < d(r₀^*,r₁^*)
        Return (q₀^*,q₁^*)
    Else
        Return (r₀^*,r₁^*)
```
这里可能有个疑问，为什么只计算从s到Sy中接下来15个点的所有距离？具体可以看书上的证明。

整数乘法：用小学生列竖式的算法，时间复杂度为O(n²)。改进的算法基于更巧妙的方式，将乘积分解为部分和。
```
Recurisve-Multply(x,y)
  写x=x_i*2^n/2+x₀
    y=y_i*2^n/2+y₀
  计算 y₁+x₀和y₁+y₀
  p=Recurisve-Multply(x₁+x₀,y₁+y₀)
  x₁y₁=Recurisve-Multply(x₁,y₁)
  x₀y₀=Recurisve-Multply(x₀,y₀)
  Return x₁y₁*2ⁿ+(p-x₁y₁-x₀y₀)*2^n/2+x₀y₀
```
卷积和快速傅里叶变换：（略）
2021年5月21日
《算法设计》学习笔记-贪心算法
贪心算法可以说是最容易被人想到的算法之一，它非常符合人类在面对复杂问题时的思维方式。它大概可以描述成：如果一个算法以小步骤来构建解，在每个步骤中目光短浅地选择一个决策来优化某些基础判据，那它就是贪心的。是不是能够联想到市场经济能够形成看不见的手？自然界才是真正的算法大师，或者说，自然界是高等生物用算法设计的？如果一个问题能够被贪心算法成功地解决了，通常意味着问题本身的结构存在一个有趣且有用的东西：存在一个局部决策，可以用来构建（整体）最优解。

区间调度问题

描述：有一组请求{1,2,…,n}；第i个请求对应于一个时间区间，从s(i)开始到f(i)结束。如果在一个请求的子集中，没有两个请求在时间上重叠，我没说这个子集是相容的。我们的目标是接受尽可能大的相容子集，成为最优子集。思考过程：选择最早开始的请求？选择最小时间的请求？选择最小冲突的请求？最后发现，应该首先接受最先完成的请求。证明（略）。时间复杂度O(n log n)

最小化延迟的调度

描述：我们有一个资源和一组n个请求，假设资源在时间s开始可用，请求i有一个截止时间d(i)，它需要一个长度为t(i)的连续时间区间，不同的请求分配不能重叠。求最优子集。思考过程：按照长度t(i)增加的顺序安排作业？按照增加的宽裕时间d(i)-t(i)来排序作业？最后，只按照截止时间d(i)递增的顺序对作业进行排序。证明（略）。这种不顾及作业长度的决策，居然可以提供最优解。

最优缓存的调度

考虑存储在主存中的n个数据集合U。还有一个更快的内存（即缓存），可以在任何时候保存k<n个数据项。假设缓存最初保存k个数据项。从U中提取一系列数据项D=d₁,d₂,..d_m提供给我们，在处理它们时，必须决定在缓存中保留哪k项。当需要提供数据项d_i时，如果在缓存中，就可以非常快地访问它。如果缓存已满，则逐出其他数据，为d_i腾出空间。我们希望缓存未命中的情况尽可能少。结论：当d_i需要载入缓存时，逐出最远未来需要用到的数据项。证明（略）

求解图的最短路径

给定有向图G=(V,E)，以及一个起始节点s。假设s具有到G中每个其他节点的路径。每条边e具有长度L>=0，表示经过e所需要花费的时间。对于路径P，P的长度L(P)是P中所有路径长度之和。确定从s到图中每个其他节点的最短路径。Dijkstra算法：
```
Dijkstra算法(G,L)
令S是要探索的节点集
    For 每个u ∈ S，保存一个距离d(u)
初始 S={s}且d(s)=0
While S ∉ V
    选择一个节点v ∉ S，使得从S到v至少有一条边，且
    d'(v) = min d(u)+L最小
    将v加入S并定义d(v)=d'(v)
EndWhile
```
有没有发现这个贪心算法和梯度下降多么神似！

求解最小生成树

对于有一组位置V={v₁,v₂,…v_n}，我们希望在它们之上构建一个通信网络。网络应该联通，且尽可能便宜地构建它。Kruskal算法：从没有任何边的情况下开始，并通过增加开销的书序连续插入边，从而构建一个生成树。按此顺序加入时，只要没有产生环，就插入它，如果产生环，就抛弃并继续。另外，通过Dijkstra算法思想也可以生成最小生成树，称为Prim算法。还可以运行Kruskal算法的“后向”版本，按照开销降低的顺序删除边。这三种算法都可以达到最优解，证明略。

聚类问题

假设有集合U，包含n个对象，标记为p₁,p₂,…p_n。对于每一对p_i和p_j，有一个数值距离d(p_i,p_j)，且d(p_i,p_j) > 0，并且距离是对称的。给定一个参数k，将U中的对象划分成k个组，我们说U的k聚类，表示把划分成k个非空集合C₁,C₂,…C_k。将k聚类的间隔定义为不同聚类之间任何一对点之间的最小距离。如果寻找最大可能间隔的k聚类。通过Kruskal算法生成最小生成树时，把已经联通的节点视为一个聚类，那么当到达k个聚类时，既可以停止。

哈夫曼码与数据压缩

最优前缀码：对于指定的字母表和这些字母的频率集合，我们希望产生尽可能高效的前缀码，即每个字母的平均位数达到最小的前缀码。前缀码可以用二叉树来表示，且对应于最优前缀码的二叉树是满的。哈夫曼改进了香农-法诺码，算法如下：
```
对于给定频率的字母表S构建前缀码
  IF S有两个字母 then
    将一个字母编码为0，另一个字母编码为1
  Else
    令y^*和z^*史频率最低的两个字母
    通过删除y^*和z^*，并用一个新字母w代替它们，其频率是fy^*+fz^*，构建一个新字母表S'
    递归第为S'构建前缀码，使用树T'
    定义S的前缀码如下：
      从T'开始
      取标记为w的叶节点，并在它下面加上标记为y^*和z^*的两个子节点
  Endif
```
证明哈夫曼算法的最优性（略），时间复杂度O(klogk)
2021年4月28日

分类： 停停

分类：停停