博客

为什么我建议趁着年轻，能走多远就走多远？

俞敏洪在南极旅游时，发了一封全员信的事情引起一阵小小的风波，其实对于一个已经创业成功的企业家，去旅行，再正常不过了，如果创业成功都不能让自己过上想要过的生活，那么我们还为什么要去创业呢？话说回来，说到南极，其实，真的那么遥不可及，难以到达么？就像王石去攀登珠峰，也类似，只要按照一套系统化的方案去训练，去买装备，去请向导，只要身体允许，也不是那么遥不可及。

前段时间看了雷殿生的那本《信念：人生每一步都算数》，一个徒步走遍中国的人，出发的那一刻，也是普普通通的人，差别就是，他迈出了那一步。再远一点，看《徐霞客游记》，序文里就写了，他多次遭遇盗贼，摔伤严重，仍然坚持行走，最后在云贵地区，双腿尽废，才被送回老家，开始整理游记，可惜没多久就去世了。当然，我们现在不用这么艰苦，甚至付出健康的代价去旅行了。

人们为什么要去旅行？这个问题我反反复复问了自己近十年，直到有一次顿悟，因为不去旅行，无法知道人生的宽度，就像不读书无法知道人生的深度一样，白白活那几十年，每天只能在现在的轨道里来来回回，跟机器无异。

所以，我给身边每个年轻人的建议，都是有多远走多远！

对像我这样普通人来说，人生，在上大学前都是沿着父母铺好的轨道在前进，文科还是理科，大学选什么专业，跟哪些同学成为朋友，穿什么样的衣服，坐什么样的车子，住多大的房子，有没有自己的房间，去哪些地方旅游，甚至吃什么样的早餐，很大程度上，都是父母的背景、高度和财富，决定了的。当年轻时，是最容易跳出这个轨道，站在万米之外去看自己的生活的。

所以，我建议趁着年轻，多读书、多旅行。不是说读书一定能改变命运，但是读书仍然是绝大部分人改变命运的最佳方式，而旅行，则是让我们有广阔的视野，你会发现，只要你迈出那一步，冰岛的极光，澳大利亚的巨石，委内瑞拉的天使瀑布，东非的动物大迁徙，并不仅仅是停留在纸面的梦想，只要你敢想，敢做，都是可以变成你生活中经历的一部分。

同样，你会发现人生的无穷多种可能，不一定需要坐在办公室电脑前，去写那个自己都不明白有什么意义的PPT，你可以是一个回到乡村做农业的新青年，可以是一个来往在尼泊尔和西藏的手工艺品买手，可以是一个半年在英国开出租，半年在泰国度假的司机，可以是一个在洱海边开民宿的小老板，只要你愿意，人生真的可以有无穷多种选择。即使你没有去做这样的选择，你也会知道，现在的工作生活，不是你生命的全部，你随时都还有选择的机会。

更进一层，只有通过旅行，你才能遇见真实的自己。你会知道自己在面对护照丢失时，能用蹩脚的英语和不知所谓的手语，找到警察帮忙；你会知道面对泥石流冲垮道路时，你能够在车子里解决吃喝拉撒；酒吧里遇到同伴被欺负时，你会拿着酒瓶站起来，吓跑别人。然后，你回到生活中来，你会觉得孩子考一个不合格，被老板骂几句，真的不算什么事儿。

记得以前看柴静的《看见》，很喜欢一个说法，见世界，见人生，见自己，旅行就是如此，所以，越早越好，有多远就走多远。

2025年12月25日
用梯度提升决策树做股票走势预测
上一篇写到如何用Python计算指标，但是仅仅用这些常见指标，来对股票走势进行判断，胜率并不高，原因很简单，这些指标所有人都在看，就容易被庄家操控，另外，所有指标都只是人类对股票价格数据的理解，是不够全面的，毕竟人类在面对海量数据时的能力是远低于机器的。

梯度提升决策树HistGradientBoosting算法，我同时测试了随机森林、xgboost、lightGBM等算法，它给我的印象是又快又好，具体算法可以自行去网上搜，这里就不赘述了。网上看了很多用机器学习对股价进行预测的文章，大部分都是基于对收盘价序列，进行下一天的收盘价的预测，这种方法基本属于痴人说梦，只要写一个下一天收盘价等于上一天收盘价的函数，就能战胜绝大多数模型。

一般情况下，我们对股价趋势进行预测，不是只看收盘价，也不是只看前一天的收盘价，而是会看很多天的开盘价、收盘价、最高价和最低价，同时也要看成交量，成交量可能还更重要。（当然，还有更多的东西要看，比如市场情绪、政策趋向、突发事件、板块走势等等，这些数据很多都是非结构化的文本数据，所以大模型才是正解，当然，我们可以认为，这些数据，已经部分的反应在了股票成交数据中）更进一步，如果要分析tick数据（分笔的成交数据），理论上讲可以获得更多信息，而且可以更实时而精准地找到买卖点，但是，投入有点大，我的笔记本存不下，也跑不动，更重要的是，我只是写着玩，并不是真正去做股票投资，所以用日成交数据足够了。

所以，数据用的是N天的收盘价、开盘价、最高价、最低价、换手率，又加上了5日、10日、20日和100日的均线，用来反映更长期的变化信息。这里N天，到底是用10天数据去预测，还是用30天数据去预测，是个重要的超参数，虽然理论上讲N越大，预测越准，但是同样会带来性能问题。然后把这些数据直接平铺，当做训练的数据集。停牌时的数据，自动用上一日的填充。这里要说明的是HistGradientBoosting是支持缺失值的，但是考虑到更多其他算法使用，还是做了填充。同样，理论上讲HistGradientBoosting是不需要对数据做归一化的，但是不太股票股价差异太大，不归一化的话，模型泛化能力会非常差，没有用sklearn的minmaxscaler，因为发现它归一化出来的数字会损失掉非常多。这里，直接用每个股票价格的平均值当分母，去除股价，来做归一化，每只股票都是用自己的归一化算法，保证出来的数值，各个股票之间不会差太多，换手率不用做调整，

第二个问题是，为什么是预测趋势，而不是预测股价。这里考虑的其实是，到底用分类，还是用回归。预测股价的问题是，股价的影响因素太多，不够稳定，经常一涨一跌，对模型的稳定性不利，趋势就稳定很多，所以这个算法里面，预测的是5日均线在5天后比现在高10%。当然，到底用5日还是7日均线，到底比较的是10天还是15天，到底高10%还是20%，这些都可以调，都是超参数。不过，理论上讲，这些参数选得越值越大，预测的准确性会越低，所以这个算法最好还是做短线。

下面上代码：
```
def check_buy_sell(a, b):
    #print('a='+str(a)+' b='+str(b))
    if b > a * 1.10:
        return 1
    elif b < a * 0.90:
        return -1
    return 0
    
def prepareStockData(stock_id, days, end_date, n_days):

    #多取一些时间，保证均线计算正确
    df = get_stock_hist_data(stock_id, start_date='2018-01-01', end_date=end_date)

    df['SMA_5_5'] = df['SMA_5'].shift(periods=-5)
    df['buysell'] = df.apply(lambda x: check_buy_sell(x['SMA_5'], x['SMA_5_5']), axis=1)

    #再截取要用的数据
    df = df[len(df)-n_days-days-5:len(df)-5]

    #print(df[['SMA_5','SMA_5_5']])

    samplesX = pd.DataFrame()
    samplesY = pd.DataFrame()

    #跳过前面几天数据，从第days天开始取
    for i in range(days, len(df)):
   
        df_sample_X = df.iloc[i-days:i] #取前days天到前一天数据
        df_sample_Y = df.iloc[i:i+1]    #取当天数据
            
        if not samplesX.empty:
            samplesX = pd.concat([samplesX, df_sample_X])
            samplesY = pd.concat([samplesY, df_sample_Y])
        else:
            samplesX = df_sample_X.copy()
            samplesY = df_sample_Y.copy()

    size = len(samplesY)
  

    X = np.array(samplesX[['open','close','high','low','SMA_5','SMA_10','SMA_20','SMA_100']]).reshape(size, days*8)
    exchanges = np.array(samplesX[['exchange']]).reshape(size,days)
    
    Y = np.array(samplesY[['buysell']]).reshape(size,1) #.ravel()
    ScaleNum = np.mean(X.reshape(size*days*8, 1))


    X = X / ScaleNum

    X = np.concatenate((X, exchanges), axis=1)

    return X, Y, ScaleNum
```
然后开始进行训练，同时训练了一个随机森林的模型，用来比较时间和准确率。这里有两点，在调参时，训练数据要截断在某个时间，以防止模型中包含了测试集的信息。二是训练好的模型，连同归一化参数，都用joblib保存下来，方便预测时调用。
```
def prepareTrainData(stock_ids, days, end_date='2025-08-30'):

    ALL_X = np.array([])
    ALL_Y = np.array([])
    scalers = {}

    for index, row in stock_ids.iterrows():
        stock_id = row['stock_id']
        print('getting train data for stock_id = '+stock_id)
        
        X, Y, scaleNum = prepareStockData(stock_id, days, end_date=end_date, n_days=1000)
        scalers[stock_id] = scaleNum
        
        if len(ALL_X) > 0:
            ALL_X = np.vstack((ALL_X, X))
            ALL_Y = np.vstack((ALL_Y, Y))
        else:
            ALL_X = X
            ALL_Y = Y

    return ALL_X, ALL_Y, scalers

def trainAndSaveModel(days=60, end_date='2025-08-30'):
    
    stock_ids = read_stock_pool_from_file(POOL_FILE)
    #today = str(get_last_trading_day())

    ALL_X, ALL_Y, scalers = prepareTrainData(stock_ids, days=days, end_date=end_date)

    print(ALL_X.shape)
    print(ALL_Y.shape)

    n_samples, n_length = ALL_X.shape
    n_samples = round(n_samples * 0.75)

    X_train = ALL_X[:n_samples]
    X_test  = ALL_X[n_samples:]
    Y_train = ALL_Y[:n_samples]
    Y_test  = ALL_Y[n_samples:]

    print('start fit model random forest, time=' + str(datetime.datetime.now()))
    
    model_randomForest = RandomForestClassifier().fit(X_train, Y_train.ravel())
    print(model_randomForest.score(X_test, Y_test.ravel()))
    print('start fit model hist gradient boosting, time=' + str(datetime.datetime.now()))
    
    model_histGradientBoosting = HistGradientBoostingClassifier(loss='log_loss',max_iter=100).fit(X_train, Y_train.ravel())
    print(model_histGradientBoosting.score(X_test, Y_test.ravel()))
    print('end fit, time=' + str(datetime.datetime.now()))

    saveDir = 'models_20250924'
    os.mkdir(saveDir)
    
    joblib.dump(model_randomForest, saveDir+'/model_randomForest.joblib')
    joblib.dump(model_histGradientBoosting, saveDir+'/model_histGradientBoosting.joblib')
    joblib.dump(scalers, saveDir+'/scalers.joblib')

    return model_randomForest, model_histGradientBoosting, scalers
```
这个算法，用自己写的回测系统，有非常好而且稳定的收益率，这个后面再讲，包括怎么写一个自己的回测系统。
2025年10月1日
用pandas来计算股票的常用指标
在计算股票常用指标时，原来一直用talib或则pandas_ta，但是talib几乎不更新，而且不支持numpy 2.0以上版本，于是自己用纯pandas重写了，也顺便重新学习了一下每个指标的计算方法和常用指标，不废话，直接上代码

SMA：简单移动平均
EMA：指数移动平均
至于为什么要计算这么多不同周期的均值，后面就知道了
```
df['SMA_3']  = df['close'].rolling(3).mean()
df['SMA_6']  = df['close'].rolling(6).mean()
df['SMA_12'] = df['close'].rolling(12).mean()
df['SMA_24'] = df['close'].rolling(24).mean()
df['SMA_26'] = df['close'].rolling(26).mean()

df['SMA_5']   = df['close'].rolling(5).mean()
df['SMA_10']  = df['close'].rolling(10).mean()
df['SMA_20']  = df['close'].rolling(20).mean()
df['SMA_100'] = df['close'].rolling(100).mean()

df['EMA_5']  = df['close'].ewm(span=5).mean()
df['EMA_10'] = df['close'].ewm(span=10).mean()
df['EMA_20'] = df['close'].ewm(span=20).mean()
df['EMA_60'] = df['close'].ewm(span=60).mean()
```
BBI多空指标
BBI指标，即多空指标，英文全名为”Bull And Bear lndex”，简称BBI，是一种将不同日数移动平均线加权平均之后的综合指标，
属于均线型指标，一般选用3日、6日、12日、24日等4条平均线。在使用移动平均线时，投资者往往对参数值选择有不同的偏好，
而多空指标恰好解决了中短期移动平均线的期间长短合理性问题。很明显，在BBI指标中，近期数据较多，远期数据利用次数较少，
因而是一种变相的加权计算。由于多空指标是一条混合平均线，所以既有短期移动平均线的灵敏，又有明显的中期趋势特征，
适于稳健的投资者。
```
df['BBI'] = df[['SMA_3','SMA_6','SMA_12','SMA_24']].mean(axis=1)
```
RSI指标
RSI 指标（相对强弱指标，Relative Strength Index）是一种通过计算股价涨跌幅度来判断市场超买超卖状态的动量指标。它由威尔斯・怀尔德（Welles Wilder）于 1978 年提出，广泛应用于股票、期货、外汇等市场，帮助交易者识别价格可能的反转点。RSI 通过比较一段时期内股价的上涨幅度和下跌幅度，衡量多空双方的力量对比，进而判断市场是否处于超买或超卖状态。当股价持续上涨时，RSI 值升高，若涨幅过大则可能形成 “超买”，预示价格可能回调；当股价持续下跌时，RSI 值降低，若跌幅过大则可能形成 “超卖”，预示价格可能反弹。RSI 指标的核心价值在于通过 “动量反转” 逻辑，帮助交易者识别市场情绪的极端状态及趋势动能的变化，尤其在震荡行情和背离信号中具有较高的参考价值。
```
def getRSI(data, length, vol='close'):
    # 将收盘价列赋值给变量close
    close = data[vol]

    # 计算价格变动
    delta = close.diff()
    delta = delta.dropna()

    # 分类上涨和下跌
    up = delta.copy()
    down = delta.copy()
    up[up < 0] = 0
    down[down > 0] = 0

    # 计算平均上涨收益和平均下跌收益
    avg_up = up.rolling(window=length).mean()
    avg_down = abs(down.rolling(window=length).mean())

    # 计算RSI指标
    rs = avg_up / avg_down
    rsi = 100.0 - (100.0 / (1 + rs))

    return rsi

df['RSI_6']  = getRSI(df, 6, vol='close')
df['RSI_12'] = getRSI(df, 12, vol='close')
df['RSI_24'] = getRSI(df, 24, vol='close')
```
CCI指标

CCI 指标（顺势指标，Commodity Channel Index）是一种衡量价格是否偏离常态分布的超买超卖指标，由唐纳德・兰伯特（Donald Lambert）于 20 世纪 80 年代提出。该指标不仅适用于股票市场，还广泛应用于期货、外汇等品种，其独特之处在于通过计算价格与移动平均线的偏离程度，判断市场是否处于极端状态。CCI 指标通过统计价格与周期内平均价格的偏离程度，判断资产价格是否进入异常区域（超买或超卖），进而预测趋势反转的可能性。当价格持续上涨或下跌时，会逐渐偏离其正常波动范围，CCI 指标值随之升高或降低；若偏离程度过大（进入极端区域），则预示价格可能回归均值或反转。CCI 指标的核心价值在于通过 “价格偏离均值” 的逻辑，帮助交易者识别市场极端状态及趋势动能的变化，尤其在强势趋势行情和背离信号中具有较高的参考价值。与 RSI 等指标相比，它对极端行情更敏感，但也更易在震荡市中产生假信号。
```
df['TP'] = (df['high'] + df['low'] + df['close'])/3.0
df['TPMA'] = df['TP'].rolling(14).mean()
df['MAD'] = (df['TP'] - df['TPMA']).abs().rolling(14).mean()
df['CCI'] = (df['TP'] - df['TPMA']) / (0.0015 * df['MAD'])
```
MACD指标
MACD（Moving Average Convergence Divergence，移动平均线收敛发散指标）是技术分析中最经典的趋势跟踪指标之一，由杰拉尔德・阿佩尔（Gerald Appel）于 20 世纪 70 年代提出。它通过计算不同周期移动平均线的差值，揭示价格趋势的强度、方向及潜在反转点，广泛应用于股票、期货、外汇等市场。MACD 本质上是 “均线的均线”，通过快速均线与慢速均线的聚合与分离（即 “收敛” 与 “发散”），判断多空力量的转化。当短期均线向上穿越长期均线（金叉），表明多头力量增强；当短期均线向下穿越长期均线（死叉），表明空头力量占优。MACD 将这种关系转化为柱状图和信号线，直观展示趋势动能。
```
df['DIF'] = df['SMA_12']-df['SMA_26']
df['DEA'] = df['DIF'].ewm(span=9).mean()
df['MACD'] = 2.0*(df['DIF']-df['DEA'])
```
ATR指标
ATR（Average True Range）即 “平均真实波幅”，由技术分析大师威尔斯・威尔德（J. Welles Wilder）在 1978 年提出，是衡量市场波动性的重要指标。它不反映价格涨跌方向，而是通过计算价格波动的幅度，帮助交易者判断市场活跃程度、设置止损位或制定交易策略。
```
df['last_high'] = df['high'].shift(1)
df['last_low'] = df['low'].shift(1)
df['TR'] = df.apply(lambda x: max(x['high']-x['low'], 
                      abs(x['close']-x['last_high']),
                      abs(x['close']-x['last_low'])), axis=1)
df['ATR'] = df['TR'].rolling(14).mean()
```
ADX指标
ADX（Average Directional Index）由技术分析大师威尔斯・威尔德（J. Welles Wilder）在 1978 年提出，是衡量市场趋势强度的经典指标。它不判断趋势方向（上涨或下跌），而是通过计算价格波动的方向性差异，量化趋势的 “强弱程度”，适用于趋势交易策略的确认与管理。ADX 指标如同市场趋势的 “强度计”，帮助交易者在复杂行情中识别真正的趋势机会，避开震荡陷阱。
```
 # ADX指标
df['+DM'] = df['high'].diff()
df['-DM'] = -df['low'].diff()
df['+DM'] = df['+DM'].where(
      (df['+DM'] > df['-DM']) & (df['+DM'] > 0.0), 0.0)
df['-DM'] = df['-DM'].where(
      (df['-DM'] > df['+DM']) & (df['-DM'] > 0.0), 0.0)
df['+ADM'] = df['+DM'].rolling(14).mean()
df['-ADM'] = df['-DM'].rolling(14).mean()

df['+DI'] = 100.0*(df['+ADM'] / df['ATR'])
df['-DI'] = 100.0*(df['-ADM'] / df['ATR'])
df['DX']  = 100.0*(abs(df['+DI']-df['-DI']) / (df['+DI']+df['-DI']))
df['ADX'] = df['DX'].rolling(14).mean()
```
EMV指标
EMV（Ease of Movement Value）由技术分析专家理查德・阿姆斯（Richard W. Arms Jr.）于 1970 年代提出，是一种结合价格波动与成交量的技术指标。其核心逻辑是：在成交量放大时，价格波动应更显著；若成交量小而价格波动大，则可能预示趋势乏力。EMV 通过量化 “价格移动的难易程度”，判断市场趋势的动能强弱，尤其适用于识别量价配合的真实趋势。
```
df['average'] = df[['open','close','high','low']].mean(axis=1)
df['EM'] = (df['average'] - df['average'].shift(1)) * 
               (df['high'] - df['low']) / df['volume']
df['EMV'] = df['EM'].rolling(14).mean()
df['MAEMV'] = df['EMV'].rolling(9).mean()
```
最后顺便打印一下K线图和均线图，同样不借助第三方库
```
# 打印最近60日的数据
hist=hist.tail(60)
hist.reset_index(drop=True, inplace=True)

majorIndex = hist.index[hist.index%10 == 0]
majorTicks = hist['trade_date'][hist.index%10 == 0]

#K线图
plt.figure(figsize=(16, 8))
hist['EMA_5'].plot(color='red', label='EMA5')
hist['EMA_20'].plot(color='blue', label='EMA20')
hist['EMA_60'].plot(color='green', label='EMA60')
hist['BBI'].plot(color='grey', label='BBI')

for _, row in hist.iterrows():
    if row['close'] >= row['open']:
        plt.vlines(row['trade_date'], row['low'], row['high'], 
                   color='red', linestyles='solid')
        plt.bar(row['trade_date'], row['close']-row['open'], 
                width=0.5, bottom=row['open'], color='red')
    else:
        plt.vlines(row['trade_date'], row['low'], row['high'], 
                   color='green', linestyles='solid')
        plt.bar(row['trade_date'], row['open']-row['close'], 
                width=0.5, bottom=row['close'], color='green')
        
plt.xticks(majorIndex, majorTicks, rotation=30)
plt.grid(linestyle='-.')
plt.title(STOCK_ID)
plt.legend(loc='best')
plt.show()
```
下一篇文章，讲如何用随机森林来预测股价走势
2025年6月11日
用postgreSQL插件实现自己的RAG知识库
在医疗AI项目中遇到要LLM基于自己的知识库来输出结果，综合考虑，决定采用PostgreSQL实现自己的RAG库。

关于技术选型

主要是觉得AI能力落地应用、或者企业内部时，大部分企业应该做好的是系统的整合，而不是对AI本身的调优。更关注企业特有的数据，更重要的是数据的独特性，增强模型的容错性，而不是过于关注数据的清洗和数据的数量。举个例子，在医疗论文搜索中，对标题、摘要、正文和引用，可以用不同的方式进行查询和使用；或者对特定内容，比如公司介绍、产品介绍、治疗方案介绍，有不同的查询方式等等。

先说为什么要选这样的技术方案：

1，能用RAG的，就坚决不用微调。RAG的成本远低于微调，而且保留足够的灵活度，便于后续替换和升级。目前各大LLM模型的上下文窗口越来越长，效果越来越好，价格也越来越低，绝大部分情况下，已经没有必要去自己微调、部署；

2，项目不大，对postgreSQL又比较熟悉，研究了一下pg的全文搜索和pgvector两个插件，发现够用，而且本来在项目中已经有了一个pg数据库，就直接拿来用，不用额外成本。

关于全文搜索

再说说为什么在使用语义搜索的同时，还要考虑全文搜索的支持，我想主要是几个原因：一个是项目实现阶段，可以使用全文搜索对语义搜索的结果进行校验；一个是实际应用种，可以使用全文搜索对语义搜索出来的内容，调整权重，实现一些特殊的需求。

既然用了全文搜索，那么就有分词的问题，项目里使用的是jieba分词，直接用pg的插件支持就可以，还能够自定义字典，非常好用。可以直接在SQL语句中完成分词：
```
SELECT  to_tsvector('jiebacfg', %s);
```
要注意的一点是，项目中文本可能会有英文，也会有中文，遇到英文时，要用英文的分词，写成这样
```
SELECT  to_tsvector('english', %s);
```
举个表结构的字段，article_part_ts就是to_tsvector存储字段，同时建立一个索引：
```
CREATE TABLE public.fy_article_part_index (
	fy_article_part_id serial4 NOT NULL,
	fy_article_info_id int4 NOT NULL,
	article_part_text text NOT NULL,
	article_part_ts tsvector NOT NULL,
	article_part_em public.vector NOT NULL,
	CONSTRAINT fy_article_part_index_pk PRIMARY KEY (fy_article_part_id)
);

CREATE INDEX fy_article_part_ts_index ON public.fy_article_part_index USING rum (article_part_ts);
```
搜索时，同样需要对待搜索内容进行分词，然后对分词内容进行组合（与、或都可以，效果差别很大，在不同场景下适用），再对搜索结果相关性排序，取前N个结果就可以，比如：
```
SELECT fy_article_info_id, article_part_ts <=> to_tsquery('jiebacfg', %s) AS rank

FROM  fy_article_part_index
WHERE article_part_ts @@ to_tsquery('jiebacfg', %s)
ORDER BY rank
LIMIT 100
```
关于语义搜索

其实前面的创建表的SQL中，已经包含了语义搜索用的字段，也就是article_part_em字段，格式是public.vector。

这里先说embedding，他是用一个高维向量来表示一个对象的内涵意义，常见的word2vec，或者openai提供的’text-embedding-ada-002’等，都是embedding。项目里，我直接使用了阿里提供的embedding服务接口（不要自己去训练，完全没必要），不过要注意，一般大家用的embedding都是1536个维度的，但是阿里不知道为什么，把最新的模型改成了1024维度，为了保留项目的兼容性，我使用了它上一个版本，也就是1536维度的版本。记得对存储embedding的字段加上索引：
```
CREATE INDEX fy_article_part_em_index ON public.fy_article_part_index USING hnsw (article_part_em vector_l2_ops) WITH (m='16', ef_construction='64');
```
查询的时候，也先调用接口对待查询内容进行embedding，然后执行SQL：
```
SELECT fy_article_info_id, article_part_em <#> %s::vector AS rank
FROM  fy_article_part_index
ORDER BY rank
LIMIT 100
```
这里要注意，我们知道两个矢量之间的距离有好几种计算方法，常见的包括：欧式距离、曼哈顿距离、余弦距离、内积等等，在项目应用中，略微有些差别，且计算开销也不一样。我这里用的操作符<#>计算的是内积，表示两个向量的相似度。

关于文本切片

无论是从数据存储、搜索还是收API服务的接口限制上来说，我们都要对文本内容进行切片。

切片可以固定长度切，也可以根据语句来切，切片的长度太短会造成语义搜索效果变差，长度太长，又会造成性能问题，所以要结合项目进行调优。

我采取的策略是先进行分句，然后把长度限制内的语句，组合成一个切片。

对于英文内容，项目里选择的分句方法是Python的NLTK库：
```
from nltk.tokenize import sent_tokenize

sentences = sent_tokenize(article_en)
```
对于中文，没有找到现成的分句方法，就自己实现了一个，考虑了一些特殊情况
```
def split_chinese_sentences(text):
    sentences = []
    current_sentence = []
    i = 0
    n = len(text)
    
    # 状态跟踪
    in_quote = False  # 是否在引号中
    quote_chars = {'“': '”', '‘': '’'}  # 对应的引号匹配
    
    while i < n:
        char = text[i]
        
        # 处理引号状态
        if char in quote_chars:
            # 遇到开引号，进入引号状态
            current_sentence.append(char)
            expected_end_quote = quote_chars[char]
            i += 1
            # 寻找对应的闭引号
            while i < n and text[i] != expected_end_quote:
                current_sentence.append(text[i])
                i += 1
            if i < n:
                current_sentence.append(text[i])  # 添加闭引号
                i += 1
            continue
                
        # 处理省略号（六连点）
        if i <= n-5 and text[i:i+6] == '......':
            current_sentence.append('......')
            if not in_quote:
                sentences.append(''.join(current_sentence).strip())
                current_sentence = []
            i += 6
            continue
            
        # 处理中文省略号（三连顿号）
        if i <= n-2 and text[i] == '⋯' and text[i+1] == '⋯' and text[i+2] == '⋯':
            current_sentence.append('⋯⋯⋯')
            if not in_quote:
                sentences.append(''.join(current_sentence).strip())
                current_sentence = []
            i += 3
            continue
            
        # 处理普通结束符
        if char in {'。', '！', '？', '…'}:
            current_sentence.append(char)
            if not in_quote:
                sentences.append(''.join(current_sentence).strip())
                current_sentence = []
            i += 1
            continue
            
        # 默认情况：积累字符
        current_sentence.append(char)
        i += 1

    # 处理最后未完结的句子
    if current_sentence:
        sentences.append(''.join(current_sentence).strip())

    return [s for s in sentences if s]
```
权重调优

接下来，把两种方法搜索出来的内容，通过设定一个最小的rank数值，过滤掉无用的内容，再把两份内容结合起来，调整权重，最终找到最适合的几篇内容。

在文章切片以后，我选择的是通过切片内容，找到原文全部内容，整体喂给LLM。毕竟现在LLM的接口，入参的token数量大的已经到了1M，完全可以支持几万字，成本可以接受的情况下，为什么不充分利用呢？

PROMPT工程

最后一步就是调用LLM接口啦，这里主要是对prompt进行调优，特别是告诉LLM他的角色，用户的历史会话记录，以及刚才搜索出来的相关文档内容，设置合适的温度值，以及对输出内容的要求。这里有两个注意的地方，一个是我发现平台提供的LLM接口，即使使用同一个版本，也要定期检查它的输出内容，他一定几率会变得不可控，要及时调整prompt的写法；另一个是有些接口在设置角色、书写prompt时，英文的效果比中文好。

希望我的记录，对大家有所帮助。
2025年4月28日
公众号发完100篇文章以后的感想

不知不觉已经完成了100篇文章，而孚佑健康自己的产品也立项了，值得纪念一下。文章虽然都是摘抄翻译自《Natue》、《Cell》等等期刊和它们的子刊，但是每天至少快速阅读20篇论文、从中选择合适的文章，然后翻译、编辑，虽有AI助力，也是极耗精力的事情。坚持下来，发现仿佛回到在学校做学问的时间，阅读论文的能力、搜索信息的能力还提升了很多。是不是有一点金庸小说中黄裳修道家文献，而自己创出《九阴真经》的感觉？

回到初心，为什么要做这样吃力又不怎么涨粉的事情？每篇文章动辄大几千、甚至两三万，有些选题还很偏，关注那些没什么阅读量的气候变化，但是我是真心希望这些发生在世界各地的医学、生物学等等学科的技术进展、文章这种科学而实际的态度，能够被更多人看到。毕竟能够直接阅读这些世界上最权威期刊的人，是少之又少，要跨越网络、语言和专业的鸿沟。但是，今天的一段经历刚好说明了这件事情的必要性。

今天去看望一个朋友，他家里老人得了多发性骨髓瘤，一种恶性浆细胞病，他给我讲了整个过程。一开始，老人觉得胃口不好，看舌苔很厚，找了村里的人帮忙刮痧，没什么好起来，又去药店挂盐水。至于挂的什么，完全说不清楚。挂了两天还是不见好，走路都有些轻飘飘不稳，就让家里人带着去区里的人民医院检查，验了血，发现血红蛋白很低，也就是常说的贫血，安排了住院，做了全面检查，进行了专家会诊，怀疑是肾不好，但是挂了几天盐水，还是没有起效。刚好，有个医生亲戚去看望老人，建议去找省会大三甲的专家查一下，他同学就在那儿当医生，结果对方一看指标，马上说来住院，终于查出了病症，当即开始化疗。

化疗的费用不低，一周一次，每次要近万元，幸好这个药去年刚刚进了医保。在医院化疗时，边上有人已经化疗十年了，一开始是一周一次，几个月后是两周一次，最后改到一个月一次，那时候药还没有进医保，家里的钱花完了，房子也卖了，有段时间差点坚持不下去，医生帮他想了办法，向其他患者买用剩下多余的药，几个人剩下的药水凑一下，拼到他要用的量，这样便宜很多。

朋友家里本就条件一般，老人一辈子积蓄也就二三十万，可能都会花在医院里了，而且还不敢让老人知道真实的病和真实的花销，家人想着这些钱如果花完了，就打算卖房子了。然而就在这样的条件下，老人原先还动不动就买了大几千的磁疗床垫、磁疗衣服，还有大几百的羊奶粉等等。老人跟我聊天时，还说磁疗的床垫好啊，能够把像一串葡萄一样粘在一起的血细胞，打散成一个一个的，这样就更通畅健康了。生病期间还接到销售电话，让他去听免费的健康讲座，还有猕猴桃可以拿。

这可能是数以千万计的人中，普普通通的一个，靠着微薄的养老金省吃俭用，积蓄很少，但是又在健康保健上花了大钱，上当受骗，最后把一生的积蓄甚至房子，花在了医院。生不带来，死不带去。幸好他们还有医保，后来我又建议他们去投保惠民保，还能再多报一部分。这里涉及到的问题太多了，从健康教育、市场规范、医疗保障到医学进步，原研药和仿制药等等，这些，我们都想让更多人知道。

（原文本打算发表在公众号，思虑再三，作罢）

2024年9月14日
教育的焦虑

大女儿要上初中了，不知道哪里来的信息，被拉去听了一个学科培训班的招生讲座。讲座挂着公益的名头，现场人可真不少，家长被带到一个大教室听讲座，教室里座无虚席，还在走廊上加了几个凳子，学生们被带到另一个教室去做测试，按成绩分班。（当然，我没有带上女儿）给家长讲的是培训班负责老师，一开始就把初中描述成洪水猛兽，总体逻辑就是小升初这个暑假没抓紧，初一就跟不上；初一跟不上，后面就步步落后，中考就考不上重高；考不上重高，上不了好大学；上不了好大学，这辈子就没有出头之日了。看她言之凿凿，又殷切的表情，实在是让人感觉事态严重，不得不焦虑。怎么办？应该在小升初暑假就学完初一内容，初二就开始上高中内容，参加竞赛，为高考准备，初三中考前就已经铺好了通向清华北大的坦途！似乎一种上了初中，除了学习，其他活动都是罪恶，会毁了一生的感觉。

回过头来看大学毕业生就业情况，官方的数据不敢妄议，但是从考研、考公数量，身边走访几个学校的情况，毕业生工资情况，以及网上一些不签三方就不给毕业的新闻，可想而知的难！苦学十数载，毕业仍是干着与上一辈差不多的事情，只是拿更少的工资。企业家精神的缺失、中小企业的艰难，让更多大学生向往着考上公务员、或是进入央企国企，去拿铁饭碗。如果大学里没有研究精神、企业里没有创新能力，何来人才、更哪里有国力？焦虑啊！

听刚从硅谷回来的几个朋友说到，人工智能突破以后，现在整个硅谷弥漫着投资、创业的氛围，公园里、咖啡馆里，都在谈论新项目、新技术，比当年互联网泡沫时期有过之而无不及。国内经常讨论的一个问题是，中国的人工智能比美国落后多少，众说纷纭。我自己的观点，从技术和工程化角度上说，可能只差半年；但是从基础研究和人才储备上说，至少差10年！为什么是10年，大学、硕士加博士，再加一些实际工作经验，可不就是10年？焦虑啊！

出去吧？香港、新加坡移民突然就火了，只是能有财力、精力去移民的人，实在不多，毕竟在还有6亿人口人均月收入不足1000的国家内，能每年拿到一两百万的，凤毛麟角。卷不动孩子，也卷不动大人，焦虑啊！

周末去参加一个青少年领导力的活动，帮忙去拍照，同时仔细观察了青少年们的状态。从基本的生活自理能力、自控能力、纪律性到社交能力和领导力，都存在诸多缺陷，这真的让我更焦虑了！

最近不知怎得，又回过去看《觉醒年代》，就用陈独秀在《新青年》创刊词上对新青年的六个要求来结束焦虑吧：自主的而非奴隶的，进步的而非保守的，进取的而非退隐的，世界的而非锁国的，实利的而非虚文的，科学的而非想象的

2024年7月11日
读《教育的目的》及一些感想

怀特海是非常重要的一位哲学家，他提出的历程哲学，强调事物的变化、发展和相互联系。他对教育的观点，处处体现了他的哲学思想。

怀特海把人生分成三个时期：幼儿期、青春期、大学教育，每时期又分为浪漫阶段、精审阶段、贯通阶段，这三个阶段是不断循环。每个时期应该人都有自己的特点，应该结合不同阶段进行合适的教育。三个阶段分别对应着领悟、积累和贯通，有点像禅宗说的，看山是山、看水是水，到看山不是山、看水不是水，最后回归到看山还是山、看水还是水着三个阶段，但是怀特海更强调这是个不断循环的过程。

怀特海强调教育的实用性，他反对严格的分科教育，主张各学科之间融会贯通，回到教育的本来目的，也就是找到解决问题的方法。比如，通过勘测一块土地，来学习几何、代数、考虑地质、气候、道路等等情况，了解这些该地区的居民的影响。这样比仅从课本上来的，单调而分割的知识，要有用得多。同样，他提倡技术教育，认为工作能给人带来活力和进步。最近去几个学校参观学习，发现现在的大学生不仅仅是在课堂学习，同样会借助各种机会在社会中实践。以前我们理解的兼职，都是家教、翻译、写文章等等，现在看到很多自媒体、私域，用上了大模型来做文案、有些甚至在学校就已经是百万粉丝的大V了。这些学生毕业以后，走上工作岗位，相信一定会成为适合未来社会的栋梁之材。

中国大学生面临着强大的就业压力，但是很多行业的很多岗位又招不到合适的人材，我认为，这是教育没有跟上社会经济发展和结构变化的结果。经济发展的结构性变化，一定会从传统的第一第二产业，往第三产业转变。科技发展和人工智能的兴起，会大幅提升农业、畜牧业、工业、制造业、信息产业的人均产能，也就是大量减少这些行业的工作岗位，同时会涌现出大量的第三产业的工作岗位空缺，这些反而是技术进步短期内不能替代的行业，比如家政、护理、餐饮、旅游、文化、教育等等服务产业。虽然这些消费行业的需求还没有被完全激发出来，但是随着经济发展和政策导向，趋势是非常确定的。结合教育来说，让学生有充分的实践经验，有融汇贯通知识来为工作服务的能力，是目前教育亟需解决的问题。

2024年6月11日
关于资产负债表衰退

《大衰退——宏观经济学的圣杯》是辜朝明讲日本经济衰退的著作，主要意思是讲日本经济的衰退是因为资产价值暴跌，引起企业负债被动变高，企业失去投资去换取更高利润的动力，改为把利润都用来还清负债。这种情况有几个特点：货币政策失效，再低的利率都无法推动企业扩大投资；企业利润率不错，但是不扩张，GDP仍然保持增长，但是人民的感受并不好。这个解释非常有力，并给出了一个解决的方法：积极的财政政策，让国家来举债拉动投资。虽然书的后半部分，试图把美国30年代经济危机也用这个方式来解释，有点牵强。

看目前中国经济形势，其实跟日本经济危机非常类似，但是更加复杂。类似的是资产价值下跌，很多城市房地产的价格已经跌去至少30%，看商业地产，最近开始创业，在租办公室，看了很多楼，空的非常多，而且租金比以前下跌幅度巨大。央行放了很多水，但是商业银行贷款放不出去，或者在放出去又空转回到了银行体系，变成储蓄和理财。企业盈利能力保持得不错，GDP仍然在增长，但是失业率居高不下，而且还要增长的趋势。但是中国的经济又面对比当年日本更复杂的情况，一个是中国未富先老，昨天在财新的论坛上，前财政部长楼继伟说，社保基金测算到2035年就会耗尽，而且是在按照2022年开始推行延迟养老的计划上进行的测算。二是地缘政治更复杂，和美国逐步脱钩已经是既成事实，不仅仅是经济问题，更是政治问题、国家存亡问题。三是中国产能巨大，但是国内消费占比过低，不得不依靠输出产能来保持经济增长，新能源和汽车虽然扛起了新一轮的贸易主力，但是和大基建来比，还是差了很多。四是政府债务严重，特别是地方政府债务高，资金利用率低，甚至很多地方政府事实上已经破产。

这里稍补充一下我的看法，企业不扩大投资，资产负债表是个原因，但更大的原因应是对经济增长的预期。企业即使负债很轻，但是对未来没有好的预期，也会大大影响扩张动力，而如果对经济持续增长有良好预期，企业负债反而不重要，甚至变成优势。中国经济从改革开放以来，还没有经历过一次完整的大周期（40-60年），而毕竟，经济的周期性是客观规律，而经济周期性的背后，还是人们预期的周期性，说到底还是人性。

当然，中国政府已经开始行动，昨天最大的消息就是央行开始在二级市场购买国债，同步国家发行50年期限的国债。国家发出去的债券，通过商业银行转一下，就可以被央行买下来，国债不愁卖不出去，接下来就看这些资金被投资到什么行业，继续大基建是肯定行不通了，高科技研发才是最值得投入的方向。另一个要亟待解决的问题就是消费能力弱，这里背后有两个问题，一个是民生保障问题，一个是贫富差距问题，如何保障养老和医疗，如果变国富民弱为共同富裕，需要更多的方法。

2024年4月26日
好多小猫

其实是测试一下Stable Diffusion XL 支持的style，生成了好多好多，各式各样的小猫，废话不说，直接上图：

3D Model

Anime

Cinematic

Analog Film

Comic Book

Craft Clay

Digital Art

Enhance

Fantasy Art

Isometric

Line Art

Low Poly

Neonpunk

Origami

Photographic

Pixel Art

Texture

2024年1月15日
2024，我们来了

回顾自己23年初的判断，预测对了疫情的结束、预测对了经济的寒冬，但是没有完成自己立下的读书目标。2023经历了很多，生活和工作也发生了深刻的变化，有机会让我真正看清楚自己，也更看清楚这个社会。

一个人与这个社会的连接、关系，很大程度上决定了他的角色。当这些连接、关系不断发生变化时，他的角色就会发生变化，这些转变可能是外部引起的，也可能是自我转变引起的。当这些连接、关系发生了突变，他就会经历重新定义自己的过程，这个过程能够让真正的自己，从褪去的外壳中展现出来，每一段这样的经历都是非常宝贵的。人这一生中，恰恰是因为有了这些突变，才让黯淡漫长的生活，变得有意思、更有意义。

自己过去总是过于相信人的善，遇到过不少挫折，当然也因此收获了一批交心的朋友。这一点可能很难改变，但是更理性地去接受现实、更充分地去准备未来，是一直要努力的方向。

新的一年里，不去立什么flag了，但行好事，莫问前程！

2024年1月3日