手写 sql

if 条件的字段为空则不应该拼接条件，是一个很容易被忽略的编程错误。如果线上发生了这个问题，则可能导致数据同步出错。

极度危险的错误

元素内容必须由格式正确的字符数据或标记组成，这通常是因为>``<``>=``<=类的标签没有经过转义。

防止手写 sql 被注入

所有 condition 用（）圈起来。单独在 condition 里面拼装。用 and 来连接这些 condition。

在最外围使用随机化的()来包裹整个 where 的条件，防止有人猜到()的层次。

mybatis 的替换难点

#{} 是预编译处理，${} 是直接替换。直接替换会有 sql 注入的风险。

    // 原始方案
    @Select("${nativeSql}")
    Object nativeSql(@Param("nativeSql") String nativeSql);

    // 第一版方案
    @Select("SELECT sum(distinctCidCnt) AS distinctCidCnt\n"
            + "FROM\n"
            + "(\n"
            + "    SELECT\n"
            + "        account_id,\n"
            + "        arrayUniq(groupArray(component_id)) AS distinctCidCnt\n"
            + "    FROM\n"
            + "    (\n"
            + "        SELECT\n"
            + "            account_id,\n"
            + "            arrayJoin(splitByString(',', component_id_list_str)) AS component_id\n"
            + "        FROM testtbl\n"
            + "        WHERE ${params}\n"
            + "    ) AS t\n"
            + "    GROUP BY account_id\n"
            + ") ")
    Integer selectDistinctCidCnt(@Param("params") String params);
    
    
    // 第二种方案
    
    @SelectProvider(type = CurrentSqlProvider.class, method = "selectDistinctCidCnt")
    Integer selectDistinctCidCnt(String conditions);
    public static class CurrentSqlProvider {

            private static final String DISTINCT_CID_CNT = "distinctCidCnt";

    /**
     * 一个针对下推查询用的sql，这个sql的逻辑是这样的：
     * 1. 先找拼接出来的条件查出全部的 component_id_list_str
     * 2. 使用 splitByString 按照 , 分割出 component_id
     * 3. 然后借用 arrayJoin 产生多行，每个 component_id 一行
     * 4. 使用 groupArray 在每个账户内把多行组成一个数组（不要尝试在 splitByString 生成数组，这个在 ck 里行不通，在 MySQL 里会比想象中复杂得多，这就是这个sql让人难受的地方）
     * 5. 使用 arrayUniq 在单个账户内把数组去重，计算长度
     * 6. 使用一个外部查询把数组间的数字加总起来
     */
    private static final String SQL_TEMPLATE = "select sum(distinctCidCnt) as " + DISTINCT_CID_CNT + "\n"
                    + "from\n"
                    + "(SELECT\n"
                    + "    account_id,\n"
                    + "    arrayUniq(groupArray(component_id)) AS distinctCidCnt\n"
                    + "FROM\n"
                    + "(\n"
                    + "    SELECT\n"
                    + "        account_id,\n"
                    + "        arrayJoin(splitByString(',', component_id_list_str)) AS component_id\n"
                    + "    FROM testtbl\n"
                    + "    WHERE %s \n"
                    + ") AS t\n"
                    + "GROUP BY account_id)";

            public static String selectDistinctCidCnt(String conditions) {
                return String.format(SQL_TEMPLATE, conditions);
            }
            
            // 第三个方案
            @Select("<script>"
        + "SELECT sum(distinctCidCnt) AS distinctCidCnt\n"
        + "FROM\n"
        + "(\n"
        + "    SELECT\n"
        + "        account_id,\n"
        + "        arrayUniq(groupArray(component_id)) AS distinctCidCnt\n"
        + "    FROM\n"
        + "    (\n"
        + "        SELECT\n"
        + "            account_id,\n"
        + "            arrayJoin(splitByString(',', component_id_list_str)) AS component_id\n"
        + "        FROM testtbl\n"
        + "        <where> 1=1"
        + "<if test='startDate != null'>"
        + " AND partition_time &gt;= #{startDate}"
        + "</if>"
        + "<if test='endDate != null'>"
        + " AND partition_time &lt;= #{endDate}"
        + "</if>"
        + "<if test='adgroupId != null'>"
        + " AND adgroup_id = #{adgroupId}"
        + "</if>"
        + "<if test='opGroupNameList != null and opGroupNameList.size() > 0'>"
        + " AND op_group_name in "
        + "<foreach item='item' index='index' collection='opGroupNameList' open='(' separator=',' close=')'>"
        + "#{item}"
        + "</foreach>"
        + "</if>"
        + "<if test='marketingTargetId != null'>"
        + " AND marketing_target_id = #{marketingTargetId}"
        + "</if>"
        + "<if test='marketingTargetName != null'>"
        + " AND marketing_target_name = #{marketingTargetName}"
        + "</if>"
        + "<if test='agentIds != null and agentIds.size() > 0'>"
        + " AND agent_id in "
        + "<foreach item='item' index='index' collection='agentIds' open='(' separator=',' close=')'>"
        + "#{item}"
        + "</foreach>"
        + "</if>"
        + "<if test='accountId != null'>"
        + " AND account_id = #{accountId}"
        + "</if>"
        + "</where>"
        + "    ) AS t\n"
        + "    GROUP BY account_id\n"
        + ") "
        + "</script>")
Integer selectDistinctCidCnt(LocalDate startDate, LocalDate endDate, Long adgroupId, List<String> opGroupNameList
        , Long marketingTargetId, String marketingTargetName, List<Long> agentIds, Long accountId);
        
    // 最终方案
    @Select("<script>"
        + "SELECT sum(distinctCidCnt) AS distinctCidCnt\n"
        + "FROM\n"
        + "(\n"
        + "    SELECT\n"
        + "        account_id,\n"
        + "        arrayUniq(groupArray(component_id)) AS distinctCidCnt\n"
        + "    FROM\n"
        + "    (\n"
        + "        SELECT\n"
        + "            account_id,\n"
        + "            arrayJoin(splitByString(',', component_id_list_str)) AS component_id\n"
        + "        FROM testtbl\n"
        + "        <where>"
        + " <foreach collection='conditions.entrySet()' item='value' index='key' separator=' AND '>"
        + "${key} ${value}"
        + "</foreach>"
        + "</where>"
        + "    ) AS t\n"
        + "    GROUP BY account_id\n"
        + ") "
        + "</script>")
Integer selectDistinctCidCnt(@Param("conditions") Map<String, String> conditions);

对于 mybatis 的普通标签，注意>=，<=，必须使用foreach in，不能直接使用in，否则会Invalid types for IN function: String and Tuple 。

如果使用最终方案，key 使用列名，value 使用操作符 + value 的方法，如in (123)或者>= '2024-11-11'，不需要转义，但是需要尽量拼接上单引号和括号（不要改变语义），而且在生成语句的时候需要严格使用${}而不能使用#{}，for循环的item、index和 separator 也不能变。

熔断和降级仍然导致 cpu 过高

熔断和降级会导致大量的日志打印。

日志打印在高并发时可能遇到问题：

ThrowableProxy.toExtendedStackTrace 内部会进行loadClass操作。

并且可以看到 ClassLoader 的 loadClass 在加载类时

1）首先会持有锁。

2）调用 findLoadedClass 看下是否类已经被加载过了

3）如果类没被加载过，根据双亲委派模型去加载类。

可以看到当某个类被加载过了，调用 findLoadedClass 会直接返回，锁也会被很快释放掉，无需经过双亲委派等后面的一系列步骤。

但是，在进行反射调用时，JVM 会进行优化，会动态生成名为 sun.reflect.GeneratedMethodAccessor 的类，这个类无法通过 ClassLoader.loadClass 方法加载。

导致每次解析异常栈进行类加载时，锁占有的时间很长，最终导致阻塞。

Java中对反射的优化

使用反射调用某个类的方法，jvm内部有两种方式

JNI：使用native方法进行反射操作。

pure-Java：生成bytecode进行反射操作，即生成类sun.reflect.GeneratedMethodAccessor，它是一个被反射调用方法的包装类，代理不同的方法，类后缀序号会递增。这种方式第一次调用速度较慢，较之第一种会慢3-4倍，但是多次调用后速度会提升20倍

对于使用JNI的方式，因为每次都要调用native方法再返回，速度会比较慢。所以，当一个方法被反射调用的次数超过一定次数（默认15次）时，JVM内部会进行优化，使用第2种方法，来加快运行速度。

JVM有两个参数来控制这种优化

IDEA 里的 VM options：

-Dsun.reflect.inflationThreshold=
value默认为15，即反射调用某个方法15次后，会由JNI的方式变为pure-java的方式

-Dsun.reflect.noInflation=true

默认为false。当设置为true时，表示在第一次反射调用时，就转为pure-java的方式

关于如何验证上面所说的反射优化以及两个参数的具体作用，可以参考R大的这篇博客https://rednaxelafx.iteye.com/blog/548536

public class TestMethodInvoke {
    public static void main(String[] args) throws Exception {
        Class<?> clz = Class.forName("A");
        Object o = clz.newInstance();
        Method m = clz.getMethod("foo", String.class);
        for (int i = 0; i < 100; i++) {
            m.invoke(o, Integer.toString(i));
        }
    }
}
public class A {
    public void foo(String name) {
        System.out.println("Hello, " + name);
    }
}

private MethodAccessor acquireMethodAccessor() {
        // First check to see if one has been created yet, and take it
        // if so
        MethodAccessor tmp = null;
        if (root != null) tmp = root.getMethodAccessor();
        if (tmp != null) {
            methodAccessor = tmp;
        } else {
            // Otherwise fabricate one and propagate it up to the root
            tmp = reflectionFactory.newMethodAccessor(this);
            setMethodAccessor(tmp);
        }

        return tmp;
    }

public MethodAccessor newMethodAccessor(Method var1) {
        checkInitted();
        if (noInflation && !ReflectUtil.isVMAnonymousClass(var1.getDeclaringClass())) {
            return (new MethodAccessorGenerator()).generateMethod(var1.getDeclaringClass(), var1.getName(), var1.getParameterTypes(), var1.getReturnType(), var1.getExceptionTypes(), var1.getModifiers());
        } else {
            NativeMethodAccessorImpl var2 = new NativeMethodAccessorImpl(var1);
            DelegatingMethodAccessorImpl var3 = new DelegatingMethodAccessorImpl(var2);
            var2.setParent(var3);
            return var3;
        }
    }

这个方法不一定能够奏效。

如何关闭JVM对反射调用的优化？
想关闭JVM对反射优化怎么办?

JVM中只提供了两个参数，因此，没有办法完全关闭反射优化。

一种能想到的接近于关闭反射优化的方法就是将inflationThreshold设为的一个特别大的数。

inflationThreshold是java中的int型值，可以考虑把其设置为Integer.MAX_VALUE ((2^31)-1)。

$ java -Dsun.reflect.inflationThreshold=2147483647 MyApp

两类触发条件：

高并发打印异常栈日志(QPS>50)；
异常栈中包含反射相关的类(RPC中间件、aop)；

解决方案，绕开 log4j里面的 ThrowableProxy.toExtendedStackTrace 对异常的处理流程：

 public static void logError(Logger logger, String message, Object... args) {
        if (ArrayUtils.isEmpty(args)) {
            logger.error(message);
            Monitor.logError(message, new BizException());
            return;
        }
        int length = ArrayUtils.getLength(args);
        Object last = args[length - 1];
        String builder = message;
        for (int i = 0; i < length - 1; i++) {
            builder = StringUtils.replaceOnce(builder, replaceStr, String.valueOf(args[i]));
        }
        // 传入参数以异常结尾
        if (last instanceof Exception) {
            logger.error(builder + " exception msg={}", getStackTrace((Throwable) last));
            Monitor.logError(builder, (Throwable) last);
        } else {
            logger.error(message, args);
            builder = StringUtils.replaceOnce(builder, replaceStr, String.valueOf(last));
            Monitor.logError(builder, new BizException());
        }
    }
}

public static String getStackTrace(Throwable throwable) {
        try {
            StringWriter sw = new StringWriter();
            PrintWriter pw = new PrintWriter(sw, true);
            throwable.printStackTrace(pw);
            return sw.getBuffer().toString();
        } catch (Exception ex) {
            return "";
        }
    }

ExceptionUtil.logError(log, "warden上传图片节点，解析图片内容为空, param:{}", riskClaimParam, wardenRiskException);


// 第二种方法：去掉了 GeneratedMethodAccessor，不够好
public class ExceptionUtils {
    /**
     * 过滤反射相关类，JVM反射优化后 log4j输出异常栈会因反复加载这些类block线程，尤其GeneratedMethodAccessor
     *
     * @param e
     * @return
     */
    public static Throwable filterReflectTrace(Throwable e) {
        Throwable cause = e;

        while (cause != null) {
            StackTraceElement[] traces = cause.getStackTrace();
            List<StackTraceElement> list = new ArrayList<>();
            for (StackTraceElement element : traces) {
                String className = element.getClassName();
                if (className.contains("GeneratedMethodAccessor") || className.contains("DelegatingMethodAccessorImpl")
                        || className.contains("NativeMethodAccessorImpl")) {
                    continue;
                }
                list.add(element);
            }
            StackTraceElement[] newTraces = new StackTraceElement[list.size()];
            cause.setStackTrace(list.toArray(newTraces));

            cause = cause.getCause();
        }

        return e;
    }
}

参考：

老的表如果预先没有加好查询索引，则后续维护的 orm 用户更加容易忘记加

缺慢查询告警则无法在性能恶化以前发现这个问题。

nginx 集群的 tps 只有 18 万，不容易动态扩容。因为没有打招呼，所以没有扩容。前后端没有做过针对活动的限流调整。

要针对活动对 PaaS、IaaS 层做预案设计，这种偏物理层面的非逻辑节点隐藏得特别深，容易被忽略。

改配置无前置正确性校验和运营审核卡点

要配上前置校验工具和卡点平台。

不同业务没有做数据层面的隔离，而只做了应用层面的隔离

错误雪崩无边界。

MySQL 官方bug

这是一个类似因果一致性达不到顺序一致性的问题。

相互矛盾的 dml 会使用同一个 commitid，因而在从库被并行执行，被并行执行时触发死锁。：FLUSH PRIVILEGES may cause MTS deadlock

平台有两种工作模式时，无缓存的工作模式没有经过深入测试

无缓存的测试数据集比较小，分布不够散列，导致测试的结果不能匹配线上真实的大流量。

动态配置服务

广播失败，播放了缺省值。

Java 7 的 code cache 问题

根因：

codecache打满且发生flush；
flush之后未操作过重启；
热点代码已从codecache中卸载。

Code cache flushing causes stop in compilation, contention on
codecache lock and lots of wasted CPU cycles when the code cache gets
full.

When uncommited codecache memory is less than the the size of the
total memory on the freelist, we iterate the entire freelist for the
largest block. This is done from ~8 places in the compiler broker. As
long as the largest block is less than CodeCacheMinimumFreeSpace
(1,5M) all compilation is halted and flushing is invoked. Since
gathering a 1,5M continous freelist block will take some time,
compilations is delayed, and regular flushing makes the freelist
longer and longer. After a while it is very long, but still far from
being continous. More and more time is spent iterating the freelist.
All profile counters that overflow will end up checking the freelist.
All compiler threads will check the freelist a few times before
delaying compilation. In addition the freelist is accessed holding the
codecache lock making the excessive iterating fully serilized. After a
day or so a CPU core may spend 100% of its cycles banging the
codecache locka and iterating the freelist. Also the application slows
down when more and more code is flushed from the cache.

This problem is mostly mainfested with tiered compilation since we
compile and reclaim a lot more code. A clear symptom is when the VM
has stopped compiling even though it reports it has enough free code
cache. The problem is worse with big codecaches since the freelist
will be more fragmented and get much longer before finding a continous
block.

Workaround: Turn of code cache flushing.

Solution is probably not to require continous free memory. The cause
for the threshold is to gaurantee space for adapters, and they are
usually small and will fit anyway.

这个结论大致上认为：
如果 uncommited codecache memory（未提交 codecache 内存）小于 the the size of the
total memory on the freelist（这个设计很像 InnoDB 的 free list），JVM会去查找 freelist 寻找 largest block。姑且认为，这是一个线性数据结构。如果查找的结果，largest block 小于一个法定配置 CodeCacheMinimumFreeSpace (1,5M，comment 里的说法是 500k) ，JVM就会不安地 halt 住 all compilation，并且开始 flushing code cache。这个 flushing 第一持有锁，第二目标是构造一块连续的内存，大于等于 CodeCacheMinimumFreeSpace。因为 complier 是多线程的，但锁的存在让这个iterating fully serialized，所以 lock centention 出现了，因为 code cache 被清理了，所以 cpu utilization 会飙得非常高。这时候光看 JVM的内存状态诊断会发现，其实还有 enough free code cache。大的code cache 碎片化更严重，所以并不一定能解决这个问题。

一个潜在的解法是：允许 code cache 在非连续内存上工作。

这类问题不易复现的原因之一是：

A DESCRIPTION OF THE PROBLEM :
1.7 JVM’s (starting with Java 1.7.0_4) set ReservedCodeCacheSize option to the default value of 48MB. Once the Code Cache size reaches
this limit, JVM switches the hotspot off forever.

This results in the immediate performance decrease for all not yet
“compiled” code and gradual “slow” performance decrease for already
“compiled” code which was “too long” time in the cache and is removed
from cache later.

Unfortunately there is no way back - once the JVM decides to switch to
the interpreted mode, it never switches back even if the CodeCache
memory is freed again.

如果 code cache “满了”，JVM 会关闭 JIT，所以这个 flushing 在折磨完人以后不会再出现。而应该被放在 code cache 里的代码分支，突然会变得很慢很慢。

只有重启这台机器，然后通过压测能够复现这个问题。

出现这个问题的时候，cpu 的监控和 code cache 的监控的抖动是一致的。

code cache 的简介，注意 jcmd、nmt 对 code、code heap、profiled method、non-profiled method 等方法的描述。

线程池的父子任务互相等待，导致线程池耗尽，从 worker 线程池一直阻塞到

一次线程池引发的线上故障分析

dubbo 有一个专门的消息线程池的线程被用尽了：Thread pool is EXHAUSTED，按照一般线程池的使用规律：核心线程-缓存队列-最大线程-拒绝。此时应该是最大线程已经被用尽了。

大线程池被小线程池给阻塞死了，因为小线程池太小，大线程池多大都不够用。而且线程池内还有孙任务和子任务互锁-子线程池太小就好像一把锁一样。

核心的逻辑悖论是：父线程也是用线程池执行的，父线程先进入线程池是必然的。子线程如果一条都进入不了线程池，必然导致线程池的死锁。

解决方案就是引入父子线程池，或者使用 CompletableFuture 默认的 commonPool。很多bug就是用单一线程池代替commonPool造成的。

这篇文章的结论要辩证地接受，ThreadPerTaskExecutor 是个很危险的线程池。如果使用commonPool则 CompletableFuture#join方法在进入阻塞之前，判断当前线程是 ForkJoinWorkerThread线程则会在满足条件时先尝试补偿线程，确保有足够的线程去保证任务可以正常执行，这个知识点很重要。

CompletableFuture内部包含两种默认线程池，当 ForkJoinPool#getCommonPoolParallelism() 大于1时使用 ForkJoinPool 的 commonPool 线程池，反之则使用内部类 ThreadPerTaskExecutor 执行任务。

ThreadPerTaskExecutor每次执行都会创建线程，因此不会出现任务等待线程空闲的情况。
commonPool是 ForkJoinPool内部包含的默认线程池，一般情况下并行数为 cpu核心数-1。

ForkJoinPool创建的线程为 ForkJoinWorkerThread 类型，而 ForkJoinPool#managedBlock判断当前线程是 ForkJoinWorkerThread 类型时会调用 tryCompensate 方法，该方法在特定情况下会去补偿线程确保任务正常执行完成。

CompletableFuture 线程池可以正常执行是因为使用 ThreadPerTaskExecutor 时每次都会创建新的线程，而使用 commonPool时，在 CompletableFuture#join 进入阻塞之前会去尝试补偿线程。但是也不是无限补偿，当补偿达到一定次数后就会抛出异常。

使用 CompletableFuture 的默认线程池之所以不会出现互等的情况，是因为提交任务时，如果内部使用的是 ThreadPerTaskExecutor 是会不断创建新线程的，不会因为进入队列阻塞等待被执行而陷入等待。而如果内部使用的是 commonPool则 CompletableFuture#join 方法在进入阻塞之前，判断当前线程是 ForkJoinWorkerThread 线程则会在满足条件时先尝试补偿线程，确保有足够的线程去保证任务可以正常执行。

ES 扩容到错误的机器，引发频发降级

在 SSD 机器上得到的经验不一定适用于 SATA 机器，SATA 机器的存在最终会导致误申请。
在业务高峰时迁移大分片可能导致业务的平响上升。自动迁移要有高低峰的限制。

nginx 的配置模块 lru cache不够用，导致部分配置丢失，导致流量偏移，拖垮中心单元

敏感配置如果不可降级，怎么做好冗余？

MySQL 里使用 bigint 表达自增 id，但 Java 代码里使用 Integer，导致 ORM 映射失败

所有的数据库字段，最好统一生成，不要自己手写，很容易出错。

beandefinition 里面依赖 bean

循环依赖导致 Spring 启动失败，或者出现未正确初始化的 bean（某些 xml 的占位符不能被正确替换）。

高流量的时候，大量的 IO 线程在线程池里等待任务

这个问题可以用 jstack 定位：

com.magicliang.Service-5-thread-95  WAITING waiting on java.util.concurrent.SynchronousQueue$TransferStack@66c0a24a
at sun.misc.Unsafe.park (Native Method)
at java.util.concurrent.locks.LockSupport.park  (LockSupport.java:175)
at java.util.concurrent.SynchronousQueue$TransferStack.awaitFulfill (SynchronousQueue.java:458)
at java.util.concurrent.SynchronousQueue$TransferStack.transfer (SynchronousQueue.java:362)
at java.util.concurrent.SynchronousQueue.take   (SynchronousQueue.java:924)
at java.util.concurrent.ThreadPoolExecutor.getTask  (ThreadPoolExecutor.java:1067)
at java.util.concurrent.ThreadPoolExecutor.runWorker    (ThreadPoolExecutor.java:1127)
at java.util.concurrent.ThreadPoolExecutor$Worker.run   (ThreadPoolExecutor.java:617)
at java.lang.Thread.run

线程池最好可伸可缩。

Why does park/unpark have 60% CPU usage?

读取过大的包

这个问题可以用 jstack 定位：

1	`java.net.SocketInputStream.socketRead0(Native Method)`

线下的自动化测试用例数据失效

导致不断地重试引发流量毛刺，这个问题可以从业务接口的监控提前检测到。

hashset 需要 hashcode 才能set，但一个空对象不能放进 hashcode 里面

所以一个不能正常调用 hashcode 的数据结构不一定能够构造出散列类型的 value，所以无法形成 entry。

Spring 代理问题

jacocoInit 会导致某些 config 被代理，代理的结果就是其 public 成员只能用 getter 来访问。

解法是改切点表达式：and !execution(* com.magicliang..*jacocoInit(..))

AspectJBeanFactoryPostProcessor 对切点表达式的处理出错也可能导致问题。

mvn deploy release 仓库

污染了版本号，导致 jar 特定版本被污染。

类路径冲突

maven 里多了引用，导致低版本的依赖顶掉了高版本的依赖。导致高版本的依赖 classnotfound，很不符合直觉。
某些错误的配置文件也顶掉了特定的配置文件（只有 Spring 才能 merge config，log4j2 不可以）。

性能优化

串行查询变并行查询-阿姆达尔定律生效中。

压力测试会让我们知道我们以前理解不了的性能瓶颈。到底发生在客户端，还是缓存，还是数据库？随机流量会制造随机热点。了解流量特性才能做高可用设计。

Circular Dependencies in Spring

constructor injection会导致问题：

BeanCurrentlyInCreationException: Error creating bean with name
‘circularDependencyA’: Requested bean is currently in creation: Is
there an unresolvable circular reference?

解法用setter注入：

单例作用域的setter循环依赖，能够解决
单例作用域的构造器循环依赖，不能解决
prototype作用域的循环依赖，不能解决

有时候 g1 会做进行若干个无用的 eden ygc，stw得毫无意义

After an evacuation failure, G1 sometimes issues young-only gcs (maybe more than one) with zero sized eden (which accomplish nothing) before doing a full gc.

JDK-8165150

IEEE 754 浮点数问题

public static void main(String[] args) {
        // 2 的 53 次方加 1
        long l = 9007199254740992L +1;
        Map<String, Object> map = new HashMap<>();
        map.put("1", l);
        System.out.println(JsonUtils.toJson(map));
    }
// 原始输出：{"1":9007199254740993}

只要使用标准 JsonParser 就会观察到 Json 的数据精度被截断。

16g的结算服务的gc时间比8g的账单服务的gc时间少

因为对象分代状况不一样。

JacksonCache 导致的 ygc 频繁和线程 blocked

DeSerializerCache 的存在在单例 mapper 里可能有用，但如果 mapper 不是单例的就会有巨大的问题。
初始化缓存需要调用： java.lang.reflect.Executable.java的方法declaredAnnotation() 是 synchronized 的。

CMS 频繁 Major GC

cms 频繁 gc 不一定是老年代达到了 CMSInitiatingOccupancyFraction，也可能是 ygc 产生的 promotion 本身不足以被老年代容纳。

一个有意思的CMS问题

MetaSpace 频繁超过高位水位线

MetaspaceSize 意味着开始 gc。可以查看监控里的 loadingclass 的数量，来确认有没有问题。
NativeMemory = direct buffer + metaspace。
oom 有三种：heap error、metaspace error、gc overhead。

Heap PSYoungGen total 10752K, used 4419K
[0xffffffff6ac00000, 0xffffffff6b800000, 0xffffffff6b800000)
eden space 9216K, 47% used
[0xffffffff6ac00000,0xffffffff6b050d68,0xffffffff6b500000)
from space 1536K, 0% used
[0xffffffff6b680000,0xffffffff6b680000,0xffffffff6b800000)
to space 1536K, 0% used
[0xffffffff6b500000,0xffffffff6b500000,0xffffffff6b680000) ParOldGen total 20480K, used 20011K
[0xffffffff69800000, 0xffffffff6ac00000, 0xffffffff6ac00000)
object space 20480K, 97% used
[0xffffffff69800000,0xffffffff6ab8add8,0xffffffff6ac00000) Metaspace used 2425K, capacity 4498K, committed 4864K, reserved
1056768K
class space used 262K, capacity 386K, committed 512K, reserved 1048576K

解释：

In the line beginning with Metaspace, the used value is the amount of
space used for loaded classes. The capacity value is the space
available for metadata in currently allocated chunks. The committed
value is the amount of space available for chunks. The reserved value
is the amount of space reserved (but not necessarily committed) for
metadata. The line beginning with class space line contains the
corresponding values for the metadata for compressed class pointers.

并发优化失败，回退问题

用大漏斗代替小漏斗，用第三个线程池代替第二层 eventloop 的线程池。

但第三层的线程池的 blockingqueue 太长，线程放大过高的时候会导任务分配不均衡，先到达的任务占据了大多数的线程池，后到达的任务拆解出来的子线程进入了 blockingqueue（所以子任务和父任务公用一个线程池是很危险的，只有 ForkJoinPool 能够妥善地解决这个问题）。

对于子任务本身倾斜度极高的任务而言，阿姆达尔定律决定并发优化微乎其微。

并发的转置大漏斗的容量规划一定要设计好。

不得已而为之的时候，应该使用聚合查询。

Jedis 使用单调钟却发现超时

jedis 工作线程频繁阻塞，单调钟执行触发了超时。

BinaryJedisClusterMultiKeyCommand 单线程检查调用是否超时的方法：

 // Interleave time checks and calls to execute in case
            // executor doesn't have any/much parallelism.
for (Future<Map<byte[], T>> task : tasks) {
                this.multiCommandExecutor.execute((Runnable) task);
                nanos = deadline - System.nanoTime();
                if (nanos <= 0L) {
                    throw new JedisException(CLIENT_STATUS_BUSY_MESSAGE);
                }
}

高吞吐导致大量 fgc

mq 不断堆积，导致 ygc 和 fgc 次数非常多。
而且产生了次生灾害，连接全死掉，必须通过重启解决。
这其实暴露了 mq 客户端对连接的管理能力不够强。

里找不到版本

可以考虑引入某些 bom。

mvcc 导致的事务隔离导致的查询错误

同时退保导致退了子单却没有退总单。

惊群多线程在事务里写后（非锁定）读
都读不到对方的写，导致判定错误，全部判定出错。

解决方案，加锁，加数据库乐观锁（不太好，可能因为大家都兼容读共享锁，而导致升级为写互斥锁彼此死锁），或者加流程锁。

MySQL 的时区问题

MySQL “java.lang.IllegalArgumentException: HOUR_OF_DAY: 2 -> 3” 问题解析
 Retrieval of DATETIME with value in DST lost hour causes error

在数据库连接串加上 &serverTimezone=Asia/Shanghai 即可。

mysql on duplicate key update 的时候触发 mybatis 的 bug

根据官方文档：

这种 bug 在自增主键上反而不容易出现，在并发插入唯一性索引的时候容易出现。

如果有多行冲突的话，每次 update 只能 update 一行而不是多行。

1
2
3

-- If a=1 OR b=2 matches several rows, only one row is updated. In general, you should try to avoid using an ON DUPLICATE KEY UPDATE clause on tables with multiple unique indexes.
- With ON DUPLICATE KEY UPDATE, the affected-rows value per row is 1 if the row is inserted as a new row, 2 if an existing row is updated
UPDATE t1 SET c=c+1 WHERE a=1 OR b=2 LIMIT 1;

参考：

not eligible for auto-proxying

代理未成功，这个警告主要由 BeanPostProcessors 抛出。

MySQL order by 性能优化

MySQL ORDER BY LIMIT Performance Optimization

Spring Context 在JUnit 下的加载顺序

JUnitRunners -> spring context junit -> spring.test.context.support -> loadContext:60, AbstractGenericContextLoader -> refresh:531, AbstractApplicationContext -> invokeBeanFactoryPostProcessors:705, AbstractApplicationContext -> invokeBeanDefinitionRegistryPostProcessors:275, PostProcessorRegistrationDelegate -> postProcessBeanDefinitionRegistry:232, ConfigurationClassPostProcessor -> processConfigBeanDefinitions:327, ConfigurationClassPostProcessor -> loadBeanDefinitionsForConfigurationClass:144, ConfigurationClassBeanDefinitionReader -> loadBeanDefinitions:188, AbstractBeanDefinitionReader -> registerBeanDefinitions:96, DefaultBeanDefinitionDocumentReader -> BeanDefinitionParser

GenericApplicationContext

MergedContextConfiguration

beanDefinitions == bean
beafactory = registry

使用自定义的 PropertiesPlaceholderResolver 却导致 property 占位符填充不正常

interface PlaceholderResolver {
    /**
     * 解析配置信息
     *
     * @param props
     * @return
     */
    public Map<String, String> resolve(Properties props);
}

public class CustomizedPropertyPlaceholderConfigurer extends PropertyPlaceholderConfigurer {

    private static Map<String, String> ctxPropertiesMap;
    private static Properties props;

    public static Object getContextProperty(String name) {
        return ctxPropertiesMap.get(name);
    }

    public static String getPropertyString(String name) {
        Object obj = ctxPropertiesMap.get(name);
        if (obj == null) {
            return null;
        }
        return obj.toString();
    }

    public static Properties getProps() {
        return props;
    }

    public static String getPropertyString(String name, String def) {
        Object obj = ctxPropertiesMap.get(name);
        if (obj == null) {
            return def;
        }
        return obj.toString();
    }

    public static Integer getPropertyInt(String name) {
        Object obj = ctxPropertiesMap.get(name);
        if (obj == null) {
            return null;
        }
        return Integer.valueOf(obj.toString());
    }

    public static Boolean getPropertyBoolean(String name) {
        Object obj = ctxPropertiesMap.get(name);
        if (obj != null) {
            return Boolean.parseBoolean(obj.toString());
        }
        return false;
    }

    public static Integer getPropertyInt(String name, int def) {
        Object obj = ctxPropertiesMap.get(name);
        if (obj == null) {
            return def;
        }
        return Integer.valueOf(obj.toString());
    }

    @Override
    protected void processProperties(ConfigurableListableBeanFactory beanFactoryToProcess, Properties props) throws BeansException {
        super.processProperties(beanFactoryToProcess, props);
        ctxPropertiesMap = new HashMap<String, String>();
        for (Object key : props.keySet()) {
            String keyStr = key.toString();
            String value = props.getProperty(keyStr);
            ctxPropertiesMap.put(keyStr, value);
        }
        new PropertiesPlaceholderResolver().parse(ctxPropertiesMap);
        this.props = props;
    }
}

class PropertiesPlaceholderResolver implements PlaceholderResolver {

    private static final String DEFAULT_PLACEHOLDER_PREFIX = "${";// 默认占位符前缀
    private static final String DEFAULT_PLACEHOLDER_SUFFIX = "}";// 默认占位符后缀

    private String placeholderPrefix = DEFAULT_PLACEHOLDER_PREFIX;// 占位符前缀
    private String placeholderSuffix = DEFAULT_PLACEHOLDER_SUFFIX;// 占位符后缀
    private Properties config;
    private Set<String> visitedPlaceholders = new HashSet<String>();// 存放已访问的占位符，用于判断是否循环调用

    @Override
    public Map<String, String> resolve(Properties props) {
        Map<String, String> configure = readConfigure(props);
        this.parse(configure);
        return configure;
    }

    /**
     * 读取配置
     **/
    private Map<String, String> readConfigure(Properties properties) {
        if (null == properties) {
            throw new IllegalArgumentException("configure file is Null!");
        }
        Map<String, String> prop = new HashMap<String, String>();
        if (properties.isEmpty()) {
            return prop;
        }
        Set<Object> keySet = properties.keySet();
        Iterator<Object> keys = keySet.iterator();
        while (keys.hasNext()) {
            String key = String.valueOf(keys.next());
            String value = properties.getProperty(key);
            if (null != value) {
                prop.put(key, value);
            }
        }
        return prop;
    }

    /**
     * 解析配置
     **/
    public void parse(Map<String, String> config) {
        for (Map.Entry<String, String> entry : config.entrySet()) {
            String val = parseValue(entry.getKey(), entry.getValue(), config);
            entry.setValue(val);
        }
    }

    public String parseValue(String key, String val, Map<String, String> config) {
        String value = val;
        int beginIndex = value.indexOf(placeholderPrefix);
        int endIndex = value.indexOf(placeholderSuffix);
        if (beginIndex != -1 && endIndex != -1) {
            final String placeHolder = value.substring(beginIndex, endIndex + placeholderSuffix.length());
            final String placeHolderName = value.substring(beginIndex + placeholderPrefix.length(), endIndex);
            if (isCircleReferece(new StringBuilder().append(key).append(placeHolderName))) {
                throw new RuntimeException("Circular placeholder reference '" + placeHolder + "' in property definitions");
            }
            String placeHolderReplace = "";
            if (config.get(placeHolderName) == null) {
                if (System.getProperty(placeHolderName) != null) {
                    placeHolderReplace = System.getProperty(placeHolderName);
                }
            } else {
                placeHolderReplace = config.get(placeHolderName);
            }
            value = value.replace(placeHolder, placeHolderReplace);
            value = parseValue(key, value, config);
        }
        return value;
    }

    /**
     * 判断占位符是否循环引用
     **/
    private boolean isCircleReferece(StringBuilder placeholder) {
        int count = 0;
        while (count < 2) {
            count++;
            if (!visitedPlaceholders.add(placeholder.reverse().toString())) {
                // 循环引用
                break;
            }
        }
        if (count != 2) {
            return true;
        }
        return false;
    }

    public String getPlaceholderPrefix() {
        return placeholderPrefix;
    }

    public void setPlaceholderPrefix(String placeholderPrefix) {
        this.placeholderPrefix = placeholderPrefix;
    }

    public String getPlaceholderSuffix() {
        return placeholderSuffix;
    }

    public void setPlaceholderSuffix(String placeholderSuffix) {
        this.placeholderSuffix = placeholderSuffix;
    }

    public Properties getConfig() {
        return config;
    }

    public void setConfig(Properties config) {
        this.config = config;
    }

}

trade 重复交易问题

一个业务事务没有校验在途的支付交易功能，导致事件驱动后重复执行交易。

在途支付要插入数据库，而且要有幂等生成和幂等检查的流程。

创建不了 appender，所以导致appenderref 失败

2020-07-28 14:05:10,732 main ERROR Cannot access RandomAccessFile java.io.FileNotFoundException: /opt/logs/mobile/xxx.log

java.io.FileNotFoundException: /opt/logs/mobile/xxx.log(No such file or directory)

    at java.io.RandomAccessFile.open0(Native Method)

    at java.io.RandomAccessFile.open(RandomAccessFile.java:316)

    at java.io.RandomAccessFile.<init>(RandomAccessFile.java:243)

    at java.io.RandomAccessFile.<init>(RandomAccessFile.java:124)

    at org.apache.logging.log4j.core.appender.rolling.RollingRandomAccessFileManager$RollingRandomAccessFileManagerFactory.createManager(RollingRandomAccessFileManager.java:182)

2020-07-28 14:05:10,741 main ERROR Unable to invoke factory method in class class org.apache.logging.log4j.core.appender.RollingRandomAccessFileAppender for element RollingRandomAccessFile. java.lang.reflect.InvocationTargetException

    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)

    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

    at java.lang.reflect.Method.invoke(Method.java:498)

    at org.apache.logging.log4j.core.config.plugins.util.PluginBuilder.build(PluginBuilder.java:132)

    at org.apache.logging.log4j.core.config.AbstractConfiguration.createPluginObject(AbstractConfiguration.java:942)

    at org.apache.logging.log4j.core.config.AbstractConfiguration.createConfiguration(AbstractConfiguration.java:882)

    at org.apache.logging.log4j.core.config.AbstractConfiguration.createConfiguration(AbstractConfiguration.java:874)

    at org.apache.logging.log4j.core.config.AbstractConfiguration.doConfigure(AbstractConfiguration.java:498)
    
Caused by: java.lang.IllegalStateException: ManagerFactory [org.apache.logging.log4j.core.appender.rolling.RollingRandomAccessFileManager$RollingRandomAccessFileManagerFactory@196a42c3] unable to create manager for

日志性能问题

如果只是寻求日志异步化，log4j2 提供几个方案

全局异步化：使用 Log4jContextSelector=org.apache.logging.log4j.core.async.AsyncLoggerContextSelector
局部异步化：
使用异步的 logger asyncAppender
使用异步的 appender asyncLogger

为什么不推荐使用全局异步化？

全局异步化依赖于 Disruptor。

Disruptor 有两个缺点：

它的 ring buffer 可能导致 OOM，而大部分的人都不熟悉它的性能调优（包括我在内）。
有些公司的中间件和日志组件没有打通和继承好 Disruptor，所以异步化可能会丢的东西都可能会丢（包括但不限于压测标记、mtraceid）。

不要使用 console

console里大量使用 synchronize，高并发时可能导致线程阻塞、请求堆积，进而产生其他雪崩问题。

没有事务

transactionManager 和 sessionFactory 没有使用同样抽象层次的 datasource。

批量插入数据，导致 mybatis 报错

参考：批量insertOrUpdate或replace-into使用useGeneratedKeys报错简单分析

归档的几种策略

先执行单次任务：一次性先归 30 天:
策略静态化：写死时间
用写死时间的 sql 查出最后一个 id。
用写死时间的 sql + and id <= “最后一个 id” 生成一个一次性运行的任务。跑几天。
建立周期性任务。

大数据 sql 里的 bigint 与 string

已知：bigint 可以转化为 string 而不丢失信息，反过来则会丢失信息。

教训：

不要用隐式类型转换，要显式地这样做：
bigint > bigint
string(bigint) > string

运营配置错误

缺乏内控流程。
文案是错的，理赔是对的，证明元数据的配置和表达是割裂的。

连接 KeepAlive 配置有误

上游不优雅退出，下游大量报 Java IOException。

因为 war 部署触发 log4j2 加载 jar包全部信息引发线程阻塞

JVM对反射的优化，导致该接口调用超过15次之后，异常栈中会有GeneratedMethodAccessor类。

log4j2打印异常栈时，需要额外获取类的所属jar息，版本等额外信息，需要进行类加载。

在war包模式部署下，加载GeneratedMethodAccessor类时，会同步线性扫描所有jar包，在此过程中会将该jar包中的所有文件构建成一个缓存（最耗时的部分），而jar包模式部署下则只需要一次文件读取，无此问题！

该缓存构建好之后，默认30s后就会被清理，导致之后的异常请求需要重新构建缓存，继续变慢。

机器内部对环境判定错误

导致mock程序在生产环境生效，产生不当调用甚至资损（未支付成功却误认为支付成功，这可能要求 mock 平台有留痕能力）。

机器的环境判定一定要看容器的环境配置，去 agent 问。
通过编译脚本，在编译的时候把环境变量写到发布包里。
压测使用 mock 一定要把数据做好严格的隔离。

退款和关单乱序到达

没有加锁，没有并发控制，又退又关，造成资损。
要对不同流程加上对于同一个单据的短锁。

把天转成秒

100年的天数转成秒，会导致 Integer 溢出。
针对异常状况的兜底应当有斜率告警。
要有调账机制。

涉及外网的网关也可以连到外网的生产环境

如果测试用例使用了真实的用户信息，测试订单发到了测试的gateway，测试的gateway发到外网的生产接口（比如外网的接口不分环境，或者误以为查询接口无需区分线上线下，或者误将交易当作查询接口）。

数据隔离和环境隔离要一起做。

st 和 prod

代码版本不对。
交叉调用有可能导致逻辑不一致。
秘钥设计成一致的，很难通过验签拦截。特别要指出的是：线上线下的秘钥要专门隔离。

参考：《一次log4j2的慢日志问题排查》

ThreadLocal Context里携带过多的子上下文，子线程一直持有这些上下文，导致 fgc

上下文的主clear方法要完全清除对entry的引用。
子对象对context的引用要栈封闭。
子对象要慎用 InheritableThreadLocal，因为它会无意之中引用父线程的 InheritableThreadLocal 的 value。防止 ThreadLocal 内存泄漏的主要问题是，防止对 Value 的悬垂引用。

Spring 启动中数据源关闭的问题

Spring 中间件乱序启动，导致 Hystrix ConcurrencyStrategy自重复注册
Hystrix ConcurrencyStrategy 在 ApplicationContextAware 里被手工注册，触发重复注册
Spring Context 启动失败
数据源关闭
刷数任务未关闭，导致 jdbc 异常。

没有开启 NettyIO 和平滑启动，导致 thrift client 启动大量时间消耗在 getConn 上

突然打开灰度开关，导致 thrift client 所有连接都在 getConn，然后触发大量超时。

无法弹性扩容，导致需要强依赖熔断降级

zk 连接 sgagent 故障，导致 zk 无法更新，所有的云调度系统无法批量刷新配置信息，所有的拓扑变更（节点上线注册和离线）都无法执行，导致流量到来的时候无法处置。

这时候所有的对上接口的熔断和限流能力就尤为重要了，每个接口设计之初就要考虑好熔断和限流问题。

Spring 在锁定 WebClassLoader 做字节码增强的时候，正好遇到 Web中间件自己也在锁定 WebClassLoader

导致死锁。

使用双查询条件导致 es build_scorer 耗时偏长

keyword 使用跳表加速，但 integer 必须使用 bkdtree 排序。进行双条件查询的时候，integer 的查询会导致无序的 docId 大量进入内存，查询变得非常长。

ES 5.4 以后优化：

结果集小：PointRangeQuery
结果集大：SortedSetDocValuesRangeQuery

es 带有 explain 功能

异步日志没有写 blocking = false

大量打日志导致 long-mq。

Netty 处理速度过慢

导致输入编解码的缓冲区堆积过多数据，多次 Major GC 也无法回收内存，而吞吐会进一步变慢。

Netty 的 inflate 缓冲区泄漏，导致 gc 异常

https://github.com/eclipse/jetty.project/issues/575

import static com.sun.btrace.BTraceUtils.*;
import com.sun.btrace.annotations.*;

import java.nio.ByteBuffer;
import java.lang.Thread;

@BTrace public class BtracerInflater{
 @OnMethod(
 clazz="java.util.zip.Inflater",
 method="/.*/"
 )
 public static void traceCacheBlock(){
 println("Who call java.util.zip.Inflater's methods :");
 jstack();
 }
}

jdk8 会默认打开一些 internal cache，但 java9 修复了这个问题。

JarFile -> ZipFile，ZipFile 会持有 Inflater，Inflater 会申请和持有堆外内存。在依赖的 jar包非常多的时候，会发生堆外内存泄漏。

使用 stream 来优化 for 循环，但 Long 的 value 设值没有捕获异常

对于原有的大 try catch 的分批重构需要仔细考察各个步骤的异常点，特别是更内部的异常要仔细看。

在构造器里启动了线程，使用 run 而不是 start

导致 context refresh 卡在倒数第二步，无法释放 startShutDownMonitor。

此时再启动了 Spring 自己的 shutdownhook，而 AbstractApplicationContext 的 close 也需要求 startShutDownMonitor。

这给我们一个启示，关闭线程可能从另一个视角访问启动的资源。

我们平时不注意在这两种看起来毫无关系的操作之间加锁，是因为 Spring 自身已经意识到了这一点，帮我们在外部加了锁。

先 mkdir 生成一个目录，再试图用 ln -s 创建同一个目标目录

第二个命令失败，软链接没有创建成功。日志挂载可以这样设计：

设计 /data/log/${APP_NAME}。
从 1 生成 ${APP_PATH}/log 的软链接。
从 2 生成 ${APP_PATH}/logs 的软链接。
日志写入 2。
日志挂载的 volume 监控 1，log agent 读出日志。
挂载点必须是原始的目录，而不能是符号链接。

Play 里没有对 @ImplementedBy 加上 @Singleton

导致配置对象实例在 Action 中被注入，进而导致内存溢出。

Cos 没有加上内网地址

内网访问和外网访问的逻辑是不一样的

全部的拦截器拦截了不需要拦截的接口

需要注意全拦截的表达式的逻辑

header 不为空导致 Spring cors filter 工作不正常

关键代码见 CorsUtils。

搜索引擎同步延迟导致规则应用失败

需要引入旁路主副本。

ebean 为 @dbArray 的 null field 提供 emptyList

导致无法判断未初始化，判空都失败。

logfilter 过滤时没有处理好

导致无法处理异步的 response body（只有 servlet 异步事件api 可以处理好它）和处理流式返回body（录制流出会导致空 body，而文件名可以被header 的指定）。

好的 logfilter 要能读取二进制或者异步的 response。

没有准备 @RequestBody 和 @Valid

注入出错，解析出错。

轮询算法使用 indexof 来判定位置

nextPos = indexOf(lastUid) + 1

1	`1 2 3 a b c a b c 4 5 6`

第二个 a 造成死循环：a b c a b c……

ThreadPoolTaskExecutor 忘记加上 @Bean

导致每个请求都带来一个 ThreadPoolTaskExecutor。

@Bean(name = "executor")
public ThreadPoolTaskExecutor asyncServiceExecutor() {
    logger.info("start asyncServiceExecutor");
    ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
    //配置核心线程数
    executor.setCorePoolSize(4);
    //配置最大线程数
    executor.setMaxPoolSize(8);
    //配置队列大小
    executor.setQueueCapacity(MAX_REQUEST_IMPORT_PER_SEC);
    //存活时长
    executor.setKeepAliveSeconds(10);
    //配置线程池中的线程的名称前缀
    executor.setThreadNamePrefix("thread-pool-");

    // rejection-policy：当pool已经达到max size的时候，如何处理新任务
    // CALLER_RUNS：不在新线程中执行任务，而是有调用者所在的线程来执行
    executor.setRejectedExecutionHandler(new ThreadPoolExecutor.CallerRunsPolicy());
    //执行初始化
    executor.initialize();
    return executor;
}

Cookie 没有加上 Path

Play 的 Cookie 默认为 /，Spring 没有默认值。这导致 Spring 下 Cookie 不能重放。
HttpOnly 同理。

Spring MVC 不支持 application/javascript

浏览器在 strict mime 检查的时候失败。
解法：

String jsonpResult =
                    ServiceTag.SERVICE_TAG_LEADS.name() + "(" + JacksonUtils.toJson(res) + ")";
            final MediaType mediaType = new MediaType("application", "javascript");
            HttpHeaders headers = new HttpHeaders();
            headers.setContentType(mediaType);
            headers.addAll(HttpHeaders.SET_COOKIE, Lists.newArrayList(mockLoginUserIdCookie.toString(),
                    noLoginCookie.toString()));
            return new ResponseEntity<>(jsonpResult, headers, HttpStatus.OK);

父子进程无法关闭

/bin/sh作为 shebang 无法理解 kill sigterm。在docker里init进程也不会传递 kill 信号给子进程。
子进程没有 trap，收集不到父进程传过来的 kill。
父进程没有 wait，会导致僵尸。

正确的做法：

# 启动业务进程
echo "start biz process"
${install_path}/bin/start.sh & PID=$!
echo "biz process started"

# 等待程序启动
sleep 15
echo "Start application $PID finished..."

# 优化终止
# 处理信号
handle_sig() {
    echo "Received SIGNAL $1 $PID" >> ${APP_PATH}/log/handleSig.log
    kill -s $1 $PID
    wait $PID
}

# trap 监听传递信号包装函数
trap_sig() {
    for sig in "$@" ; do
        echo "handle_sig $sig"
        trap "handle_sig $sig" $sig
    done
}
# trap的信号
trap_sig SIGINT SIGTERM SIGSEGV SIGUSR2

# 等待主进程回调执行完再退出
wait $PID

echo "Leads application $PID ended..."
sleep 30

做法2：

启动真实的命令 start.sh：

#!/bin/bash

# 限制core dump大小为4k，用于core dump监控
ulimit -c 4 -S

# 定义应用路径和配置
APP_PATH="/usr/local/services/app1"
CONF_FILE="/usr/local/services/app1/conf/gopass.yaml"
APP_NAME="app1"

# 检查进程是否已运行
pid=`ps -f -C $APP_NAME | grep -w $APP_NAME | grep -v grep | wc -l`

if [ "$pid" = "0" ]; then
    # 启动应用并记录PID
  nohup env NODE_IP="$NODE_IP" $APP_PATH/bin/$APP_NAME -c $CONF_FILE >/dev/null 2>&1 & PID=$!
    echo "started $APP_NAME $PID."

    # 信号处理函数
    handle_sig() {
        echo "Received SIGNAL $1 $PID"
        echo "Received SIGNAL $1 $PID" >> $APP_PATH/log/handleSig.log

        # 查找实际进程ID
        lastpid=`ps -aux | grep $APP_NAME | grep -v grep | awk '{print $2}'`
        echo "lastpid $lastpid"

        # 转发信号给应用进程
        kill -$1 $PID
        # 等待子进程退出
        wait $PID
    }

    # 注册信号处理函数
    trap_sig() {
        for sig in "$@" ; do
            echo "handle_sig $sig"
            trap "handle_sig $sig" $sig
        done
    }

    # 注册需要处理的信号
    trap_sig SIGINT SIGTERM SIGSEGV SIGUSR2

    # 等待主进程退出
    wait $PID
    exit 0
fi

echo "ERROR: $APP_NAME has been started:$pid"
exit 1

docker 的启动命令 docker_run.sh：

#!/bin/bash

source /etc/profile

# 限制core文件大小为4k,用于进程coredump监控
ulimit -c 4 -S

mkdir /data/release

# 不同配置写入不同的值
echo 'prod' > /data/release/env

# 定义应用路径
APP_PATH="/usr/local/services/app1"

# 启动应用进程
echo "start $APP_NAME process"
# 等价于：
# /usr/local/services/app1/bin/app1 -c /usr/local/services/app1/conf/gopass.yaml
$APP_PATH/bin/start.sh & PID=$!
echo "$APP_NAME process started with PID $PID"

# 等待应用启动
sleep 5
echo "Start $APP_NAME application $PID finished..."

# 信号处理函数
handle_sig() {
    echo "Received SIGNAL $1 $PID"
    echo "Received SIGNAL $1 $PID" >> $APP_PATH/log/handleSig.log

    # 转发信号给子进程
    kill -$1 $PID
    # 等待子进程退出
    wait $PID
}

# 注册信号处理函数
trap_sig() {
    for sig in "$@" ; do
        echo "handle_sig $sig"
        trap "handle_sig $sig" $sig
    done
}

# 注册需要处理的信号
trap_sig SIGINT SIGTERM SIGSEGV SIGUSR2

# 等待子进程退出
wait $PID

echo "$APP_NAME application $PID ended..."
sleep 5


# 这一段应该泡不到，暂时不考虑 nohup、trap 等多层父子进程托管的问题
# hold the container
# tail -f /usr/local/services/app1/conf/gopass.yaml

start.sh 和 docker_run.sh 分开，是为了在 start.sh 之上多准备一个 restart.sh。

接下来到 dockerfile：

ENV APP_PATH /usr/local/services/app1

# 创建目标路径并复制文件
RUN mkdir -p ${APP_PATH} && \
    chmod 755 ${APP_PATH}

ENV APP_NAME app1
ENV APP_PORT 8111

# 提示所使用的端口
EXPOSE ${APP_PORT}

# 设置工作目录
WORKDIR ${APP_PATH}

# 复制当前目录下的bin文件夹
COPY bin ${APP_PATH}/bin
COPY conf ${APP_PATH}/conf

# USER root
COPY docker_run.sh /usr/bin/docker_run.sh

RUN chmod +x /usr/bin/docker_run.sh

ENTRYPOINT ["/usr/bin/docker_run.sh"]

最终进程间关系：

init(PID 1: docker_run.sh) 
  → docker_run.sh 1
    → start.sh 35
      → app1(实际业务进程) 42

在 docker 里已经看不见普通 init，进程号1本身就是entrypoint进程。在容器里感知不到进程0-scheduler。我们必须显示接管进程1，才能保证优雅关闭的信号最后走到 app1。

bash 不识别 python 的 alias

因为非交互式 shell 不支持 alias。

解决方法：使用一个 alias path，把它作为 path 的一部分。然后让 alias 作为这个 path 的软连接里出现。sudo ln -sf /usr/bin/python3 /usr/bin/python

《Why doesn’t my Bash script recognize aliases?》

双配置难题 2 Configurations puzzle

Spring的几个基础假设：

任意@Bean 开头的方法，是一个工厂 bean 方法，它的调用流程是：
- 在调用任意的 @Bean 开头的方法之前，它依赖的 Configuration bean必须先初始化。
- 解析方法的参数bean：
  - 调用构造器：适用于@Component类的Bean。
  - 调用其他 @Bean方法。
- 用参数 bean 调用方法。
- 把返回值注册为一个 bean。
任意一个平凡 Bean springConfiguration 的初始化流程是：
- 尝试通过 postProcessBeforeInstantiation 生成一个前代理：
  - ask should skip（这是 ask advisor 1）：生成前代理以前要先列出当前 BeanFactory 里的 advisors（也就意味着所有的 MethodInterceptor 要先被找出来，装配出相应的 advisor），确认 springConfiguration 是否是一个 Aspect扩展点，是就skip。
  - 对于大部分平凡 bean - 如 springConfiguration，不需要生成前代理-逻辑太复杂，先不解释。
- 生成一个 bean 实例-但此时 bean 的构造没有 complete。
- populateBean：注入所有的成员变量。
- initialization：
  - 调用 postConstruct。
  - 调用 afterPropertiesSet
  - 调用 init 方法。
- 尝试 postProcessAfterInitialization：
  - 再问一遍 should skip（这是 ask advisor 2）。
  - 如果不shouldSkip，尝试 wrapIfNecessary 把它包装进一个 proxy（这是 ask advisor 3）。
任意一个 advisor 没有“尝试生成 postProcessBeforeInstantiation 一个前代理”这一过程。
任意一个 ask advisor 都是for循环，检索所有的 advisor 的构造。如果 advisor 构造不出来，则吞掉构造异常，把这个 advisor 相关的对象图涉及的 bean 都 destruct 掉，但这时候这些bean的构造器已经调用过了，而且因为这批对象图没有构造完成，所以下次需要从头开始通过构造器再调用一遍。
create Bean springConfiguration 会在一开始的时候就把 springConfiguration 设为 inCreation 状态，如果 springConfiguration 依赖于 Bar，而Bar 需要 ask advisor，advisor 又是 springConfiguration 里的 @Bean 开头的方法，又会尝试初始化 springConfiguration（即 1.a 提到的设定），而第二次尝试 create Bean springConfiguration 检查到 springConfiguration 的状态为 inCreation，就会抛出一个异常，毁掉这个初始化。
一个 @Configuration bean 继承另一个 @Configuration bean 以后，实际上 Spring 会初始化2个bean，但只会通过子类 bean 实例调用工厂方法，不会产生穿梭问题。

双配置1
双配置2

结论：

任意的 MethodInterceptor 的成员变量，可能被初始化一次，也可能被初始化无数次。因此：
- 所有的成员都应该是 @Lazy 的（最推荐的方案）。String 之类的基础类型是例外，首先它们是 final 的，不可用被 subClass，所以无法出现 lazyBean。其次是，它们也无法作为对象图的根。
- 所有依赖的成员的构造器都是幂等的，能抗无数次初始化。
如果两个Configuration都有 @Bean 注解，那么 @Bean 注解带有的工厂方法可能会相互调用，产生奇怪的问题。如果条件允许，让 Configuration 类型互相继承也是一个好主意。
细心的读者已经发现了，任意一个 @Configuration bean 是无法被自己生产的任意 advisor 环绕的，相当于一个裸 proxied instance（其他 advisor 仍然可以环绕这个 bean）。

枚举互相引用导致成员为空

https://brickydev.com/posts/enum-circular-dependency-in-java/

Dozer 导致线上卡顿

ReflectionUtils.findPropertyDescriptor 依赖于

public class PropertyDescriptor {

    public synchronized Class<?> getPropertyType() {

    }
}

es 查询被拒绝

{
  "error": {
    "root_cause": [],
    "type": "search_phase_execution_exception",
    "reason": "",
    "phase": "fetch",
    "grouped": true,
    "failed_shards": [],
    "caused_by": {
      "type": "es_rejected_execution_exception",
      "reason": "rejected execution of org.elasticsearch.common.util.concurrent.TimedRunnable@204d3d67 on QueueResizingEsThreadPoolExecutor[name = 1693273402005365932/search, queue capacity = 1000, min queue capacity = 1000, max queue capacity = 1000, frame size = 2000, targeted response rate = 1s, task execution EWMA = 335.7ms, adjustment amount = 50, org.elasticsearch.common.util.concurrent.QueueResizingEsThreadPoolExecutor@ae1b393[Running, pool size = 25, active threads = 25, queued tasks = 1195, completed tasks = 50356750]]"
    }
  },
  "status": 503
}

这种毛刺可能和瞬时io毛刺有关。有几种解决思路：

调高线程数：在 cpu有富余的时候最简单。
调整 thread_pool.bulk.queue_size（文档写入队列大小，适用于5.6.4版本）、thread_pool.write.queue_size（文档写入队列大小，适用于6.4.3及以上版本）、thread_pool.search.queue_size（文档搜索队列大小）。让读写互相让步。
纵向扩展：在单一节点上加硬件。
横向扩展：加节点。

在腾讯云上，1不被允许使用，而2被允许使用。
3 和4 可以间接达成1，但如果只是瞬时毛刺，cpu/mem/io util 比较低的话，2也可以临时顶一下。queue的存在就是为了这种临时并发而设计出来的，使用旁路带宽也可以，并不一定要把总带宽加上去。

便宜的带宽量通常大，如果便宜的带宽用尽，则意味着系统必须 scale up/scale out了。

left join 的时候没有提前做聚合

a 表有多行，b表也有多行。

先把b表做聚合，但没有对a表做聚合。

对两个结果做 join，导致b表的结果被放大，放大以后再sum，导致数据大量增多。

解法：每张表把 join key 数据 aggregate 成一行，再join。

做这种设计的时候，要仔细思考：主表是一定有数据的，从表不一定有。

要join一起join。

ws socket 双联

ws是有状态连接。

微信sdk有bug，产生了两条物理连接。c持有物理连接1和2，而s1持有物理连接1，s2持有物理连接2。c往1推事件，1调用下游，下游回调到2，2往c回推事件，被c忽略。因为c的逻辑连接只有1。

解法：

每次生成新的连接，要先断掉所有可能的连接，让最后的连接成为唯一的连接。
阻塞式重连，真正断联才重连。
在前端的日志里打出sessionid。后端不同服务器打出不同的服务器标识，让前端知道有状态连接的状态是什么。

同一台机器，持有两条连接，也会有这样的问题-缩容不解决问题。

过快过期的缓存，与过期的load函数

缓存过期太快，导致load函数频繁穿透读数据库。load函数执行比较慢，导致 cpu 消耗在最底层的时候特别少（因为慢sql在等待io），但系统的输出时延很高。

嵌套缓存死锁

缓存的load方法里又调缓存。导致缓存自己的父子操作死锁。

跑任务的时候没有处理好异步化问题

线程池太小，导致任务被主线程运行，这时候一个线程的异常就会导致主任务失败。所以主任务自己做好 catch 是重要的。
要让 context 不自动终止并退出，要让任务的执行全同步化并 catch 好。所以主动执行的任务要清楚context下什么地方是异步化的，context什么时候终止。

锁与标志位

在很多公司redis集群是有兜底超时时间的。
但在很多公司没有。
加标志位的超时可以很长，如果标志位支持直接覆写，没有 set nx 的语义会比较简单，这样标志位会成为不断增长延长的位。
锁的超时时间不能设计太长，因为发布一定会导致解锁丢失。这样产生的【黑窗口是需要补偿机制的】。
换锁一定会导致并发控制失效，新机器用新锁而老机器用老锁。这就是自发多线程调度的缺陷。如果使用集中式调度中间件，可以把这个问题交给他们处理。
标志位嵌套增加，是给系统增加更细的颗粒度细节，新发布的机器会受控制，而老机器不受控制，所以会有两种不同的行为，这里存在兼容问题。
嵌套标志位减少，则细颗粒度的控制行为会丢失，老机器更细而新机器更粗。如果可以丢弃更细的行为则系统设计无问题。

不被捕获的异常

有时候诸如“bound must be greater than origin”的异常只有控制台才能看得到，在日志里看不到。如果流程意外中断而无日志，则可以考虑是不是发生了这类异常-特别是在线程池内发生的异常，退出更无声无息，所以线程池内的异常要注意捕获和记录。

服务重启时大量空指针错误

1
2
3

java.util.concurrent.TimeoutException: null
    at java.util.concurrent.CompletableFuture.timedGet(CompletableFuture.java:1784)
    at java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1928)

这意味着线程刚启动的时候内部的forkjoin线程池冷启动容易阻塞超时。

使用静态变量来调整 feature toggle

基于时间开始的特性开关是不适合用来赋值 static 变量的。因为类加载器只加载一次。
正确的做法是使用 toggle 的时候实时计算。

left join 的时候对 left join 的表的条件写在 join 之后

1	`a left join b on a.id=b.id where a.dt=20240801 AND b.dt=20240801`

最后的条件是错的。

如果要选择分区做左连接，需要

1	`a left join (select * from b where dt=20240801)t on a.id=t.id where a.dt=20240801`

a b 表在内连接里做分区

在优化前，内连接是直接求等来查，而且分区查询语句是并列在一起的，看起来一个查询很难同时用到 ab 两张物理表的索引。

1 2	`select * from tbl_a a , tbl_b b where a.id=b.id and a.con = 1 and a.date=20240728 and b.date=20240728 and b.greeting like '%head_content%'`

但优化的过程是把分区查询先查完，哪怕使用一个临时表来承接查询结果，也好过报错：

1
2
3

 select *  from (select * from tbl_a  where date=20240728) a, 
  (select * from tbl_b where date=20240728) b 
where a.id=b.id  and a.con = 1 and b.greeting like '%head_content%'

用更长的时间来换取更少的内存，如果要写联表查询，可以尝试把join去掉，用where的隐式join，但是把除了join以外的查询语句下推到子表查询里。

错误为：

Query threw SQLException:Code: 241, e.displayText() = DB::Exception:
Memory limit (for query) exceeded: would use 9.32 GiB (attempt to
allocate chunk of 4718848 bytes), maximum: 9.31 GiB:
(avg_value_size_hint = 173.29541015625, avg_chars_size =
198.3544921875, limit = 8192): (while reading column greeting): (while reading from part
/data/clickhouse/clickhouse-server/store/0aa/0aaf2939-9927-4c36-8aaf-293999277c36/20240603_1_23_2/
from mark 24 with max_rows_to_read = 8192): While executing
MergeTreeThread (version 21.8.12.1)

2024.08.19 09:53:50.059401 [ 355361 ] {3b2967b5-bf01-4c61-bbe3-1b1966124220} executeQuery: Code:
241, e.displayText() = DB::Exception: Memory limit (for query)
exceeded: would use 9.32 GiB (attempt to allocate chunk of 6029696
bytes), maximum: 9.31 GiB: (avg_value_size_hint = 130.3759994506836,
avg_chars_size = 146.8511993408203, limit = 8192): (while reading
column greeting): (while reading from part
/data/clickhouse/clickhouse-server/store/0aa/0aaf2939-9927-4c36-8aaf-293999277c36/20240603_1_23_2/
from mark 24 with max_rows_to_read = 8192): While executing
MergeTreeThread (version 21.8.12.1) (from 11.163.8.64:15770) (in
query: select distinct a.script_id, b.greeting from
leads_db.chatbot_fmc_chat_day a,
leads_db.chatbot_fmc_chat_groupmessage_day b where a.chat_id =
b.chat_id and a.u_id = 45428689 and a.date between 20240813 and
20240819 order by a.created_at desc), Stack trace (when copying this
message, always include the lines below):

注意看 in query。

parallelStream 带来的异步化问题

 executor.execute(() -> {
               // 这个线程执行会导致丢失消息
            }
    );
    
consumer.ack();

解法：

使用终端操作
parallelStream()的大多数终端操作（如forEach, collect, reduce等）都是阻塞的。这意味着，当你调用这些操作时，它们会处理完所有元素后才返回。例如：

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);
List<Integer> doubled = list.parallelStream()
                            .map(i -> i * 2)
                            .collect(Collectors.toList());
System.out.println("Completed: " + doubled);
在这个例子中，collect()是一个阻塞操作，它会等待所有的映射操作（map()）完成后才继续执行System.out.println()。

使用 CountDownLatch
如果你的 parallelStream() 操作是非终端操作，或者你需要在多个并行流之后执行一些操作，你可以使用CountDownLatch来同步：

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);
int size = list.size();
CountDownLatch latch = new CountDownLatch(size);

list.parallelStream().forEach(i -> {
    // 执行一些操作
    System.out.println(i * 2);
    latch.countDown(); // 每完成一个元素，计数减一
});

try {
    latch.await(); // 等待直到所有元素处理完成
    System.out.println("All tasks completed.");
} catch (InterruptedException e) {
    Thread.currentThread().interrupt();
    System.out.println("Interrupted.");
}

在这个例子中，每处理完一个元素，CountDownLatch的计数就减一。latch.await()会阻塞当前线程，直到计数器减到零。

使用CompletableFuture
如果你想要更多的灵活性和控制，你可以使用CompletableFuture来处理并行流中的每个元素，并在所有的Future完成后继续执行：

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5);
List<CompletableFuture<Void>> futures = list.parallelStream()
    .map(i -> CompletableFuture.runAsync(() -> {
        System.out.println(i * 2);
    }))
    .collect(Collectors.toList());

CompletableFuture.allOf(futures.toArray(new CompletableFuture[0])).join();
System.out.println("All tasks completed.");
这里，每个元素的处理被封装在一个CompletableFuture中，CompletableFuture.allOf()等待所有的Future完成。

单例构造里抛出异常，导致单例始终不生成成功

在 static 或者其他单例的流程里，带有下游依赖的构造器的调用，都是可能抛出异常的。如果不catch住异常很可能没有日志，也会频繁进入单例构造体。

wait 被伪唤醒

解法：

public synchronized String receive() {
      // 大部分的例子没有讲过为什么这个地方是必须的，实际上就算用来防止伪唤醒的。
      while (transfer) {
          try {
              wait();
          } catch (InterruptedException e) {
              Thread.currentThread().interrupt(); 
              System.err.println("Thread Interrupted");
          }
      }

      // 先修改条件变量
      transfer = true;
      
      String returnPacket = packet;

     // 再唤醒
      notifyAll();
      return returnPacket;
  }

已经有了一个清洗状态，仍然触发通话清洗

缺乏终态设计思维，应该先问清楚是否允许从终态回撤回来。

如果不允许，那么哪些是不允许的，如果有必要，引入一个任务系统，围绕这个任务系统的状态来跟踪是否允许重新发起。

这个bug的问题就是删除了任务系统，以至于对于是否重新发起任务产生了错觉。有个任务系统还是好。

文件名含有反斜杠导致 multipart 解析出错

multipart/mixed 和 multipart/form-data 都使用part。

其中 multipart/mixed 使用混合格式为如下：

POST /someUrl
Content-Type: multipart/mixed

--edt7Tfrdusa7r3lNQc79vXuhIIMlatb7PQg7Vp
Content-Disposition: form-data; name="meta-data"
Content-Type: application/json; charset=UTF-8
Content-Transfer-Encoding: 8bit

{
    "name": "value"
}
--edt7Tfrdusa7r3lNQc79vXuhIIMlatb7PQg7Vp
Content-Disposition: form-data; name="file-data"; filename="file.properties"
Content-Type: text/xml
Content-Transfer-Encoding: 8bit
... File Data ...

可以看出混合模式下文件的部分都是有文件名的，而参数部分是没有文件名的，spring 的官方解决方案是：

@PostMapping("/")
public String handle(@RequestPart("meta-data") MetaData metadata,
        @RequestPart("file-data") MultipartFile file) {
    // ...
}

但如果使用 getParameterMap，则需要取出 getParameterMap

parameterMap = request.getParameterMap();

// getParameterMap 的实现

// 这一段其实是用来解析 multipart/mixed 里没有文件名的value的
List<FileItem> items = upload.parseRequest(new ServletRequestContext(this));
for (FileItem item : items) {
    ApplicationPart part = new ApplicationPart(item, location);
    parts.add(part);
    if (part.getSubmittedFileName() == null) {
        String name = part.getName();
        value = part.getString(charset.name());
        parameters.addParameter(name, value);
    }
}

// getSubmittedFileNamed 的视线  这时候如果一个文件是2\结尾的话

 if (fileName.indexOf('\\') > -1) {
    // This is a quoted-string
    fileName = HttpParser.unquote(fileName.trim());
} else {
    // This is a token
    fileName = fileName.trim();
  }
 return fileName;
 
 // unquote 的实现
 // Input (less surrounding quotes) ended with '\'. That is invalid so return null.

框架就会把文件2\的二进制部分当成一个字符串参数写成 parameter value。这样我们就得到一个超大字符串。

对这个超大字符串做序列化的话，就可能直接导致java.lang.OutOfMemoryError: Java heap space。

跟踪过程需要使用arthas

# 观测调用栈

[arthas@14]$ trace com.magicliang.TraceIdFilter doFilter  -n 5 --skipJDKMethod false

Press Q or Ctrl+C to abort.
Affect(class count: 1 , method count: 1) cost in 1067 ms, listenerId: 2
`---ts=2024-10-09 15:21:35.455;thread_name=http-nio-18084-exec-2;id=20;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@4985cbcb
    `---[3545.892486ms] com.magicliang.TraceIdFilter:doFilter() [throws Exception]
        +---[0.00% 0.018533ms ] javax.servlet.http.HttpServletRequest:getQueryString() #54
        +---[0.00% 0.015049ms ] javax.servlet.http.HttpServletRequest:getHeader() #56
        +---[0.00% 0.113182ms ] java.util.UUID:randomUUID() #60
        +---[0.00% 0.019305ms ] java.util.UUID:toString() #60
        +---[0.01% 0.204589ms ] java.lang.String:replaceAll() #60
        +---[0.00% 0.06099ms ] org.slf4j.MDC:put() #60
        +---[0.00% 0.011841ms ] java.lang.StringBuilder:<init>() #62
        +---[0.00% 0.035214ms ] javax.servlet.http.HttpServletRequest:getRequestURL() #62
        +---[0.00% min=0.010585ms,max=0.02034ms,total=0.030925ms,count=2] java.lang.StringBuilder:append() #62
        +---[0.00% 0.010128ms ] java.lang.StringBuilder:toString() #62
        +---[29.02% 1029.140713ms ] javax.servlet.http.HttpServletRequest:getParameterMap() #63
        +---[0.00% 0.059128ms ] javax.servlet.http.HttpServletRequest:getHeaderNames() #64
        +---[0.00% 0.011504ms ] java.util.LinkedHashMap:<init>() #65
        +---[0.01% min=0.003391ms,max=0.011622ms,total=0.184711ms,count=45] java.util.Enumeration:hasMoreElements() #66
        +---[0.01% min=0.003621ms,max=0.013577ms,total=0.242376ms,count=44] java.util.Enumeration:nextElement() #67
        +---[0.01% min=0.004387ms,max=0.022983ms,total=0.29524ms,count=44] javax.servlet.http.HttpServletRequest:getHeader() #68
        +---[0.01% min=0.003608ms,max=0.02086ms,total=0.236318ms,count=44] java.util.Map:put() #68
        +---[0.00% 0.02143ms ] javax.servlet.http.HttpServletRequest:getMethod() #71
        +---[0.01% 0.352369ms ] com.magicliang.common.util.JsonUtil:toJsonStr() #71
        +---[0.00% 0.012586ms ] java.util.Map:isEmpty() #72
        +---[0.00% 0.005381ms ] java.lang.StringBuilder:<init>() #72
        +---[0.00% 0.007702ms ] java.lang.StringBuilder:append() #72
        +---[70.88% 2513.212256ms ] com.magicliang.common.util.JsonUtil:toJsonStr() #72 [throws Exception]
        `---throw:java.lang.OutOfMemoryError #-1 [Java heap space]
        
# 观测返回值
[arthas@14]$ watch javax.servlet.ServletRequest getParameterMap '{params,returnObj,throwExp}'  -n 3  -x 3
Press Q or Ctrl+C to abort.
Affect(class count: 9 , method count: 4) cost in 810 ms, listenerId: 3
method=org.apache.catalina.connector.Request.getParameterMap location=AtExit
ts=2024-10-09 15:22:53.912; [cost=357.263226ms] result=@ArrayList[
    @Object[][isEmpty=true;size=0],
    @ParameterMap[
        @String[files]:@String[][
            @String[ Object size exceeds size limit: 10485760, try to specify -M size_limit in your command, check the help command for more.

单一用户提交 qps 过高，导致消息队列被占满

用户购买大量配额，一次性提交了大量的请求，但公用 topic 是无法被动态扩容的，所以这批请求阻塞了其他人。

解法：所有请求先本地落库，然后按照任务的优先级和饥饿程度动态调度。

这里面有一个扇出的问题的取舍。

有些模型天然就是推或者拉的，经典模型：

1 当推产生瓶颈，先只存储，然后想办法复制或者异步从存储里转移到通讯里（线程主动发 mq）。这样做在低扇出（即消费者广播范围不巨大）场景下足够了。
2 如果主动转移或者广播成本太大，想办法只让用户读的时候，才查存储，实现错峰。这时候可以1在存储完成以后高速复制提高lazy查询的速率，2是也可以把推拉结合起来，延迟合并，如果拉遇到问题，又要回到1的推方案。

归根结底是，如果任意让一方执行会碰触瓶颈，就把主动权交到另一方去。

多任务处理系统前任务直接终止主任务

任务有 init -> terminate 状态。但任务中途不满足任务的时候，全流程是 init -> terminate -> terminate -> final 的方式执行的。并行任务没有办法直接确认其他任务的 terminate 是不是第二个 terminate，而又不执行另一个任务的检查操作，于是误判了任务全局 teminante。

这样多任务分别分离执行的好处是每个任务的颗粒度是由自身控制的。这样是好的范式。

但错误在于使用了同样的 terminate 状态，而无法区分是真 terminate 还是假terminate。

解法：关键是拥有检查所有任务都执行过了，最终失败的能力。

每个任务在启动和结束的时候准备一个计数器，任务完成减少计数器，只有最后一个任务能让属于自身的计数器归零，成为终结任务。这个方法不好。这个方案上线的时候，需要考虑兼容问题，因为在途任务是无计数器的，就全程不带有计数器；新版本带有计数器，则任务在创始的时候就带有计数器，做好新旧任务的隔离。
更好的解法是把 terminate 状态分离出来。中间失败和最终失败分离。最终失败按阶段论，而不考虑前置状态，这样就无需考虑兼容性问题。

滥用 ForkJoinPool

这个线程池的线程会自动关闭，因为首先它有内置的 idle，其次它的线程都是守护线程。

所以很多人很多时候是不关这个线程池的。

最好还是要关，这样 idle 的时间也不用等。

https 的外网端口被批量请求发起攻击

通过 nginx 官方证书的方式，对外暴露一个https服务，然后后面接 clb，clb后再放置一组服务器。

因为不知名的原因，有正确参数（正确的存量 taskId）流量批量进入系统中，导致系统业务逻辑被触发，批量发送短信。

修改方案不是很好：改外网域名为内网ip调用，但是因为不能经过有官方证书的 nginx，所以必须使用 http，这样就放弃了通讯过程中的加密。

合理的方案是对每次请求做全签名，且做时间戳签名。

服务冷启动 cpu 过高

导致 CompletableFuture 全部超时。

阻塞原因是因为动态编译 codecache 太多，c2 线程占满了 cpu。

解法：

主动预热再开量-注意绕开鉴权，但要使用单独的绕开鉴权的注解，不要破坏旧的注解和切面的关系。要实现代码预热比较简单，组件预热、连接预热、和数据预热非要mock流量不可。
减少 c2 线程的数量：默认为2。但也可以增加到3，似乎也能减少超时。-XX:CICompilerCount=3 -XX:+PrintCompilation。

预热要隔离资源：比如单一容器使用的 redis resource pool 可能因为某个容器的预热被耗尽，解决方法是限制预热线程，让线程每次只持有1个连接，通过复用的方式来解决吞吐问题。

在 select 语句里面重新定义了某个 column，where 受影响

select CONCAT(product_id, ' ', vest_name) AS product_id,导致where product_id='abc'什么都查不出来。

不要使用现有列名作为衍生列名。

拼接 sql 的时候使用同一个 key

<a, >= 1>会被<a, <= 2>覆盖。

比较好的解法：<a >=, 1>会被<a <=, 2>覆盖。

使用全量结果查询

不够大胆的优化通常是害怕内存不够/查询太复杂而无法下推，导致查询速度慢。要把查询速度提起来最好的方法还是下推。

如果必须分页查询，则全空间去重必须在近端做，这就导致大数据量传输。
对结果集的统计可以完全不group by，这样结果集不需要带有聚合列。
可以在一次查询产生多种不同维度的聚合结果，要善用mutiif/case when。
ck 很多时候不支持 double 子查询，只能分段。
按照业务场景（行业）拆分表，同构但数据分布不同，得到不同的查询范围。

生成查询数据的时候都是整数

提示出现了整形舍入

最好的改法是都引入 BigDecimal 进行 divide 操作。

前缀唯一索引冲突

    constraint idx_params
        unique (params(500)) comment '参数索引',
```        
        
产生的唯一索引很容易被超过500个字符的重复字符串冲击。最好的方法是去掉这个索引，但是在插入前做严格的查询检查-用params做redis key。

# 索引错误

在一个 for 循环里寻求 1-based 的递增，但是基于 list 的取值操作，index 的起点设置为 1，最终导致 OutOfBoundException。

教训：
凡是与容器迭代有关的index
1. 都必须是 0-based，增值算法必须内部解决。
2. 把 i 和 foreach loop 分离出来。

# 没有栈帧的空指针

```bash
msg:java.lang.NullPointerException

这种情况下不要加日志，要想的某些 integer 或者 enum 无法转出来，是拆箱类的错误。

要想是不是有些field 应该为 Integer，被错误地设置为 int 了。
要想是不是某些值被错误地设为空了。
不要使用 throwable 来让 log4j打印日志，要用 exception。有时候 throwable.getMessage 都是有问题的。

错误地更新字段为 null

有些 enitity 底层有 long 而不是 Long，在拷贝新的更新用对象，再使用updateNonNullFields类方法时，可能无意之中让更新用对象拥有了 long ownerId=0; 的默认值。

所有的变更都要有提前记录反操作的日志。
如果有得选，用程序化地完整地还原并更新 entity 是最简单的。

在单端口多服务的时候，存在多个configuration

只在一个 configuration 下新增必要 bean 会让核心 context 无法加载。应该在最公用的 configuration 里加上必要的 bean。

大 Long 不相等

java 包装器类型的常识：

public static void main(String[] args) {
    Long l1 = 10000551L;
    Long l2 = 10000551L;
    // false。对象比较内存地址，大数字无法使用缓存
    System.out.println(l1 == l2);
    // true
    System.out.println(Objects.equals(l1,l2));
}

查询分区表不带有 impl_date

查出来的结果放大了十几倍。

更新配置格式不正确

导致解析失败，甚至会触发服务启动失败：

只能兼容[1]，不能兼容1。

所以：

要校验配置才用新值代替旧值。
配置如果是反序列化的，一定要注意是不是能兼容不带有符号的裸列表。

只 catch 了 exception 没有 catch error

引用org.skyscreamer.jsonassert.JSONAssert，只catch exception，结果断言是以error的形式抛出的，不仅方法签名要修改，而且 catch return false 的逻辑没有生效。

这导致了很多 assertFalse 的断言测试因为抛出 error 而失败。

特殊标记位导致安装目录不同，再导致 mockgen 找不到

没有调试器的时候，要善用二分法插入日志。

# 看起来走入两个分支都可以
if [ -n "$ENV_ID" ]; then
    go install github.com/golang/mock/mockgen@v1.6.0
else 
    go get github.com/golang/mock/mockgen@v1.6.0
fi

# 在特定的 go 版本以后，但实际上只有走入第一个分支，这里才能读到真正的 mockgen
mockgen=${DP_ROOT}/tools/gobin/mockgen

只有找得到真正的 mockgen 才能执行 mockgen 命令。

目录不同：

go get：当使用 go get 安装包时，它将包下载到 GOPATH 中的 pkg/mod 目录。在这个目录中，Go Modules
将下载和缓存所有的依赖项。如果你安装的是二进制工具，它们将被放在 GOPATH 的 bin 目录中。例如，如果你的 GOPATH 是
/home/user/go，并且你运行 go get github.com/example/mypackage，包将被下载到
/home/user/go/pkg/mod 目录，而可执行文件（如果有的话）将被放在 /home/user/go/bin 目录。 go
install：使用 go install 时，Go 会编译源代码并将生成的可执行文件安装到 GOPATH 的 bin 目录。如果你执行 go install github.com/example/mytool，该工具的可执行文件将被安装到 /home/user/go/bin。

设计查询参数但是没有使用

应该直接报错而不是继续执行，否则用户并不知道哪些参数没有起作用。

go 的`v+%`占位符不能正确地显示数据类型

打印 map可以得到accountId=123这样的输出，但是accountId是 int 或者 string 都可能输出这个值。不能从输出看数据类型。但是 go 打印map可以看到 value 为字符串的话有accountId:"1234"。

同理，url query params&json=[{"a":123}]本质上所有的 key 对应的 value都是字符串。这在 servlet 的 map 都是取出字符串的。

不同模块共用配置文件导致启动失败

业务模块依赖于 i18n模块，i18n模块依赖于 log 模块，log 模块依赖于 config 模块，config 模块依赖于 grpc.yaml，导致业务模块启动失败。

无法解决的消息积压延迟

下游延迟超过3小时。
中游遇到分布式锁故障，不断扩容+扩大锁配置。
仍然无法消除下游的消息时延。
可能是某类消息本身带有很高的延迟。
无法找到整个消息的生命周期。

到处复制的配置文件应该 .gitignore

很多测试需要 ./xxx.conf，所以需要到处拷贝配置文件-包括国际化素材。

到处拷贝可以，但是最好在 build.sh 和 Dockerfile 里自动拷贝。平时手动拷贝的脚本，在本地可以导出拷贝，但是需要在项目根处 .gitignore。

不能 mock 的测试

基于嵌入的 go struct，不能被 gmock 改写 mock 行为。

所以要 mock 就尽可能使用组合，不要嵌入。

能够 mock 成解析好的文件，就不要依赖于原始的 byte[]。不是所有人都喜欢集成测试。

生成s3的id时没有引入名字空间和签名

很容易产生冲撞。好的格式可能是/image/25610/fdkjfdkfjdl-1280-image.png。

生成基础数据的时候尽量让多层使用的数据在一个多层能够触摸到的位置声明

是横向或者底层。如果不跨模块则横向就是放在一个文件夹即可。跨模块则要设计横向模块。否则容易产生循环引用-这在go语言的编译流程里尤其明显。

横向代表着破环。这比控制反转还要重要。

配置 eks 的时候名称和 port 配置错误

要搞清楚引用的服务的正确名字，和它对外的端口号，而不是更外部的端口号。

闭包陷阱：循环中创建闭包的正确姿势

问题本质

在循环中创建闭包时，所有闭包会共享同一个循环变量，而不是各自拥有独立副本。这是因为闭包捕获的是变量的引用，而不是值。当循环快速执行时，后续迭代会覆盖变量的值，导致所有闭包都使用最后一次迭代的值。

这个问题与并发无关，与闭包闭合变量有关。如果闭包是当下执行，则不会有问题；如果闭包是延后执行。则会有“最后值”的问题。

Go 语言示例

错误做法

func main() {
    var wg sync.WaitGroup
    validators := []string{"A", "B", "C"}
    
    for _, v := range validators {
        wg.Add(1)
        go func() {
            defer wg.Done()
            fmt.Println(v) // 所有goroutine都会输出"C"
        }()
    }
    
    wg.Wait()
}

正确做法

func main() {
    var wg sync.WaitGroup
    validators := []string{"A", "B", "C"}
    
    for _, v := range validators {
        v := v // 创建局部变量副本
        wg.Add(1)
        go func() {
            defer wg.Done()
            fmt.Println(v) // 正确输出"A", "B", "C"
        }()
    }
    
    wg.Wait()
}

JavaScript 示例

错误做法

for (var i = 0; i < 3; i++) {
  setTimeout(() => {
    console.log(i); // 输出三次"3"
  }, 100);
}

正确做法

// 使用闭包捕获当前值
for (var i = 0; i < 3; i++) {
  (function(j) {
    setTimeout(() => {
      console.log(j); // 输出0,1,2
    }, 100);
  })(i);
}

// 使用let创建块级作用域
for (let i = 0; i < 3; i++) {
  setTimeout(() => {
    console.log(i); // 输出0,1,2
  }, 100);
}

Java 示例

错误做法

List<Runnable> tasks = new ArrayList<>();
for (int i = 0; i < 3; i++) {
    tasks.add(() -> {
        System.out.println(i); // 编译错误：i需要是final
    });
}

正确做法

List<Runnable> tasks = new ArrayList<>();
for (int i = 0; i < 3; i++) {
    int finalI = i; // 创建局部副本
    tasks.add(() -> System.out.println(finalI)); // 输出0,1,2
}

最佳实践

理解作用域：明确循环变量的作用域范围
创建副本：在循环内部创建局部变量副本
使用语言特性：
- Go：使用 v := v 语法
- JavaScript：使用 let 或 IIFE
- Java：创建 final 局部变量
测试验证：在并发场景下测试循环逻辑
代码审查：特别注意循环中的闭包使用

为什么重要

闭包陷阱是开发中常见的并发错误源，它会导致：

难以复现的随机bug
数据竞争和不一致
逻辑错误难以调试
生产环境中的严重问题

通过理解闭包捕获机制并遵循最佳实践，可以避免这类问题，编写出更健壮的并发代码。

请求的固定值不用枚举限制

如果不做default报错，那么传错了错误的枚举用户也不知道出错。
如果使用枚举来限定固定值，则框架会自动拒绝错误的常量。

所有产生的可能被 url/uri 读取的名字，都要转义

有一些文件、对象名字看起来平平无奇，但是它们会被拼成 url 的一部分。这时候他们的名字不安全就会产生问题。所以所有用户输入的url和名称都是需要进行 safehtml 的转义的。

aws s3 的图片只能下载不能打开

Content-Type头缺失或错误
- 如果上传对象时没有设置正确的Content-Type头（如image/jpeg），浏览器无法识别文件类型。
- 默认情况下，S3会将未知类型文件视为application/octet-stream，触发下载行为
Content-Disposition头设置
- 如果设置了Content-Disposition: attachment头，浏览器会强制下载文件
- 即使Content-Type正确，此头也会覆盖浏览器的默认显示行为

解法

import boto3

s3 = boto3.client('s3')
s3.upload_file(
    'local_image.jpg',
    'your-bucket-name',
    'remote_image.jpg',
    ExtraArgs={
        'ContentType': 'image/jpeg',  # 正确设置内容类型
        'ContentDisposition': 'inline'  # 设置内联显示
    }
)

修正存量图片

# 修正Content-Type
aws s3 cp s3://your-bucket/image.jpg s3://your-bucket/image.jpg \
  --content-type "image/jpeg" \
  --metadata-directive REPLACE

# 移除强制下载设置
aws s3 cp s3://your-bucket/image.jpg s3://your-bucket/image.jpg \
  --content-disposition "inline" \
  --metadata-directive REPLACE

配置 cloudfront：

添加Content-Type到缓存键和原始请求策略
创建响应头策略：

{  "ResponseHeadersPolicyConfig": {    "Name": "ImageDisplayPolicy",    "Comment": "Force inline display for images",    "ContentTypeOptions": { "Override": false },    "ContentDisposition": {      "Override": true,      "Value": "inline"    }  }}

逆拷贝错误

查出一个 ORM 管理的对象a1，用深拷贝的方法得到一个新对象 a2。

把 a1 当做不可变对象作为参考，修改 a2，用 a2 来进行 update。

深拷贝理论上会把所有叶子节点的值全部重新拷贝一遍，但是不一定能拷贝句柄等单例或者堆外内存的指针指向的值。其次是深拷贝的结构可能是更简略的结构-除非深拷贝的对象是一个 map，否则很容易丢失 ORM 需要的管理状态。

这种拷贝会导致更新失败，而且对象可能被还原。

一个简单的解法是把 a2 作为不可变对象，把 a1 作为更新值。

在 go 里返回 error 的时候返回 nil 对象

在外围尝试对对象求值遇到空指针问题。

如果有可能尽量返回空对象，或者进行打日志或者求值操作的时候尽量做多层判空。

并行化转化导致后续的转化器失衡

转化器 t2 依赖于 t1 产出的 cid，但是因为 t2 和 t1 是并行执行的，所以有时候 t2 内部取到的 tid 为0。

使用转化器不要滥用 goroutine，如果可以需要使用 wait 表达依赖，如果可以也要使用串行解决问题。

选错配置以后，覆盖了 content-type

在使用 curl 而不是浏览器工具使用表单上传不一定会触发一个multipart/form-data的content-type，需要手动指定为好。

如果不指定，可能被一个大颗粒度配置覆盖为application/json。后端上传服务可能无法解析这个复杂表单。

所以：

支持细颗粒度的接口配置。
要知道 content-type 不一定会自动生成。
不要随便覆写 content-type。

对于修复 body 的设计。

在 go 里面读取了 form body 没有重置，会导致：Failed to parse form: http: multipart handled by MultipartReader。

对于application/json类型，以下代码是生效的：

var buf bytes.Buffer
tee := io.TeeReader(r.Body, &buf)
r.Body = io.NopCloser(tee)
defer func() {
    // 确保恢复原始数据且可重复读取
    if buf.Len() > 0 {
        r.Body = io.NopCloser(bytes.NewReader(buf.Bytes()))
    } else {
        // 处理空body情况
        r.Body = io.NopCloser(&buf)
    }
    log.InfoContextf(ctx, "multipart form body restored, size: %d", buf.Len())
}()

但对multipart/form-data就会出上述错误。

对于 JSON 格式的请求体，Go 的 net/http 包本身是“无知”的。它不提供像 r.ParseJSON() 这样的内置方法。我们通常使用的 json.NewDecoder(r.Body) 来自 encoding/json 包，它是一个独立的工具。这个解码器只关心一件事：从你提供给它的 io.Reader（即 r.Body）中读取字节流。它不会以任何方式改变 http.Request 对象的内部状态。

正因为这种无状态的特性，使用 io.TeeReader 的模式在这里非常有效。你可以用它将请求体的数据流完整地复制到一个缓冲区，然后在函数末尾通过 defer 语句，用缓冲区里的数据创建一个新的 io.Reader 来恢复 r.Body。后续的任何代码拿到的都是一个全新的、可读的、包含原始数据的请求体，因此可以被再次解析，相安无事。

而对于表单类型，可以对 Request 做重复读取的努力：

//模拟中间件
r.ParseMultipartForm(32 << 20)
s := r.FormValue("uid")
fmt.Println("form场景 中间件读到uid:" + s)

//模拟服务
r.ParseMultipartForm(32 << 20)
s = r.FormValue("uid")

初始化一个 client 遇到一个错误直接 panic

如果服务的错误可能是连接导致的，那么应该抛出错误/异常，而不是panic。
然后准备一个全局单例，每次请求都尝试求值或者初始化，这样初期失败不会搞垮程序，总有一次请求会帮助单例初始化成功。

建立 aws 的 alb 很多请求都超时

通常超时是5s或者10s的倍数。

原因是：标准 vpc 带有4个子网，有1个子网是死胡同。如果负载均衡到这个死胡同，则请求会请求到超时时间附近才产生特定响应。

调试方法：curl -vv得到：

1	`* IPv4: 54.147.62.47, 52.44.233.252`

这里意味着 route 53 给了 2 个 ip 地址，然后用 curl 直接请求这2个地址，总有一个会得到死胡同结果。这时候就去aws去掉死胡同地址就可以了。

http header 不能包含中文

"header key \"http-x-account-name\" contains value with non-printable ASCII characters"。

这是http规范。

两种解法：

URL编码：url.QueryUnescape()
Base64：base64.StdEncoding.DecodeString()

伪注册

a 节点占用ip1，上报 consul，未解注册，a 下线。

b 节点无意之中复用了 ip1，使用相同的端口和健康检查地址来上线，无意之中注册进了 a 节点的服务列表。

这个问题的根源是 consul 居然没有被动把这个ip地址下线，而把它休眠了。

解法：主动对 consul 反注册，不然最后服务实例列表会堆积如山。而且每次拉取 pod 都要拉取健康节点，尽量避免死请求。

1 2	`# 检查某个 ip 属于哪个 pod kubectl get pods -o wide -A\|grep 10.0.203.138`

设计限流器的时候没有考虑到下游系统错误

如果下游系统不可用，限流器可能频繁遇到失败，而上游仍然在重试。
考虑到上游会更疯狂重试，会更容易用掉限流器的配额。
这时候如果过滤掉系统错误和压测流量，保持限流配额不变，似乎是一种更精准的限流。

docker 容器不可启动

有些容器依赖于 k8s 注入环境变量，很难本地调试。
如果无法调试，则使用一个 start.sh 作为托管进程。 1，保持服务能够进去启动，然后进去以后手工执行启动命令，如/usr/local/services/app1/bin/app1 -c /usr/local/services/app1/conf/app1.yaml。启动脚本要留着等价的启动命令。
生成测试部署的时候要一起生成测试 Service。

go redis 因为 tls 版本不可连接

确认 tls 的协议：openssl s_client -connect ip:port -debug。

测试 redis 的 tls 功能：

1 2	`redis6-cli -h master.basic-valkey.cluster-1.use1.cache.amazonaws.com -p 6379 --tls --insecure auth abc`

官方的方案，使用无证书连接：

// 官方方案需要使用证书
// Load client cert
cert, err := tls.LoadX509KeyPair("redis_user.crt", "redis_user_private.key")
if err != nil {
    log.Fatal(err)
}

// Load CA cert
caCert, err := os.ReadFile("redis_ca.pem")
if err != nil {
    log.Fatal(err)
}
caCertPool := x509.NewCertPool()
caCertPool.AppendCertsFromPEM(caCert)

client := redis.NewClient(&redis.Options{
    Addr:     "my-redis.cloud.redislabs.com:6379",
    Username: "default", // use your Redis user. More info https://redis.io/docs/latest/operate/oss_and_stack/management/security/acl/
    Password: "secret", // use your Redis password
    TLSConfig: &tls.Config{
        MinVersion:   tls.VersionTLS12,
        Certificates: []tls.Certificate{cert},
        RootCAs:      caCertPool,
    },
})

//send SET command
err = client.Set(ctx, "foo", "bar", 0).Err()
if err != nil {
    panic(err)
}

//send GET command and print the value
val, err := client.Get(ctx, "foo").Result()
if err != nil {
    panic(err)
}
fmt.Println("foo", val)

通常我们会因为使用 dialer 导致错误：

redisOpt := &goredis.Options{
        Addr: fmt.Sprintf("%s:%d", ip, port), // 使用标准地址格式
        Dialer: func(ctx context.Context, network, addr string) (net.Conn, error) {
            netDialer := &net.Dialer{
                Timeout:   5 * time.Second, // 增加拨号超时时间
                KeepAlive: 2 * time.Minute,
            }

            logger.DefaultEngLogger.Infof("Dial GetServerBySid %s %s:%d, network: %s, addr: %s", metric.DepLimitRedis,
                ip, port, network, addr)
            return netDialer.DialContext(ctx, network, addr)
        },
        Password:     flowLimitConfig.Auth,
        DB:           flowLimitConfig.DB,
        MaxConnAge:   time.Second * time.Duration(60),
        ReadTimeout:  2 * time.Second, // 增加读超时
        WriteTimeout: 1 * time.Second, // 增加写超时
        PoolTimeout:  3 * time.Second, // 连接池获取连接超时
    }

    if util.GetEnv() != constant.Develop {
        logger.DefaultEngLogger.Infof("enable tls")
        redisOpt.TLSConfig = &tls.Config{
            MinVersion:         tls.VersionTLS12,
            InsecureSkipVerify: true, // 对应 --insecure 参数
        }
    }

    redisClient := goredis.NewClient(redisOpt)
    logger.DefaultEngLogger.Infof("goredis.NewClient(redisOpt): %+v", redisOpt)

这个方案的缺点是，Dialer 会覆盖 redisOpt.TLSConfig 的配置。

所以要引入差异化的 dialer：

// 1. 像之前一样，先准备好你的 redisOpt 和可能的 tls.Config
    redisOpt := &goredis.Options{
        Addr:         fmt.Sprintf("%s:%d", ip, port),
        Password:     flowLimitConfig.Auth,
        DB:           flowLimitConfig.DB,
        MaxConnAge:   time.Second * time.Duration(60),
        ReadTimeout:  2 * time.Second,
        WriteTimeout: 1 * time.Second,
        PoolTimeout:  3 * time.Second,
    }

    var tlsConfig *tls.Config // 先声明一个变量
    if util.GetEnv() != constant.Develop {
        logger.DefaultEngLogger.Infof("enable tls")
        tlsConfig = &tls.Config{
            MinVersion:         tls.VersionTLS12,
            InsecureSkipVerify: true,
            // 如果要修复安全问题，应该在这里加上 ServerName 和 RootCAs
            // ServerName: ip,
        }
    }

    // 2. 这是关键：在 Dialer 中处理 TLS 逻辑
    redisOpt.Dialer = func(ctx context.Context, network, addr string) (net.Conn, error) {
        // 基础的 TCP 拨号器配置
        netDialer := &net.Dialer{
            Timeout:   5 * time.Second,
            KeepAlive: 2 * time.Minute,
        }

        // 如果不需要 TLS (tlsConfig 是 nil)，就执行普通拨号
        if tlsConfig == nil {
            logger.DefaultEngLogger.Infof("Custom Dialer: Dialing plain TCP to network: %s, addr: %s", network, addr)
            return netDialer.DialContext(ctx, network, addr)
        }

        // 如果需要 TLS，则使用 tls.Dialer 来建立连接
        // 它会使用我们的 netDialer 来建立底层 TCP 连接，然后自动完成 TLS 握手
        logger.DefaultEngLogger.Infof("Custom Dialer: Dialing with TLS network: %s, addr: %s", network, addr)
        tlsDialer := &tls.Dialer{
            NetDialer: netDialer,
            Config:    tlsConfig,
        }
        return tlsDialer.DialContext(ctx, network, addr)
    }

    // 3. 告诉 go-redis 不要再处理 TLS，因为 Dialer 已经处理了
    //    这一步非常重要，可以避免潜在的冲突。
    redisOpt.TLSConfig = nil

    redisClient := goredis.NewClient(redisOpt)
    logger.DefaultEngLogger.Infof("goredis.NewClient(redisOpt): %+v", redisOpt)

go 的池化方案：

// StartAndGC 使用 Options 初始化redis，并在程序进程退出时关闭连接池。
func (c *Cacher) StartAndGC(options any) error {
    switch opts := options.(type) {
    case Options:
        if opts.Ip == "" || opts.Port == 0 {
            return errors.Wrap(errors.ThrowErrorWithMsg(context.Background(), errors.PlatformRedisConfIncompleteError,
                fmt.Sprintf("%+v", redis_conf.RedisConfig)))
        }
        if opts.Network == "" {
            opts.Network = "tcp"
        }

        if opts.MaxIdle == 0 {
            opts.MaxIdle = 3
        }
        if opts.IdleTimeout == 0 {
            opts.IdleTimeout = 300
        }
        if opts.MaxConnLifetime == 0 {
            opts.MaxConnLifetime = time.Second * time.Duration(60) // 链接最长存活时间
        }
        if opts.Marshal == nil {
            c.marshal = json.Marshal
        }
        if opts.Unmarshal == nil {
            c.unmarshal = util.SafeUnmarshal
        }
        if opts.Prefix != "" {
            c.prefix = opts.Prefix
        }
        pool := &redis.Pool{
            MaxActive:       opts.MaxActive,
            MaxIdle:         opts.MaxIdle,
            IdleTimeout:     time.Duration(opts.IdleTimeout) * time.Second,
            MaxConnLifetime: opts.MaxConnLifetime,
            Dial: func() (redis.Conn, error) {
                ip := opts.Ip
                port := opts.Port
                log.Printf("StartAndGC Dial GetServerBySid %s %s:%d", c.name, ip, port)

                // 配置 TLS 参数
                var tlsConfig *tls.Config
                if opts.MinVersion != 0 {
                    tlsConfig = &tls.Config{
                        MinVersion:         opts.MinVersion,
                        InsecureSkipVerify: opts.InsecureSkipVerify,
                    }
                }

                var conn redis.Conn
                var err error

                if tlsConfig != nil {
                    // 使用 TLS 连接
                    conn, err = redis.Dial(opts.Network,
                        fmt.Sprintf("%s:%d", ip, port),
                        redis.DialUseTLS(true),
                        redis.DialTLSConfig(tlsConfig))
                } else {
                    // 普通 TCP 连接
                    conn, err = redis.Dial(opts.Network,
                        fmt.Sprintf("%s:%d", ip, port))
                }

                if err != nil {
                    return nil, err
                }

                // 认证和选择数据库
                if opts.Password != "" {
                    if _, err := conn.Do("AUTH", opts.Password); err != nil {
                        conn.Close()
                        return nil, err
                    }
                }
                if opts.Db > 0 {
                    if _, err := conn.Do("SELECT", opts.Db); err != nil {
                        conn.Close()
                        return nil, err
                    }
                }
                return conn, nil
            },

            TestOnBorrow: func(conn redis.Conn, t time.Time) error {
                _, err := conn.Do("PING")
                return err
            },
        }

        c.pool = pool
        c.closePool()
        return nil
    default:
        return errors.Wrap(errors.ThrowErrorWithMsg(context.Background(), errors.PlatformUnsupportedOptionsError,
            fmt.Sprintf("%+v", options)))
    }
}

错误的限流器

只考虑单一维度 + 单一值

key_base_conf:
  - path: "/v1.0/abc/cdf"  # 接口路径
    key: RoleInfo.UID
    value: 25610
    qps: 2                   # 每秒请求限制
    qpm: 5                  # 每分钟请求限制
    qpd: 10               # 每天请求限制

这样的设计的缺点是：一个 path似乎只能从一个角度来配置一个值而已，加一个值也不行，不想要使用 UID 维度也不行。

比较好的修改是

- path: "*"  # 接口路径
  key: RoleInfo.UID
  value:
    - 25610
    - 25611
    - 25612
  qps: 20                # 每秒请求限制
  qpm: 50                # 每分钟请求限制
  qpd: 30                # 每天请求限制
- path: "/v1.0/abc/cdf"  # 接口路径
  key: RoleInfo.UID
  value:
    - 25610
    - 25611
    - 25612
  qps: 2                 # 每秒请求限制
  qpm: 5                 # 每分钟请求限制
  qpd: 3                 # 每天请求限制

这样做可以引入缺省配置，批量路径配置，每个路径也可以有自己的多个元素配置。

这样就实现了全量的网状配置，每个配置内部也是多维的：

并发执行问题

一开始代码大概是这样写的：

qpmLimiter := NewQPMLimiter(int(qpm), p.limiter)
qpmRemaining, err := qpmLimiter.allow(ctx, contextInfo, key.key(), qpm)
if err != nil {
    return err
}
qpdLimiter := NewQPDLimiter(int(qpd), p.limiter)
qpdRemaining, err = qpdLimiter.allow(ctx, contextInfo, key.keyQpd(), qpd)
if err != nil {
    return err
}

这就导致一个问题，如果在中间的一个 limiter 出错了，那么前面的 limiter 的配额已经扣减了，后面的 limiter却不扣减，这会导致配额不均匀扣减。

就公正的角度来讲，应该所有的配额都扣减，这又启发我们使用并发 goroutine。

我们使用并发 goroutine 的时候又遇到怎样决定什么才是真正的 remaining 的问题，又涉及动态比较哪个 remaining 最小的问题-这时候就必须在比较的时候加锁。

这又涉及到锁是加在比较的地方，还是加在扣减的地方的问题。最起码要加在比较的地方-如果能够实现锁错开的话。

多个配置的 merge

一开始是同时取 path + *的配置进行并发扣减配额，但是后来发现应该允许用户用具体的 path override *的配置。

于是有了这个修改：

func (p *Plugin) getMatchedRules(ctx *gopass.Context, path string, contextInfo *mycontext.Context) ([]FlowLimitRule, []string, error) {
    ctx.Logger.Infof("FlowLimitPlugin getMatchedRules started, path: %s", path)
    defer ctx.Logger.Infof("FlowLimitPlugin getMatchedRules completed, path: %s", path)

    var matchedRules []FlowLimitRule
    var matchedVals []string
    seenKeys := make(map[string]bool) // Track processed rule.Key and contextVal combinations

    // Process specific path rules first
    if rules := p.standardFlowLimitMap[path]; rules != nil {
        ctx.Logger.Infof("Checking specific path rules, found %d rules", len(rules.Rules))
        for _, rule := range rules.Rules {
            if rule.Key == "" {
                ctx.Logger.Debugf("Skipping rule with empty key")
                continue
            }

            contextVal, err := contextInfo.GetStringByPath(ctx, rule.Key)
            if err != nil {
                ctx.Logger.Errorf("Failed to get context value, key: %s, err: %+v", rule.Key, err)
                continue
            }

            if rule.MatchValue(contextVal) {
                ctx.Logger.Infof("Rule matched successfully, Key: %s, Value: %s", rule.Key, contextVal)
                matchedRules = append(matchedRules, rule)
                matchedVals = append(matchedVals, contextVal)

                key := rule.Key + ":" + contextVal // Unique identifier: RoleInfo.UID:25610
                seenKeys[key] = true
            } else {
                ctx.Logger.Debugf("Rule value mismatch, Key: %s, Value: %s, Rule values: %v", rule.Key, contextVal, rule.Value)
            }
        }
    } else {
        ctx.Logger.Infof("No specific path rules found")
    }

    // Process default path rules, only take the first matching rule
    if rules := p.standardFlowLimitMap[defaultPath]; rules != nil {
        ctx.Logger.Infof("Checking default path rules, found %d rules", len(rules.Rules))
        for _, rule := range rules.Rules {
            if rule.Key == "" {
                ctx.Logger.Debugf("Skipping rule with empty key")
                continue
            }

            contextVal, err := contextInfo.GetStringByPath(ctx, rule.Key)
            if err != nil {
                ctx.Logger.Errorf("Failed to get context value, key: %s, err: %+v", rule.Key, err)
                continue
            }

            if rule.MatchValue(contextVal) {
                key := rule.Key + ":" + contextVal // Unique identifier: RoleInfo.UID:25610
                if !seenKeys[key] {
                    ctx.Logger.Infof("Default rule matched successfully, Key: %s, Value: %s", rule.Key, contextVal)
                    matchedRules = append(matchedRules, rule)
                    matchedVals = append(matchedVals, contextVal)
                    break // Only take the first matching rule
                } else {
                    ctx.Logger.Debugf("Default rule already exists, Key: %s, Value: %s", rule.Key, contextVal)
                }
            } else {
                ctx.Logger.Debugf("Default rule value mismatch, Key: %s, Value: %s, Rule values: %v", rule.Key, contextVal, rule.Value)
            }
        }
    } else {
        ctx.Logger.Infof("No default path rules found")
    }

    ctx.Logger.Infof("Total matched rules: %d", len(matchedRules))
    return matchedRules, matchedVals, nil
}

大家就不会和*配置互相干扰。

这个算法还是不够好，更好的算法应该是：

把限流的值升序排列。
串行执行。

这样可以保证：

通过低限流的值，会造成低限流的扣减。
低限流的扣减过了，高限流的值肯定也能扣减过。
如果扣减不通过，低限流的限流器第一个拒绝，这样所有的限流器本身并不做差异化的扣减：标准的限流器都是尝试扣减，通过再真扣减的。所以拒绝等于假性扣减。

怎样计算 used 和 remaining

有多组规则就会有多个并发扣减，就会产生多个 used 和 remaining。

怎样表达为一组 used 和 remaining？

一开始 used 和 remaining 本来设计成平均值。但是实际上如果要放在响应头里提醒用户，应该还是所有规则配置里的最小值才是准确的，而且这个最小值还必须排除掉*，只在多组具体 path 规则里找最小值。

设计限流器的时候，一开始只考虑了 path + 单一维度 + 单一值的匹配法。

重复调用问题

事实证明一个子插件是可能被重复调用2次的，这类带有写的操作的流程要注意幂等性，扣减类显然特别受这个问题的害。

忘记排除特别的接口

/health检查接口应该是无需限流的。但是可能被*囊括进限流里。

需要专门给被无线调用的接口设计白名单机制。

正确的设计是

完整的、自由的表达维度（具体覆盖模糊，具体值里最小的值获胜）
网状的碰撞-必定扣减，无遗漏。
剩余值里最小值获胜。
关键数据加锁检查。

对不涉及慢操作的for循环并发处理导致调试变得困难

只有有迭代读数据库或者调用 io 的 rpc 操作的地方才适合并行化。

在其他地方并行化只会导致调试困难，而且变量读写跨各种 scope 会非常麻烦。

应该专门逆优化这些流程。

子进程无法继承父进程的环境变量

子进程只能继承父进程的“环境变量”，而不能继承父进程的“本地变量”或“Shell 变量”。

当一个变量在 Shell（如 Bash）中，被使用 export 命令标记为环境变量（Environment Variable）时，它就会被其后创建的所有子进程所继承。

这样的变量可以被子进程天然继承。
如果不能被继承就这样使用临时环境（本地）变量NODE_IP="192.168.1.10" ./my-go-app或者nohup env NODE_IP="$NODE_IP" $APP_PATH/bin/$APP_NAME -c $CONF_FILE >/dev/null 2>&1 | tee -a stderr & PID=$!：
这样的变量是无法继承的：

# 这只是一个本地 Shell 变量
MY_SECRET_KEY="abc-123"

# 启动一个新的子 Shell
bash

echo $MY_SECRET_KEY
# 输出将是空的，因为子 Shell 没有继承这个变量

这个继承行为是由 Unix/Linux 的进程创建机制决定的：

fork()：当一个父进程调用fork()创建子进程时，操作系统会为子进程创建一份父进程环境的完整副本。这里的“环境”指的就是那些被 export 的环境变量。
exec()：子进程接着调用exec()来执行一个新程序。exec() 会用新程序替换当前进程的代码和数据，但会保留那份继承来的环境副本。
本地变量（未 export 的）不属于这份“环境”副本的一部分，因此在fork()时就不会被复制给子进程。

变量类型	定义方式 (Bash)	是否能被子进程继承	典型场景
环境变量	`export VAR="value"`	是	需要跨进程共享的配置（如 `PATH`, `HOME`, `NODE_IP`）
	`VAR="value" command`	是（仅对 `command`）	为特定程序启动时注入临时配置（安全推荐）
本地/Shell变量	`VAR="value"`	否	脚本内部临时变量（不影响其他程序）

怎样更散列

文件名的散列程度决定了网络 cdn 和 s3 的分发均衡程度。

文件名 = uid + signature + timestamp

timestamp 是连续的，signature 是md5散列的，那么这个文件名是散列的吗？

高位散列而低位连续，整个数还是散列的。如果把signature移到前面，这个文件名会更散列，对分布式的 cdn更友好。

低位散列会产生尾部聚集问题。

错误的 nohup

# 这个命令不会阻塞后面的日志
nohup redis6-server conf/redis.conf >/dev/null 2>&1
echo "started redis-server"
# 但是这个命令会阻塞后面的日志
nohup node $APP_PATH/bin/server.js >/dev/null 2>&1
echo "started server.js"

应该这样改：

nohup redis6-server conf/redis.conf >/dev/null 2>&1 &
echo "started redis-server"
nohup node $APP_PATH/bin/server.js >/dev/null 2>&1 &
echo "started server.js"

Linux 后台进程管理方法一览

方法	命令示例	特点
1. & 符号	`command &`	最简单方式，立即返回控制权
2. nohup + &	`nohup command &`	终端断开后进程继续运行
3. disown	`command &` `disown %1`	将已启动的作业从 shell 作业列表中移除
4. setsid	`setsid command`	在新会话中运行命令（自动后台）
5. screen/tmux	`screen -dmS mysession command`	创建虚拟终端会话
6. systemd 服务	`systemctl start my-service.service`	专业的进程管理方式
7. daemon 工具	`daemon command`	专门的守护进程管理工具
8. 双重 fork	`(command &)`	通过子 shell 实现后台（不推荐）

关键特性对比：

graph TD
    A[终端关闭存活] --> B(&符号)
    A --> C(nohup)
    A --> D(disown)
    A --> E(setsid)
    A --> F(systemd)
    A --> G(daemon)
    B -.-> |否| H[进程终止]
    C --> |是| I[继续运行]
    D --> |是| I
    E --> |是| I
    F --> |是| I
    G --> |是| I

使用建议：

简单后台任务 → & 符号 (cmd &)
持久化进程 → nohup (nohup cmd &)
脱离终端控制 → disown 或 setsid
生产环境服务 → systemd 或 daemon 工具
会话管理 → screen/tmux

注意：双重 fork (cmd &) 存在资源泄露风险，不建议在重要场景使用

修改配置文件的解析方式

让原本非自然的路径映射模式改成自然的路径映射模式。

结果忘记把非自然的 json 改过来，导致解析文件出错。

ab_cd原本是遵循mod/act模式的，实际上 path 应该是 /a/b/c/d，文件应该是a_b_c_d.json。

尝试删除可能存在或不存在的文件

我有一个删除脚本：rm ${appPath}/-prod*
这个路径下不一定有待删除文件，所以有时候会报：

1	`rm: cannot remove '/conf/-prod': No such file or directory`

怎样让 bash 实现存在才删除？

1	`find ${appPath}/ -maxdepth 1 -name '-prod' -delete`

aws 的 s3 的 object key 是否需要散列

散列是为了不让请求打在同一个服务器的同一个磁盘上，避免局部热点。

但当代的aws在2019以后应该不以前缀来决定访问的空间局部性了，所以无需关注散列问题。

从 form-data 里读数据无法写回

本质上 form-data parse 以后是可以从同一个数据结构接口重复读取的，反而不需要像 json body 一样用写回的方式读取。

// 尝试从请求体获取
contentType := r.Header.Get("Content-Type")
mediaType, _, _ := mime.ParseMediaType(contentType)
switch mediaType {
case "application/x-www-form-urlencoded":
    // @WARNING 不额外支持复杂格式,当前格式里的不做检查

case "multipart/form-data":
    // 文件上传使用此格式，但也可以包含普通字段
    if err := r.ParseMultipartForm(FormMaxMemory); err == nil {
        if accountID := r.Form.Get("account_id"); accountID != "" {
            log.DebugContextf(ctx, "get accountId from multipart/form-data param: %v", accountID)
            return accountID
        }
    }

case "application/json":
    // 安全解析JSON体
    // 使用 TeeReader 避免消耗原始请求体
    var buf bytes.Buffer
    tee := io.TeeReader(r.Body, &buf)
    defer func() {
        // 恢复原始请求体
        r.Body = io.NopCloser(&buf)
    }()

    // RequestBody 请求体
    type RequestBody struct {
        AccountID int64 `json:"account_id"`
    }
    var body RequestBody
    if err := json.NewDecoder(tee).Decode(&body); err == nil {
        if body.AccountID != 0 {
            accountID := strconv.FormatInt(body.AccountID, 10)
            log.DebugContextf(ctx, "get accountId from json body: %v", accountID)
            return accountID
        }
    }

倒查索引慢了400倍

-- 只要0.11s的，只有200个数据。
SELECT update_tag FROM thr_calc_route_20250715 GROUP BY update_tag ORDER BY update_tag
-- 要4分钟，倒序显示的200个数据。
SELECT update_tag FROM thr_calc_route_20250715 GROUP BY update_tag ORDER BY update_tag DESC 
-- 要0.15s
SELECT update_tag FROM (SELECT update_tag FROM thr_calc_route_20250715 GROUP BY update_tag) temp ORDER BY update_tag DESC

结论， group by 单独查询还是可以快速，如果你依赖于 MySQL 自行逆排序会很慢，把结果集存起来再逆序 order by 就会快。

非守护线程泄露，导致 jvm 关闭钩子泄露

本来准备一个 JVM 关闭钩子线程要执行，但是一直没有被执行。
原因是之前有其他线程泄露，阻止了 JVM 进入调用关闭钩子的流程。

中间浮点数错误

Double.toString 并非对“字面量”本身友好，而是对能用最短十进制字符串无损还原为原 double 值的数友好。
常见字面量（如 0.1）虽在 double 中是近似值，但其对应的最短字符串恰好是 “0.1”，看起来干净。
而计算结果（如 0.1 + 0.2）常因浮点误差无法用简短十进制表示，Double.toString 只能输出更长的数字（如 “0.30000000000000004”）以保证精确 round-trip。
因此，表面“友好”与否，取决于该 double 值是否恰好有简洁的十进制表示，而非是否来自字面量。
Double.toString 始终忠实、一致：总是返回最短且可无损还原的十进制字符串。
正因如此，不应将 double 用作 BigDecimal 的构造种子，因为 new BigDecimal(double) 会固化其二进制误差。
推荐使用 new BigDecimal(String) 直接从十进制字符串初始化，确保语义精确。
若必须从 double 创建 BigDecimal，应使用 BigDecimal.valueOf(double)，它内部调用 Double.toString，能避免显式构造器的长尾误差，但仍无法消除 double 本身已有的计算误差。
同样，也不应将非字面量的 double（尤其是运算结果）直接转为字符串作为精确数值的表示或后续解析的“种子”，因为其字符串形式可能包含意外的小数位，误导用户或下游系统。
最佳实践：在需要精确十进制语义的场景（如金融、计量），绕过 double，直接用原始字符串或 BigDecimal 处理数值，避免任何中间浮点表示。

vscode mcp 无法启动

npx npx @blife/bmap-c3-mcp-gateway@latest这个命令没有响应是正常的。正常连接 mcp server就是静默等待输入 json的。

对某些 vscode 而言，.zshenv 也是重要的，需要加入一些路径补充，支持 GUI 读取环境变量以后启动（这一步不必要，下一步必要）：

1 2	`# Add Homebrew to PATH for GUI applications export PATH="/opt/homebrew/bin:/opt/homebrew/sbin:$PATH"`

启动后还不可以的话，就用软链接：sudo ln -s /opt/homebrew/bin/npx /usr/local/bin/npx。似乎只有这个位置的 npx 可以被 vscode 读到。

插入覆盖语句在 MaxCompute 上执行失败

一般语法是：

1 2	`INSERT OVERWRITE table_name (column_name) select_statement`

对于一般的语句：

如果SELECT语句中的列数比目标表的列数多，会写入失败；如果SELECT语句中的列数比目标表中的列数少，写入数据时，目标表中多出的列会自动填充默认值，无默认值时值为NULL。

但是 MaxCompute 比较严格，如果增加了一列，但是在 select_statement 增加列，则执行任务会失败。

在这里面还有一个小细节，就是如果 gmtCreate 是2025-11-11 00:00:00的格式，比较大于号的时候，只要> 2025-11-11就行了，这利用字典排序的字符串局部性，不引入空格，让脚本本身执行参数也不需要考虑对应空格的引号问题。

修正方法是，紧急在 select语句的末尾补一个,NULL作为默认值。

对于已单元化的服务，出问题以后只降级一个服务，导致上游跨单元超时

很多服务的超时时间是专门针对本单元设定的。如果单独切走下游，上游会因为流量漂移到另一个单元而超时。

针对这种情况，只能在网关层做全流量切换，把整个单元的流量都切走。

在请求里新增兜底，没有评估上下游代码

没有评估上游给出的 sessionId 的正确性。
没有评估下游是否真的使用这个参数，怎么使用这个参数。
没有查看上下游日志有没有流量，看业务能否评估正确使用这些参数。
变更参数的逻辑一定要搞清楚这个参数所有的使用场景！
网关服务如果决定一个东西可能不是强依赖，可以把依赖的耦合交给下游重复实现，让它们成为强依赖，网关自己变成弱依赖。
强依赖也分哪个更强，最强的依赖无超时，弱一点的超时变短。超时时间的长度正相关于“多么不愿意因为得不到这个值而熔断”。

上线顺序错误导致消息消费失败

生产者往消息里增加字段：

如果新字段是新版消费者强依赖，当前消费者可忽略的，生产者先上。这种情况下有些消息会丢失，不走新流程产生错误。
如果新字段是新版消费者弱依赖，消费者先上，这种情况下不带有新字段的消息走入新流程，也可能产生错误。

正确的发布方法：

阶段1：发布兼容版消费者 C（v1.5）
消费者同时支持字段 a 和字段 b：

# 消费者 v1.5（过渡版本）
def process_message(message):
    if message.has('b'):  # 新版消息
        query_service_d(message.b)
    elif message.has('a'):  # 旧版消息
        query_service_d(message.a)
    else:
        log_error("Unknown message format")

阶段2：发布新版生产者 P（v2）
生产者开始发送带字段 b 的消息。此时消费者 v1.5 可以正常处理。

阶段3：清理消费者代码（v2）
确认所有旧消息处理完毕后，移除对字段 a 的支持。

如果 v2 是对v1的字段的语义升级，没有引入新字段，且 v1 消费流程能作为v2 消费流程的兜底，则先发生产者，消费者再发布，即使v2的消息走入v1的流程，消费仍然是无损的。

如果没有这种兜底流程，则要求消息里带有版本信息。

新老流程不兼容

// 老流程
    private boolean isLeadsItem(SpuDTO spuDTO) {
        if (spuDTO == null) {
            return false;
        }
       
        return Boolean.TRUE.equals(isLeaveInformationItem);
    }
    
// 错误的新流程
    private boolean isLeadsItem(SpuDTO spuDTO) {
        if (spuDTO == null) {
            return false;
        }
        
        // 新流程：仍然会被上面的短路影响
        if () {
            // 
        }
       
        return Boolean.TRUE.equals(isLeaveInformationItem);
    }
    
// 正确的新流程
    private boolean isLeadsItem(SpuDTO spuDTO) {
        // 新流程：不被上面的短路影响
        if () {
            // 
        }
        
        if (spuDTO == null) {
            return false;
        }

        return Boolean.TRUE.equals(isLeaveInformationItem);
    }

刷数据两张依赖表生命周期不一样

一张表的生命周期为一年，另一张表生命周期只有3天。

如果要找特别早的历史分区的数据，可以都使用最新的分区，使用创建时间定为早期的历史数据-如果全量表的历史分区只增不减，而且状态、时间之类的数据不会跨分区变动的话才可以这么做。

查表出错

有些全量表上实际上上全天增量表，查询的时候需要按天查询当天数据。
有时候ai生成的 json 提取算法会带有 lower 查询条件，会导致这种提取算法对某些字符串比对查询条件失效，很难处理出来。

es 和 open search 不是所有字段都能查出来

有些字段不能直接用 >= 拼接查询语句，最好用api
不是所有字段都有倒排索引，所以不是所有字段都可以拿来查询。

查询 redis 出错

各种 add、sadd api 实际上只返回操作成功的元素数量，而不是当前集合的元素数量。
当前集合的元素数量来自于 scard。
在 redis 操作的习惯里，出现异常也是靠返回0值之类的值来表达操作失败，这就意味着吞掉异常。吞掉异常以后，外部一定要学会判0，如果忘记判0，则有先后顺序的操作没有阻断：有些操作要求前一个失败不执行后一个，忘记判0意味着后一个可能成功，造成另一种不一致。如：sadd 返回1意味着增加成功一个元素，返回0意味着元素已存在于集合里，抛出异常可以捕获，包装成-1。在外部判断的时候可以认为-1才是失败，0算是一种幂等。
对redis而言，很多操作都是用幂等代替失败的，操作数代替成功或者失败的设计都要注意0值。

增量双写忘记迁移存量数据

存量设计同时写 kv + k set。
想要改成单写 k set。
新方案要先上双读新写：旧版本读 kv 来确定号码是不是1，新版本读号码是不是在 k set 里，双读先读 set 再读 k v，新版本只写 k set-这样老数据源不再有新增数据，便于下一步迁移。
然后把 kv 的数据尽量全部迁移进 k set 来。
然后把双读改成单写单读：只写 k set，只读 k set。