到底什么是多模态模型
一句话定义 多模态模型,就是能同时理解和处理多种类型信息(文字、图片、声音、视频等)的 AI 模型。 什么是"模态" 模态(Modality)指信息的存在形式: 模态 例子 文本 文章、对话、代码 图像 照片、截图、图表 音频 语音、音乐、环境声 视频 短视频、监控画面 数据 表格、传感器数据 单模态与多模态的区别 单模态模型只处理一种信息形式,多模态模型则能同时处理多种。 单模态的典型代表: 只看文字的 GPT-3 只看图片的早期图像识别模型 多模态的典型代表: 图片 + 文字:GPT-4V、Claude 3 文字 + 语音:GPT-4o 图片 + 视频 + 文字 + 语音:Gemini Ultra 三种核心能力 跨模态理解 输入一张菜单图片,问"这顿饭大概花多少钱"——模型需要同时完成读图、理解文字、做计算三件事。 跨模态生成 输入一段文字描述,输出对应的图片。DALL-E 和 Stable Diffusion 属于这一类。 跨模态转换 不同模态之间的翻译: 语音 → 文字(语音识别) 文字...
中美两国实际社会总债务是多少
先给结论 如果把“社会总债务”定义为国际上最常用于跨国比较的口径,也就是 非金融部门总债务,中美两国的数字大致是: 国家 主口径 最新时点 债务总量 占 GDP 中国 BIS 非金融部门总信用 2025 Q3 约 57.6 万亿美元,按 2025 年中国 GDP 折算约 414 万亿元人民币 295.6% 美国 BIS 非金融部门总信用 2025 Q3 约 76.0 万亿美元 250.1% 美国 美联储 Z.1 国内非金融部门债务 2025 Q4 80.7 万亿美元 约 260% 左右 这个答案有两个容易误读的地方。 第一,中国不是“债务远低于美国”。按非金融部门债务占 GDP 的口径,中国已经高于美国。第二,美国不是只有联邦政府那三十多万亿美元国债。居民、非金融企业、州和地方政府债务加总以后,美国非金融部门债务在 75—81 万亿美元这个量级。 如果要问“实际”二字,难点主要在中国。中国的地方政府融资平台、隐性债务、城投债到底应归入政府还是企业,国际数据库和财政风险分析会给出不同答案。比较稳妥的说法是: 按国际可比窄口径,中国非金融部门总债务约为 ...
OpenCode 自研 SDD 流程注入方案
生成时间:2026-05-07 目标:在不改 sandbox 镜像、不动 某企业级 Agent 框架 存量 system prompt 的前提下,把自研 SDD 流程(自研 SDD 流程 / 自研 SDD 流程)稳定塞进 OpenCode,让它在每个项目里都能可复现地盖过默认 openspec-* 流程。 适用读者:希望在某 sandbox 平台 内做 agent 行为定制的开发者 综合来源:3 份前置探索文档(配置体系探索之旅 / Sandbox 配置全解 v4 / 需求澄清流程控制实验) 0. TL;DR 自研 SDD 被默认 openspec-* 盖掉,根因不是权限不够,是 LLM API 协议层的字段归属之争。要稳定不被盖掉,得把自研流程的优先级声明放到 API 顶层 system 字段里,再加上多层兜底。 最小可行方案,按优先级从上到下: 优先级 改动 协议层位置 投入 跨项目生效 抗 sandbox 重建 P0 编辑 ~/.config/opencode/AGENTS.md 顶部加「流程优先级声明」 system 顶层字段 5 分钟 ✅ ❌(需 P...
超成本 / 不起量 / 炸量:广告投放线上异常问题全景
从一个根本矛盾说起 广告投放线上排查最常遇到的两大主诉是超成本和不起量,其余几乎所有"异常"——炸量、空耗、爆量、成本飘移、学习期失败、跑偏人群、素材疲劳、赔付不触发、一键起量反噬——都可以还原为同一个矛盾:广告主设置的出价与目标,和系统依据 eCPM 排序后实际选中的流量,出现了不可接受的偏差。 这份偏差的来源在 OCPX 系统里只有三条: 预估模型偏差:pCTR、pCVR 给出的不是真实概率,而是预估概率,带有固有误差 竞价排序偏差:同一广告位上,系统依据 eCPM = pCTR × pCVR × bid × 1000 排序挑选广告,任何一项输入失真都会让选中的流量向低质或高成本方向漂移 结算与归因偏差:扣费口径、转化回传、归因窗口、赔付阈值之间的任何错位,都会让广告主"账面看到的数据"和"系统里发生的事"对不上 上一篇《CPX / OCPX / eCPM:广告计费家族的演进版图》讲的是这套机制正常工作时怎么在广告主、媒体、系统三方之间分配风险。本篇的对象是反面:这套机制出问题时,会以哪些名字、哪些症状出现在工单...
短事务与高并发缓存初始化
高并发系统里最容易踩的坑之一,是在缓存初始化这条路径上为了"正确"而铺了一条会把整个服务排队卡死的路。正确性依赖事务,但事务如果选错了粒度和语义,就会把本应"偶发、短促"的初始化代价,传染给每一次取数调用。 下文以一个真实的序列号发号服务(odd/even 双主 + epoch 换届)为案例,梳理"高并发缓存初始化用短事务避免排队"这条设计模式,并把同一套系统里配套的几条高性能模式一并列出。 案例背景:发号服务的 epoch 缓存 系统结构简单地说是四层:allocator(号段分配)→ codec(编码)→ parser(解析)→ placement(下游落库定位)。发号主链路长这样: 12345allocate(seqKey, count) └─ ensureActiveEpoch(seqKey, days) // 读最新 ACTIVE epoch,若无则懒初始化 └─ (缺失时) EpochManager.rotateEpoch // 换届事务:多语句长事务,100~500ms └─ pi...
CPX / OCPX / eCPM:广告计费家族的全景图与演进版图
全景金字塔 广告行业所有 CP* 和 oCP* 术语摆在一起,只做一件事:回答「广告主每一块钱应该在什么触发条件下花出去」这一个问题。不同缩写对应不同的触发条件(展示、点击、注册、下单、安装、停留),触发条件越靠近真实交易,媒体承担的风险越大、单价越高。前缀 o-(Optimized)是在原有计费条款之上套一层由机器学习驱动的智能出价,让系统替广告主去挑"最可能转化"的流量。而 eCPM 既不是计费方式,也不是出价方式,它是在广告系统排序那一刻,把所有出价方式折算回同一个量纲(每千次曝光的期望收入)的通用货币。公式 eCPM = pCTR × pCVR × bid × 1000 是今天所有主流广告拍卖的共同底层。 这一家族要解决的根本矛盾只有一个:广告主想按真实效果付费以锁定 ROI,媒体想按可控的曝光供给收费以锁定收入,两边都不愿意单独承担数据噪声、作弊和归因延迟带来的不确定性。广告计费从 1990 年代的 GD 合约一路演进到今天的 OCPX 自动出价,本质是在一次又一次地重新分配这份不确定性:谁承担风险、谁掌握数据、谁负责校准、谁来兜底。 本文做三件事。...
如何写好 AGENTS.md
引子:AGENTS.md 是什么 在仓库根目录放一个 Markdown 文件,告诉 AI Coding Agent 这个项目是什么、怎么构建、有哪些规矩。这个做法现在有了一个事实标准的名字——AGENTS.md。 它的角色是:README.md 给人类读者看,AGENTS.md 给 AI 读者看。前者聚焦快速开始与贡献指南,后者聚焦构建命令、编码约束、验证闭环、踩坑清单,覆盖任何会影响 Agent 产出正确性的上下文。 这个概念最初由 Anthropic 的 Claude Code 以 CLAUDE.md 形式普及。随后各家工具一度各走各路:Cursor 用 .cursorrules,Copilot 用 .github/copilot-instructions.md,Gemini CLI 用 GEMINI.md,Cline 用 .clinerules,Sourcegraph AMP 提议 AGENT.md(单数),OpenAI Codex 提议 AGENTS.md(复数)。最终以 OpenAI 的 AGENTS.md 胜出——AMP 主动把 agent.md 域名重定向到 age...
欧尔班败选与世界大国态度
背景 2026年4月12日,匈牙利总理欧尔班在议会选举中败给了反对党Tisza党领袖Péter Magyar,结束了自2010年以来长达16年的执政。Magyar在新一届国会199席中斩获约135-138席,欧尔班当天承认败选。 这场选举超出了匈牙利一国的范畴。欧尔班长期以欧盟内部的"异类"自居,在移民、对俄制裁、对华关系、民主制度等议题上与布鲁塞尔屡屡冲突,同时与特朗普、内塔尼亚胡等全球右翼领导人建立了紧密个人纽带。他的下台,搅动了多方势力的神经,各方反应构成了观察当前国际格局的一面棱镜。 特朗普:从高调背书到冷淡切割 特朗普是欧尔班选前最重量级的外部背书人,整个背书行动分为四波推进: 2026年2月5-6日,特朗普首次在社交媒体上为欧尔班站台,称其为"真正强大有力的领导者(a truly strong and powerful Leader)"。3月23-24日,他在布达佩斯CPAC会议上发表视频讲话,当众确认背书。3月24日,又在Truth Social发表正式声明: “Election Day is Sunday, April ...
Hermes 方案深度研究:一种面向长程自主智能体的编排与 Harness 架构
2026 年 2 月 25 日,Nous Research 在 GitHub 上开源了 NousResearch/hermes-agent,MIT 协议,定位是「a self-improving AI agent」。两个月后,仓库从不到 5,000 stars 一路推到 126k 左右,增速超过了过去两年多数开源 agent 项目;v0.11.0(2026-04-23)的发布说明在一个版本跨度里塞进了 1,556 commits、761 个 merged PR、29 位核心贡献者 [NousResearch/hermes-agent GitHub Releases]。在这个开源 agent 工具普遍把热度变现为 SaaS 的阶段,Hermes 选择了一条反向道路:把自己设计成一个运行在用户自己服务器上的长期驻留 agent,它的核心卖点不是对话质量,而是在时间维度上持续积累能力——从每次任务里蒸馏出 skill,自己维护记忆,跨平台、跨会话保持同一个"自己"。 与此同时,Anthropic 在 2024 年 12 月至 2026 年 3 月之间陆续发布了四篇 ...
当任务里藏着一个巨大的搜索子问题——RLMs、LLM Wiki、RAG 的降本提精路线图
很多看起来是「推理任务」的 LLM 工作,其实骨子里是搜索任务。问一份 10M token 的代码库里某个 bug 何时引入,问一份万字 PDF 的第 17 页和第 184 页的数字是否一致,问一段"最近三个月里所有和 Symphony 架构有关的 commit 和 blog"——这些题目的共同点是,答案必须从一个远超模型上下文窗口的语料里找出来,推理只是最后一公里,前面 99% 的距离是检索。 这篇文章围绕一个具体问题展开:当任务里藏着一个巨大的搜索子问题,当前 LLM 社区在「降低搜索成本」和「提高搜索精度」两条线上各自走到了哪一步? 选取三个互相咬合的锚点:递归语言模型(Recursive Language Models, RLMs)、LLM Wiki 范式、以及 RAG 家族自身在 2024–2026 年的演进。三者并列,不是因为它们属于同一层,而是因为它们从三个不同的抽象层次攻击同一个搜索成本问题。 一张图先把坐标系摆好 一个 LLM 应用要处理超出单次上下文窗口的知识,历史上只有四条路: 参数化记忆:把知识预训练或微调进模型权重里。代价是更新贵、...










