Measure Zero


  • About

  • Quotes

  • Notes

  • Sitemap

  • Search

读论文 - EnterpriseRAG-Bench

2026-06-04 | ~ | LLM

之前遇到过类似场景, 看看人家怎么做的. 下面是 codex GPT-5.4 high 写的.

仓库:

  • onyx-dot-app/EnterpriseRAG-Bench

论文:

  • EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge
Read more »

读 Codex 源码 - memory 机制

2026-06-04 | ~ | LLM

Written by Codex with GPT-5.4 high

这版 Codex 的 memory, 如果只看 high level, 可以理解成一句话:

它不是“边聊边顺手记一些长期记忆”, 而是“先把旧会话离线蒸馏成 memory 仓库, 再在新会话里按需检索这个仓库”.

这点和 Claude Code 那种“session memory / auto memory”观感不太一样.

Codex 这套东西, 我会拆成 4 个关键词:

  • 读: 当前对话开始时, 把一个很短的 memory_summary.md 注入 prompt, 让模型知道该去哪里找旧经验
  • 召回: 真需要时, 先查 MEMORY.md, 再按需深入 skills/ 和 rollout_summaries/
  • 写: 后台异步跑两阶段 pipeline, 从历史 rollout 提炼 raw_memory, 再 consolidate 成正式 memory
  • 遗忘/降权: 通过 usage、diff、polluted 标记, 把不可靠或过时的记忆慢慢挤出去

所以它更像一个小型知识蒸馏系统, 而不是单纯的“长期笔记本”.

Read more »

【机翻】语音智能体中的记忆问题比你想象的更难

2026-05-18 | ~ | LLM
  • Memory in Voice Agents Is a Harder Problem Than You Think
Read more »

【机翻】语音智能体基础 101:能够与人对答的 AI 背后的架构

2026-05-18 | ~ | LLM
  • Voice Agents 101: The Architecture Behind AI That Talks Back
Read more »

【机翻】大多数 AI 产品不应该推出记忆功能

2026-05-17 | ~ | LLM

读下来感觉尬吹 Hermes. 其实作者讲的 memory 的点 Claude Code 早就做到了. 作者对 CC memory 的逆向工程是去年做的, 不是基于泄露的代码.

关于 AI 产品是否需要推出记忆功能的决策点可以参考.

  • Reverse Engineering ChatGPT, Claude, OpenClaw, and Hermes Convinced Me Most AI Products Shouldn’t Ship Memory
Read more »

读 Claude Code 源码 - 若干小功能 (recap, suggestion, insights)

2026-05-17 | ~ | LLM

小功能 away recap, prompt suggestion, insights.

Read more »

去年遇到的一个正则的坑

2026-05-03 | ~ | Tech

去年排查过一个性能问题. 一个包含很多正则替换的函数, 在处理几十万字符长度的文本时, 跑了 10 秒才完成. 最后定位到问题正则形式如下:

\s*xyz blahblah

几年前排查过 灾难性回溯 问题, 但这个正则的结构其实完全没有相关特征. 如果真的是灾难性回溯, 处理几十万字符的字符串早就卡死了, 而不是只跑 10 秒.

最后解决方案是先用

xyz blahblah

找 match, 再处理 leading spaces. 时延是毫秒内.

Read more »

如何评估 skill

2026-05-01 | ~ | LLM
Read more »

Langchain 团队如何评估与优化 agent harness

2026-04-28 | ~ | LLM
Read more »

Harness Cheatsheet

2026-04-13 | ~ | LLM

源于一个比喻, 模型是 horse, 人是 rider, 中间那层是 harness. 从字面来看 harness 是指为确保模型按预期行为运行而构建的约束框架与支撑体系. 至少可以从两个角度理解.

  • 产品侧: Agent 产品 (如 Claude Code) 自己做的 harness (Anthropic 在 Scaling Managed Agents 进一步把有关大模型决策的部分称为 harness, 而 session, tools, sandbox 等独立为其他模块).
  • 用户侧: 开发者使用 coding agent 时为了保证复杂项目受控做的脚手架 (比如 SDD, ralph loop 等).

随着模型能力变化, harness 也需要改变, 如 Harness design for long-running application development.

Read more »
1 2 … 19
Shiina

Shiina

知乎 豆瓣 bangumi Instagram Weibo
Creative Commons
RSS
© 2019 - 2026   Shiina   CC BY-NC-ND 4.0
RSS  
Powered by Jekyll
 
Theme NexT.Mist