initial commit

This commit is contained in:
2026-05-13 21:36:34 +08:00
commit af6ba2aa16
11 changed files with 1113 additions and 0 deletions

103
workflows/experiment.md Normal file
View File

@@ -0,0 +1,103 @@
# Experiment Workflow
用于系统实验的设计、执行、分析和审计。目标是让每个性能 claim 都能回到 workload、baseline、metric、平台、统计和原始 artifact。
## Inputs
- claim要证明什么。
- system boundary评测的是哪个系统、组件、接口或 workload。
- artifact实验计划、脚本、日志、CSV、图表或论文段落。
- stage`design / run / analyze / audit`
## Stage: Design
调用:
- `skills/benchmark-crime-auditor.md`
- mode: `experiment-design-review`
必须产出:
- headline claim。
- workload matrix。
- baseline matrix。
- metric definitions。
- platform specification template。
- run protocol。
- expected failure or degradation cases。
设计检查:
- 每个 claim 至少有一个直接 metric。
- 每个 headline claim 有公平 baseline。
- 每个优化机制有一个 ablation。
- 每个关键 assumption 有一个 sensitivity test。
- 至少包含一个机制上可能输的场景。
## Stage: Run
必须记录:
- git commit / binary hash。
- command line。
- config。
- machine fingerprint。
- OS/kernel/compiler/runtime versions。
- timestamp。
- raw output path。
运行纪律:
- warmup 和 measured runs 分开。
- 多次重复并记录 trial id。
- 正向/反向或随机化运行顺序。
- 数据校验。
- 资源利用率与端到端结果一起记录。
## Stage: Analyze
必须计算:
- 绝对数。
- 相对数。
- 方差或置信区间。
- 几何平均,如果聚合 normalized scores。
- per-unit resource cost例如 cycles/op、ms/request、J/op、bytes/request。
分析检查:
- 不用 throughput degradation 直接代表 overhead。
- 不只看平均值;检查 tail。
- 不只展示 winning workload。
- 每张图都能回答一个具体问题。
## Stage: Audit
调用:
- `skills/benchmark-crime-auditor.md`
- mode: `pre-submission``claim-spot-check`
输出:
- audit table。
- blocking crimes。
- required reruns。
- claim rewrite suggestions。
## Minimal Experiment Record
```yaml
claim:
system:
baseline:
workload:
metric:
platform:
commands:
raw_data:
analysis_script:
figure:
statistics:
known_limits:
```

105
workflows/paper.md Normal file
View File

@@ -0,0 +1,105 @@
# Paper Workflow
用于从 idea、实验、写作到 rebuttal 的系统论文工作流。每一步只调用必要 skill不做 all-in-one review。
## Inputs
- 当前 artifactidea note、outline、draft、section、figures、review comments。
- 目标阶段:`idea / outline / experiment-ready / writing / pre-submission / rebuttal`
- 目标 venue 或读者。
## Stage Routing
### 1. Idea / Outline
目标:判断是否值得做。
使用:
- `skills/research-paper-reviewer.md`
- purpose: `thesis-clarity + problem-importance + novelty + simplicity`
输出:
- 一句话 thesis。
- problem 是否真实且重要。
- novelty 风险。
- 最小可行实验。
- 是否继续推进:`Proceed / Narrow / Stop`
### 2. Experiment Ready
目标:跑实验前避免 benchmark crime。
使用:
- `skills/benchmark-crime-auditor.md`
- mode: `experiment-design-review`
输出:
- headline claims。
- baseline/workload/metric/platform/statistics plan。
- blocking risks。
- 必跑实验清单。
### 3. Writing
目标:让论文论证链完整。
使用:
- `skills/research-paper-reviewer.md`
- purpose: `derivation-and-evidence + writing-kaashoek-style`
如果在写 evaluation
- 同时使用 `skills/evaluation-narrative-reviewer.md`
输出:
- 每节职责。
- 缺失 evidence。
- 可直接替换的段落或标题。
### 4. Pre-Submission
目标:提交前最后一道闸。
使用顺序:
1. `skills/research-paper-reviewer.md` with `thesis-clarity + problem-importance + novelty`
2. `skills/benchmark-crime-auditor.md` with `pre-submission`
3. `skills/evaluation-narrative-reviewer.md`
4. `skills/academic-figure-reviewer.md`
5. `skills/research-paper-reviewer.md` with `typos-and-references`
输出:
- Blocking/Major/Minor issue list。
- must-fix before submission。
- can-fix after acceptance。
- final recommendation`Submit / Revise / Do Not Submit`
### 5. Rebuttal
目标:把 reviewer concern 映射到 claim/evidence 修改。
流程:
1. 按 reviewer 分组 issue。
2. 标注 issue 类型problem, novelty, evidence, benchmark, writing, misunderstanding。
3. 对 benchmark/evaluation concern 先跑对应 skill。
4. 对每条 concern 输出agree / clarify / new evidence / scope reduction。
输出:
- rebuttal skeleton。
- 需要补实验的清单。
- 需要改正文的清单。
## Output Discipline
- 不把所有问题一次性泛泛列出;按阶段只解决当前阶段问题。
- 每条建议必须 callback 到 artifact 位置。
- 对 pre-submission先列 Blocking再列 Major最后 Minor。

50
workflows/weekly.md Normal file
View File

@@ -0,0 +1,50 @@
# Weekly Research Workflow
用于维护研究推进,而不是写流水账。目标是把本周工作映射到 claim、artifact、风险和下一步实验。
## Inputs
- 本周完成的 artifact代码、实验、图、文档、阅读笔记、讨论结论。
- 当前 paper/project goal。
- 上周计划。
## Weekly Report Shape
```md
# Weekly Report
## Goal
## Progress
| Item | Artifact | Claim/Goal Supported | Evidence |
|---|---|---|---|
## Findings
## Blockers
## Next Week
## Decisions Needed
```
## Review Questions
- 本周产出是否有 artifact而不只是“研究了/看了/调了”。
- artifact 是否支持当前 paper/project 的核心 claim。
- 是否有新的 negative result 或边界条件。
- 是否暴露 benchmark、baseline、metric 或 implementation 风险。
- 下周任务是否能在 1-3 天内产生可检查结果。
## Output
- `On Track / At Risk / Blocked`
- Blocking/Major/Minor issue list。
- 下周 3 个以内的具体动作。
## Rules
- 不把周报写成活动列表。
- 不把“继续优化/继续实验/继续阅读”作为下一步;必须写对象、命令或 artifact。
- 发现方向不对时,优先缩小问题,而不是增加任务数量。