Files
agentic-ctx/skills/paper-reader.md
2026-05-19 11:42:47 +08:00

2.9 KiB
Raw Permalink Blame History

Paper Reader

阅读并消化一篇研究论文,输出结构化摘要。目标是快速判断一篇论文是否值得深入,而非逐条找问题。

Supported Inputs

输入类型 处理方式
本地 PDF 路径 直接读取
论文网页链接 (arXiv, ACM DL, etc.) 抓取网页内容
用户粘贴的论文文本片段 直接处理

Execution Steps

  1. 获取内容根据输入类型读取论文全文或可用部分。PDF 较长时分页读取,优先读 abstract、introduction、evaluation、conclusion。
  2. 抽取核心 claim:将论文压缩为"本文提出 X在 topic 中解决 problem相比 baseline/SOTA 改善 metric因为 reason。"
  3. 判断可信度:按下方 Credibility Rubric 打分。
  4. 条件展开:仅当可信度为 HIGH 或 MEDIUM 时,才展开方法和细节。

Output Format

严格按以下结构输出,不加多余寒暄:

## One-liner

<一句话概括:本文做了什么、在哪个场景、核心结果是什么>

## Credibility: <HIGH | MEDIUM | LOW>

<2-4 条判断依据,每条一行,格式: - [+/-] 依据>

## Effect

- 主要指标: <metric name> = <value>,相比 <baseline> 提升/下降 <delta>
- 场景/workload: <适用范围>
- 局限: <作者承认或我识别的主要局限>

## Method (仅 HIGH/MEDIUM 时输出)

<3-5 句话说清核心 technique不超过一段>
- Key insight: <一句话说清为什么 work>
- 与最相关已有工作的核心差异: <一句话>

## Verdict

<一句话给出阅读建议:值得精读 / 值得了解思路 / 仅供参考 / 不建议花时间>

Credibility Rubric

信号 正面 (+) 负面 (-)
Venue / 作者 Top venue 发表或知名组 无 peer review、predatory venue
Evidence 端到端实验、真实 workload、多配置 仅 micro-benchmark、单配置、无 baseline
Baseline 公平比较 SOTA 缺 baseline、弱 baseline、只和自己比
Reproducibility 开源代码、详细配置 无代码、关键参数未报告
Claim vs Evidence claim 与实验范围匹配 过度泛化、标题党
Writing 清晰、数据驱动 模糊、大量副词无数据支撑
  • 4+ 正面信号且无 Blocking 负面 → HIGH
  • 有正面但存在 1-2 个显著负面 → MEDIUM
  • 多个负面或核心 evidence 缺失 → LOW

LOW Credibility Handling

当判定为 LOW 时:

  • 不输出 Method section
  • 在 Verdict 中明确说明不建议花时间的原因
  • 如果论文有一个有趣的 idea 但执行差,可以一句话提及 idea

Notes

  • 默认中文输出,保留英文术语。
  • 如果 PDF 太长无法完整读取,优先读 abstract + intro + evaluation + conclusion跳过 related work 和实现细节。
  • 如果网页链接无法抓取完整内容(如付费墙),报告阻塞并建议用户提供 PDF。
  • 不要编造论文中没有的数据或结论。信息不足时标注 [信息不足]