Files
pzhang_zywl 40567a4fb6
CI / test (push) Successful in 30s
Initial commit: document_analyzer with CI/CD pipeline
- 4 skill pipeline (doc_parser, conflict_detection, ir_generation, resolution_application)
- CI workflow on push/PR (.gitea/workflows/ci.yml)
- Auto-issue on CI failure (.gitea/workflows/auto-issue.yml)
- Pytest smoke tests (tests/test_sample.py)

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-29 20:00:26 +08:00

1.7 KiB

name, description
name description
IR生成技能 从处理后的文档生成结构化的JSON中间表示,合并冲突解决方案并维护源可追溯性。

IR生成技能

概述

此技能从处理后的文档创建结构化的JSON中间表示(IR)。它在章节级别工作以提供全局上下文,合并冲突解决方案,并维护所有生成内容的源可追溯性。

功能

该技能:

  • 在章节级别而非小块级别处理文档
  • 在生成过程中合并冲突解决方案
  • 生成文档内容的结构化JSON表示
  • 维护包含章节和位置信息的源可追溯性
  • 通过智能拆分大型章节同时保留冲突上下文来处理大型章节
  • 确保处理过程中保持全局上下文

输入要求

  • 更新文档JSON文件的路径(包含应用的解决方案)
  • 可选输出目录规范
  • 可选试运行标志,在不调用API的情况下预览大语言模型提示

输出

该技能生成一个结构化JSON文件,文件名为输入文档的基本名称后跟'_ir.json',包含:

  • 文档内容的结构化表示
  • 源跟踪信息(章节和位置)
  • 转换字段中的清理和解析的JSON数据
  • 适合下游处理的格式正确的中间表示

处理详情

  • 每个完整章节(文本+图像)一起发送给大语言模型以获得全局上下文
  • 解决的冲突更正注入到提示中,因此大语言模型使用校正后的值
  • 超过约3000个标记的章节会智能拆分,同时在每个块中保留冲突上下文
  • 每个IR条目包括source.section + source.location以实现可追溯性
  • 处理后的内容以JSON格式结构化,便于机器读取

集成点

此技能消耗解决方案应用技能的输出并为文档分析管道生成最终结构化输出。