Initial commit: document_analyzer with CI/CD pipeline

- 4 skill pipeline (doc_parser, conflict_detection, ir_generation, resolution_application) - CI workflow on push/PR (.gitea/workflows/ci.yml) - Auto-issue on CI failure (.gitea/workflows/auto-issue.yml) - Pytest smoke tests (tests/test_sample.py) Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-29 20:00:26 +08:00
commit 40567a4fb6
22 changed files with 2898 additions and 0 deletions
@@ -0,0 +1,36 @@
+---
+name: 文档解析技能
+description: 解析文档（.docx, .pdf）以提取图像和文本结构，并使用视觉大语言模型分析每个图像的类型和描述。
+---
+
+# 文档解析技能
+
+## 概述
+
+此技能从文档（.docx, .pdf）中提取内容并准备进行进一步分析。它提取文本内容和嵌入图像，并对图像执行初始分析以了解其类型和内容。
+
+## 功能
+
+该技能：
+- 从文档中提取文本结构（段落、表格、标题）
+- 识别并提取嵌入的图像
+- 使用视觉大语言模型分析每个图像并确定其类型和内容描述
+- 生成结构化输出，将图像映射到其在文档中的位置
+- 创建文档的初始解析表示，供后续处理阶段使用
+
+## 输入要求
+
+- 文档文件路径（必需，支持.docx和.pdf格式）
+- 可选输出目录（默认为'output/'）
+- 可选试运行标志，在不调用API的情况下预览大语言模型提示
+
+## 输出
+
+该技能生成一个结构化JSON文件，文件名为输入文档的基本名称后跟'_parsed.json'，包含：
+- `sections`：按标题分组的文档文本结构
+- `image_sources`：从图像标识符到其在文档中位置的映射
+- `image_analysis`：由视觉大语言模型确定的每个图像的类型和内容描述
+
+## 集成点
+
+此技能作为文档分析管道中的初始处理步骤。其输出被冲突检测技能消费以识别文本和视觉内容之间的差异。