40567a4fb6
CI / test (push) Successful in 30s
- 4 skill pipeline (doc_parser, conflict_detection, ir_generation, resolution_application) - CI workflow on push/PR (.gitea/workflows/ci.yml) - Auto-issue on CI failure (.gitea/workflows/auto-issue.yml) - Pytest smoke tests (tests/test_sample.py) Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
36 lines
1.4 KiB
Markdown
36 lines
1.4 KiB
Markdown
---
|
||
name: 文档解析技能
|
||
description: 解析文档(.docx, .pdf)以提取图像和文本结构,并使用视觉大语言模型分析每个图像的类型和描述。
|
||
---
|
||
|
||
# 文档解析技能
|
||
|
||
## 概述
|
||
|
||
此技能从文档(.docx, .pdf)中提取内容并准备进行进一步分析。它提取文本内容和嵌入图像,并对图像执行初始分析以了解其类型和内容。
|
||
|
||
## 功能
|
||
|
||
该技能:
|
||
- 从文档中提取文本结构(段落、表格、标题)
|
||
- 识别并提取嵌入的图像
|
||
- 使用视觉大语言模型分析每个图像并确定其类型和内容描述
|
||
- 生成结构化输出,将图像映射到其在文档中的位置
|
||
- 创建文档的初始解析表示,供后续处理阶段使用
|
||
|
||
## 输入要求
|
||
|
||
- 文档文件路径(必需,支持.docx和.pdf格式)
|
||
- 可选输出目录(默认为'output/')
|
||
- 可选试运行标志,在不调用API的情况下预览大语言模型提示
|
||
|
||
## 输出
|
||
|
||
该技能生成一个结构化JSON文件,文件名为输入文档的基本名称后跟'_parsed.json',包含:
|
||
- `sections`:按标题分组的文档文本结构
|
||
- `image_sources`:从图像标识符到其在文档中位置的映射
|
||
- `image_analysis`:由视觉大语言模型确定的每个图像的类型和内容描述
|
||
|
||
## 集成点
|
||
|
||
此技能作为文档分析管道中的初始处理步骤。其输出被冲突检测技能消费以识别文本和视觉内容之间的差异。 |