--- name: 文档解析技能 description: 解析文档(.docx, .pdf)以提取图像和文本结构,并使用视觉大语言模型分析每个图像的类型和描述。 --- # 文档解析技能 ## 概述 此技能从文档(.docx, .pdf)中提取内容并准备进行进一步分析。它提取文本内容和嵌入图像,并对图像执行初始分析以了解其类型和内容。 ## 功能 该技能: - 从文档中提取文本结构(段落、表格、标题) - 识别并提取嵌入的图像 - 使用视觉大语言模型分析每个图像并确定其类型和内容描述 - 生成结构化输出,将图像映射到其在文档中的位置 - 创建文档的初始解析表示,供后续处理阶段使用 ## 输入要求 - 文档文件路径(必需,支持.docx和.pdf格式) - 可选输出目录(默认为'output/') - 可选试运行标志,在不调用API的情况下预览大语言模型提示 ## 输出 该技能生成一个结构化JSON文件,文件名为输入文档的基本名称后跟'_parsed.json',包含: - `sections`:按标题分组的文档文本结构 - `image_sources`:从图像标识符到其在文档中位置的映射 - `image_analysis`:由视觉大语言模型确定的每个图像的类型、内容描述和(如适用)结构化逻辑树 - `type`: 图片类型(flowchart/architecture/state/sequence/activity/other) - `description`: 图片的文字描述 - `logic_tree`(可选,仅图表类型):结构化逻辑树JSON,包含 `root`(根节点描述)和 `nodes` 数组。节点类型:`decision`(判断)、`action`(动作)、`state`(状态)、`start`(开始)、`end`(结束)。decision 节点包含 `condition` 和 `branches` 字段,其他节点包含 `description` 字段。 ## 集成点 此技能作为文档分析管道中的初始处理步骤。其输出被冲突检测技能消费以识别文本和视觉内容之间的差异。