全部 Skills

下载 87 更新 2026-06-18 查看详情 →

将PDF（研究论文、报告或任何文档）转换为精美的多幻灯片HTML演示文稿，附带结构化的大纲JSON和摘要markdown。当用户提到从PDF制作幻灯片或PPT时触发此技能——中文或英文均可。

glmv-grounding

下载 80 更新 2026-06-18 查看详情 →

一项使用 GLM-V 原生定位能力进行坐标转换、边界框可视化等操作的技能。GLM-V 原生定位能够根据提示在图像中定位任意指定目标，并输出基于图像尺寸归一化至 0-1000 的相对坐标。坐标格式包括二维边界框（默认）、二维点和三维边界框。GLM-V 还支持对视频中多个提示指定目标进行时空定位与跟踪，每秒输出二维边界框。

glm-master-skill

下载 80 更新 2026-06-18 查看详情 →

仅限文档的GLM生态系统发现与安装主技能。此项技能不执行脚本或子进程命令。它提供了官方GLM技能的精选列表、安装方法和源链接。

glmv-pdf-to-web

下载 71 更新 2026-06-18 查看详情 →

将PDF（研究论文、技术报告或项目文档）转换为一个美观的单页学术/项目网站，并附带结构化的JSON大纲。当用户想要从PDF制作论文页面、项目主页或学术网站时（中文或英文），触发此技能。

glmv-doc-based-writing

其他官方认证

根据给定的文档和要求，使用智谱GLM-V多模态模型撰写文本内容。阅读并理解一个或多个文档（PDF/DOCX），按照指定的要求以Markdown格式撰写内容。适用于用户需要起草论文/文章/随笔/报告/评论/帖子/简报/提案/计划等场景。

下载 70 更新 2026-06-18 查看详情 →

glmocr

下载 70 更新 2026-06-18 查看详情 →

使用 GLM-OCR API 从图片中提取文本。支持图片和 PDF 文件，具备高精度 OCR、表格识别、公式提取和手写识别功能。当用户需要从图片中提取文本、对图片执行 OCR、扫描文档、将图片转换为文本，或处理任何图像文件以获取其文字内容时，请使用此技能。

glmocr-handwriting

下载 70 更新 2026-06-18 查看详情 →

使用智谱GLM-OCR API识别图像中手写文字的官方技能。支持多种手写风格、语言以及手写/印刷混合内容。当用户想要读取手写笔记、将手写内容转换为文本或对手写文档进行OCR时，请使用此技能。

glmv-prompt-gen

其他官方认证

分析图像/视频，并为文本到图像和文本到视频AI工具（Midjourney、Stable Diffusion、DALL-E、Sora、Runway、Kling、Pika）生成专业提示词。适用于用户想要从参考图像/视频生成提示词、创建AI艺术提示词或从视觉内容获取提示工程建议的场景。

下载 69 更新 2026-06-18 查看详情 →

glmocr-table

下载 69 更新 2026-06-18 查看详情 →

使用智谱GLM-OCR API从图像和PDF中识别并提取表格为Markdown格式的官方技能。支持复杂表格、合并单元格和多页文档。当用户想要提取表格、识别电子表格或将表格图像转换为可编辑格式时使用此技能。

glmocr-formula

下载 68 更新 2026-06-18 查看详情 →

使用智谱GLM-OCR API从图像和PDF中识别并提取数学公式为LaTeX格式的官方技能。支持复杂方程、内联公式和公式块。当用户想要提取公式、将公式图像转换为LaTeX或OCR数学表达式时使用此技能。

glmv-caption

其他官方认证

使用智谱GLM-V多模态模型系列为图片、视频和文档生成描述（标题）。当用户需要描述、总结或解读图片、视频或文件内容时，使用此技能。支持单个/多个输入、URL、本地路径和base64（仅限图片）。

下载 66 更新 2026-06-18 查看详情 →

glmv-resume-screen

使用智谱GLM-V多模态模型对简历进行筛选和评估。读取多个简历文件（PDF/DOCX/TXT），与用户定义的筛选标准进行比较，并输出包含通过/未通过分析的Markdown表格。当用户需要筛选简历、比较候选人，或批量评估工作申请时使用。

glmv-prd-to-app

Build a complete, production-ready full-stack web application from PRD documents, prototype images, and resource files. Handles the entire pipeline: system design, database schema, seed data, backend API, frontend UI, visual verification against prototypes, and deployment script generation. Use this skill whenever the user: - Provides a PRD (product requirement document) and wants a working app built - Says things like "根据PRD开发", "build from PRD", "implement this product", "把需求文档做成应用", "develop this app from requirements" - Has prototype images + requirements and wants full-stack implementation - Wants to turn product specifications into a running web application - Mentions building an app from wireframes/mockups combined with a requirements doc Trigger this skill even if the user just says "帮我开发" or "build this" with PRD materials present in the working directory.

glmocr-sdk

Trigger when: (1) User wants to extract text, tables, formulas, or structured data from images/PDFs/scanned documents, (2) User mentions "OCR", "文字识别", "文档解析", (3) User has a document (screenshot, scanned page, invoice, paper, whiteboard photo) and needs its content in structured form, (4) User asks to parse, digitize, or extract content from a visual document. Invokes the GLM-OCR SDK (pip install glmocr) to parse documents via Zhipu's cloud API. No GPU required. Returns structured JSON (regions with labels + bounding boxes) and Markdown. Agent can operate entirely via CLI — no YAML files needed. NOT for: real-time camera feeds, audio transcription, or non-document images (photos, illustrations).

glm-image-gen

产品设计官方认证

官方技能：通过智谱GLM-Image API从文本提示生成高质量图像。擅长科学插图、高质量肖像、社交媒体图形和商业海报。支持多种宽高比、高清画质和水印控制。当用户想要生成图像、创建AI艺术、进行文生图或将文本描述转换为视觉内容时，使用此技能。

glmv-web-replication