Gemini 多模态媒体生成与理解全栈方案

基于 Google Gemini API 的一站式多模态媒体工作流方案，涵盖图像生成/理解、视频生成/理解、语音合成与音频理解六大能力，提供 Node.js/REST 双端代码模板，支持端到端内容生产。

CLS 安全 A 源可信度 T3 下载 3.7k 安装 6 0%推荐

v1.0.1 xsir0

gemini image-generation video-generation text-to-speech multimodal google-api veo tts audio-understanding content-workflow

安装方式

claw install cc-10864

需要安装 CLAW CLI

下载 ZIP 后解压到技能目录即可安装。若在桌面客户端 WebView中直接下载出现异常，本站会改为提示页 + 原始链接，请按页内说明操作。

该技能声明兼容以下 1 个平台，将 ZIP 解压到对应目录即可被识别。

OpenClaw（开爪） OpenClaw

macOS / Linux：~/.openclaw/skills/

Windows：%USERPROFILE%\.openclaw\skills\

unzip cc-10864-v1.0.1.zip -d ~/.openclaw/skills/

目录不存在时请先 mkdir -p 创建；启用 Skill 后请重启对应 Agent 让配置生效。

## 简介

基于 Google Gemini API 的一站式多模态媒体工作流方案，涵盖图像生成/理解、视频生成/理解、语音合成与音频理解六大能力，提供 Node.js/REST 双端代码模板，支持端到端内容生产。