Gemini 多模态媒体生成与理解全栈方案
基于 Google Gemini API 的一站式多模态媒体工作流方案,涵盖图像生成/理解、视频生成/理解、语音合成与音频理解六大能力,提供 Node.js/REST 双端代码模板,支持端到端内容生产。
CLS 安全 A
源可信度 T3
下载 3.7k 安装 6
0%推荐
v1.0.1
xsir0
gemini
image-generation
video-generation
text-to-speech
multimodal
google-api
veo
tts
audio-understanding
content-workflow
安装方式
手动下载安装
下载 ZIP 后解压到技能目录即可安装。若在桌面客户端 WebView中直接下载出现异常,本站会改为提示页 + 原始链接,请按页内说明操作。
下载 ZIP (cc-10864-v1.0.1.zip)跨平台安装指引
该技能声明兼容以下 1 个平台,将 ZIP 解压到对应目录即可被识别。
unzip cc-10864-v1.0.1.zip -d ~/.openclaw/skills/
目录不存在时请先
mkdir -p 创建;启用 Skill 后请重启对应 Agent 让配置生效。
使用指南
简介
基于 Google Gemini API 的一站式多模态媒体工作流方案,涵盖图像生成/理解、视频生成/理解、语音合成与音频理解六大能力,提供 Node.js/REST 双端代码模板,支持端到端内容生产。
## 简介
基于 Google Gemini API 的一站式多模态媒体工作流方案,涵盖图像生成/理解、视频生成/理解、语音合成与音频理解六大能力,提供 Node.js/REST 双端代码模板,支持端到端内容生产。