工程師
互聯(lián)網(wǎng)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

多模態(tài)技術(shù)深度培訓:理論與實踐的融合

課程費用

6800.00 /人

課程時長

2

成為教練

課程簡介

第一天重點介紹多模態(tài)技術(shù)的背景、應用場景、技術(shù)原理以及在內(nèi)容型公司的應用實踐。內(nèi)容包括生成式AI、基礎(chǔ)大模型技術(shù)、圖片和視頻生產(chǎn)技術(shù)、ASR技術(shù)、虛擬人技術(shù)等。第二天則深入探討多技術(shù)原理,多模態(tài)在影視漫游類的應用,以及高質(zhì)量視頻生產(chǎn)的多模態(tài)工具使用。課程旨在通過理論與實踐相結(jié)合的方式,幫助學員全面理解并掌握多模態(tài)技術(shù)。

目標收益

1,掌握多模態(tài)大模型的基本原理和技術(shù)框架,理解多模態(tài)數(shù)據(jù)處理的核心技術(shù)和方法。
2,深入了解多模態(tài)大模型在文字、音頻、影視等多個內(nèi)容賽道的應用場景和市場需求,為實際應用提供有力支持。
3,學會運用多模態(tài)大模型進行內(nèi)容理解、內(nèi)容生成等關(guān)鍵技術(shù)操作,提升在相關(guān)領(lǐng)域的工作效率和創(chuàng)新能力。

培訓對象

課程大綱

模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應用介紹
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應用場景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強)
c.Sora類視頻化技術(shù)(運動、實體一致性、3D化)
d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應用行業(yè)地圖(工具向 & 娛樂向)
b.基礎(chǔ)類視覺圖片應用(美圖、稿定、MJ等)
c.基礎(chǔ)類視頻應用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(AI-PPT、效率、創(chuàng)意)
e.垂直場景類2B應用(客服、營銷、培訓等)
f.情感陪伴類C端應用(星野、talkie、筑夢島等)
4.互動:自由問答
實踐向(下午):多模態(tài)在內(nèi)容型公司的應用路徑 1.多模態(tài)應用開發(fā)實踐范式(整體開發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署)
3.開發(fā)資源與團隊構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài))
4.當前內(nèi)部應用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實踐展開:
a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設計、AI模特服裝 等;
6.SD-WebUI與ComfyUI實踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂、情感、模仿
c.虛擬人:數(shù)字分身、互動唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場價格)
4.互動:自由問答
實踐(下午):多模態(tài)在影視漫游類的應用 1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場成本、實際成本;
2.實踐Dify/Coze 類Agent平臺:
a.簡介:Workflow工作流與調(diào)試 介紹;
b.驗證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊;
d.場景實踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等);
3.互動:
a.自由問答
分組練習:結(jié)合自己工作的業(yè)務特點進行智能體建模。
模塊一:多模態(tài)基礎(chǔ)(第一天)
理論向(上午):多模態(tài)技術(shù)背景與應用介紹
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示)
2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應用場景,包括文本、圖像、視頻生成等。
a.基礎(chǔ)大模型技術(shù)(性能、價格、速度)
b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強)
c.Sora類視頻化技術(shù)(運動、實體一致性、3D化)
d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì))
e.虛擬人、具身智能與基礎(chǔ)算力服務
3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。
a.多模態(tài)應用行業(yè)地圖(工具向 & 娛樂向)
b.基礎(chǔ)類視覺圖片應用(美圖、稿定、MJ等)
c.基礎(chǔ)類視頻應用(Runway、Pika、Pixelverse & 快手可靈、LumaAI)
d.辦公泛工具類(AI-PPT、效率、創(chuàng)意)
e.垂直場景類2B應用(客服、營銷、培訓等)
f.情感陪伴類C端應用(星野、talkie、筑夢島等)
4.互動:自由問答
實踐向(下午):多模態(tài)在內(nèi)容型公司的應用路徑
1.多模態(tài)應用開發(fā)實踐范式(整體開發(fā)流程介紹)
2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署)
3.開發(fā)資源與團隊構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài))
4.當前內(nèi)部應用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實踐展開:
a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等;
b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風轉(zhuǎn)化 等;
c.ControlNet:插件原理、字體設計、AI模特服裝 等;
6.SD-WebUI與ComfyUI實踐展示
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天)
理論(上午):多技術(shù)原理概覽
1.世界模型的起源?
a.AI視頻模型技術(shù)演進(VDM/MAV/AnimateDiff/SVD/DIT/Sora)
b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出
2.生產(chǎn)環(huán)境下多模態(tài)落地
a.圖片:IP衍生品/社區(qū)配圖/多格漫
b.有聲:多播、音樂、情感、模仿
c.虛擬人:數(shù)字分身、互動唱歌、直播
3.成本與收益(GPU選型、推理加速框架、極限成本、市場價格)
4.互動:自由問答
實踐(下午):多模態(tài)在影視漫游類的應用
1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具
a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞;
b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等;
c.視頻部分:SVD、Dreamina、Runway等;
d.音樂部分:Suno、韻律模型、聲音克隆 等;
e.整體合成:市場成本、實際成本;
2.實踐Dify/Coze 類Agent平臺:
a.簡介:Workflow工作流與調(diào)試 介紹;
b.驗證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件);
c.多模態(tài):Coze 圖像流 操作手冊;
d.場景實踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等);
3.互動:
a.自由問答
分組練習:結(jié)合自己工作的業(yè)務特點進行智能體建模。

課程費用

6800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求