課程簡介
第一天重點介紹多模態(tài)技術(shù)的背景、應用場景、技術(shù)原理以及在內(nèi)容型公司的應用實踐。內(nèi)容包括生成式AI、基礎(chǔ)大模型技術(shù)、圖片和視頻生產(chǎn)技術(shù)、ASR技術(shù)、虛擬人技術(shù)等。第二天則深入探討多技術(shù)原理,多模態(tài)在影視漫游類的應用,以及高質(zhì)量視頻生產(chǎn)的多模態(tài)工具使用。課程旨在通過理論與實踐相結(jié)合的方式,幫助學員全面理解并掌握多模態(tài)技術(shù)。
目標收益
1,掌握多模態(tài)大模型的基本原理和技術(shù)框架,理解多模態(tài)數(shù)據(jù)處理的核心技術(shù)和方法。
2,深入了解多模態(tài)大模型在文字、音頻、影視等多個內(nèi)容賽道的應用場景和市場需求,為實際應用提供有力支持。
3,學會運用多模態(tài)大模型進行內(nèi)容理解、內(nèi)容生成等關(guān)鍵技術(shù)操作,提升在相關(guān)領(lǐng)域的工作效率和創(chuàng)新能力。
培訓對象
課程大綱
模塊一:多模態(tài)基礎(chǔ)(第一天) 理論向(上午):多模態(tài)技術(shù)背景與應用介紹 |
1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示) 2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應用場景,包括文本、圖像、視頻生成等。 a.基礎(chǔ)大模型技術(shù)(性能、價格、速度) b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強) c.Sora類視頻化技術(shù)(運動、實體一致性、3D化) d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì)) e.虛擬人、具身智能與基礎(chǔ)算力服務 3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。 a.多模態(tài)應用行業(yè)地圖(工具向 & 娛樂向) b.基礎(chǔ)類視覺圖片應用(美圖、稿定、MJ等) c.基礎(chǔ)類視頻應用(Runway、Pika、Pixelverse & 快手可靈、LumaAI) d.辦公泛工具類(AI-PPT、效率、創(chuàng)意) e.垂直場景類2B應用(客服、營銷、培訓等) f.情感陪伴類C端應用(星野、talkie、筑夢島等) 4.互動:自由問答 |
實踐向(下午):多模態(tài)在內(nèi)容型公司的應用路徑 |
1.多模態(tài)應用開發(fā)實踐范式(整體開發(fā)流程介紹) 2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署) 3.開發(fā)資源與團隊構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài)) 4.當前內(nèi)部應用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實踐展開: a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等; b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風轉(zhuǎn)化 等; c.ControlNet:插件原理、字體設計、AI模特服裝 等; 6.SD-WebUI與ComfyUI實踐展示 |
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天) 理論(上午):多技術(shù)原理概覽 |
1.世界模型的起源? a.AI視頻模型技術(shù)演進(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出 2.生產(chǎn)環(huán)境下多模態(tài)落地 a.圖片:IP衍生品/社區(qū)配圖/多格漫 b.有聲:多播、音樂、情感、模仿 c.虛擬人:數(shù)字分身、互動唱歌、直播 3.成本與收益(GPU選型、推理加速框架、極限成本、市場價格) 4.互動:自由問答 |
實踐(下午):多模態(tài)在影視漫游類的應用 |
1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具 a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞; b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等; c.視頻部分:SVD、Dreamina、Runway等; d.音樂部分:Suno、韻律模型、聲音克隆 等; e.整體合成:市場成本、實際成本; 2.實踐Dify/Coze 類Agent平臺: a.簡介:Workflow工作流與調(diào)試 介紹; b.驗證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件); c.多模態(tài):Coze 圖像流 操作手冊; d.場景實踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等); 3.互動: a.自由問答 分組練習:結(jié)合自己工作的業(yè)務特點進行智能體建模。 |
模塊一:多模態(tài)基礎(chǔ)(第一天) 理論向(上午):多模態(tài)技術(shù)背景與應用介紹 1.熱身暖場:自我介紹&引子(Sora/LumaAI/多模態(tài)效果展示) 2.生成式AI與多模態(tài)技術(shù)背景:探討生成模型類型、工作原理及應用場景,包括文本、圖像、視頻生成等。 a.基礎(chǔ)大模型技術(shù)(性能、價格、速度) b.圖片可控生產(chǎn)技術(shù)(填充、涂抹、增強) c.Sora類視頻化技術(shù)(運動、實體一致性、3D化) d.ASR、有聲、音樂技術(shù)(情感、旋律、音質(zhì)) e.虛擬人、具身智能與基礎(chǔ)算力服務 3.多模態(tài)業(yè)界前沿產(chǎn)品介紹。 a.多模態(tài)應用行業(yè)地圖(工具向 & 娛樂向) b.基礎(chǔ)類視覺圖片應用(美圖、稿定、MJ等) c.基礎(chǔ)類視頻應用(Runway、Pika、Pixelverse & 快手可靈、LumaAI) d.辦公泛工具類(AI-PPT、效率、創(chuàng)意) e.垂直場景類2B應用(客服、營銷、培訓等) f.情感陪伴類C端應用(星野、talkie、筑夢島等) 4.互動:自由問答 |
實踐向(下午):多模態(tài)在內(nèi)容型公司的應用路徑 1.多模態(tài)應用開發(fā)實踐范式(整體開發(fā)流程介紹) 2.落地技術(shù)選型(提示詞工程、開源模型微調(diào)與私有化部署) 3.開發(fā)資源與團隊構(gòu)成(人員配置、開發(fā)工具、創(chuàng)作者生態(tài)) 4.當前內(nèi)部應用示例(垂類模型、可控生圖、規(guī)?;杀荆?br/>5.圖像實踐展開: a.文生圖:Lora概念與常用推薦、提示詞書寫規(guī)則 等; b.圖生圖:關(guān)鍵詞反推、局部重繪、畫風轉(zhuǎn)化 等; c.ControlNet:插件原理、字體設計、AI模特服裝 等; 6.SD-WebUI與ComfyUI實踐展示 |
模塊二:多模態(tài)生產(chǎn)環(huán)境落地(第二天) 理論(上午):多技術(shù)原理概覽 1.世界模型的起源? a.AI視頻模型技術(shù)演進(VDM/MAV/AnimateDiff/SVD/DIT/Sora) b.大模型發(fā)展:多模態(tài)輸入、多模態(tài)輸出 2.生產(chǎn)環(huán)境下多模態(tài)落地 a.圖片:IP衍生品/社區(qū)配圖/多格漫 b.有聲:多播、音樂、情感、模仿 c.虛擬人:數(shù)字分身、互動唱歌、直播 3.成本與收益(GPU選型、推理加速框架、極限成本、市場價格) 4.互動:自由問答 |
實踐(下午):多模態(tài)在影視漫游類的應用 1.拆解高質(zhì)量“AI我中華”視頻生產(chǎn)用到了哪些多模態(tài)工具 a.創(chuàng)意文案部分:劇本與創(chuàng)意模板提示詞; b.圖片部分:可控重繪、高質(zhì)超分、插幀渲染 等; c.視頻部分:SVD、Dreamina、Runway等; d.音樂部分:Suno、韻律模型、聲音克隆 等; e.整體合成:市場成本、實際成本; 2.實踐Dify/Coze 類Agent平臺: a.簡介:Workflow工作流與調(diào)試 介紹; b.驗證:打造帶Function Call能力的Agent(創(chuàng)建Bot與使用插件); c.多模態(tài):Coze 圖像流 操作手冊; d.場景實踐(知識庫問答、毛胚房裝修、電商廣告圖像流 等); 3.互動: a.自由問答 分組練習:結(jié)合自己工作的業(yè)務特點進行智能體建模。 |