課程費用

5800.00 /人

課程時長

2

成為教練

課程簡介

深入剖析Agent智能體與多模態(tài)企業(yè)級應用開發(fā)。課程涵蓋大模型核心技術與架構,如Transformer-XL、MoE等,講解智能體Agent技術框架,包括規(guī)劃型、記憶型、工具調用型智能體及開發(fā)框架。

目標收益

培訓對象

課程內容

第一節(jié)大模型核心技術和架構?分析
1.核心架構拆解
2.Transformer-XL
3.Mixture-of-Experts(MoE)
4.Sparse Attention
5.闡述DeepSeek采取的訓練方法
6.大模型預訓練技術
7.RoPE位置編碼、FlashAttention優(yōu)化
8.大模型對齊技術
9.DPO(Direct Preference Optimization)
10.RLHF(基于人類反饋的強化學習)
11.典型模型分析?:GPT-4 Turbo、Claude 3 Opus、DeepSeek-R1
第二節(jié)智能體Agent技術框架?
1.智能體范式?的組成,不同智能體的整體介紹
2.規(guī)劃型智能體?
3.Tree-of-Thought(ToT)
4.Graph-of-Thought(GoT)
5.記憶型智能體?
6.Vector Database(Pinecone/Chroma) + RAG(檢索增強生成)
7.工具調用智能體
8.Function Calling(OpenAI)
9.Toolformer(Meta)
10.Agent典型框架?
11.Agent的開發(fā)框架?
12.AutoGPT、MetaGPT、Microsoft AutoGen
13.目前大模型Agent的主流企業(yè)級框架
14.LangChain Agents
15.LlamaIndex
第三節(jié)多模態(tài)技術體系?的建立

1.輸入模態(tài)的融合?
2.視覺Vision-語言Language對齊方案
3.CLIP(Contrastive Language-Image Pretraining)模型的使用
4.多模態(tài)編碼器
5.Flamingo大模型在Few-shot、上下文處理的優(yōu)勢
6.基于Flamingo的結構的Idefics2:SigLIP-SO400M+ Mistral-7B
7.輸出控制技術?
8.跨模態(tài)的生成
9.Stable Diffusion 3
10.跨語言語音生成領域標桿模型VALL-E X
11.企業(yè)級多模態(tài)數(shù)據(jù)處理流水線設計
第四節(jié)智能體核心能力開發(fā)?
1.規(guī)劃與推理能力?
2.基于ToT的復雜任務拆解(
3.案例:供應鏈路徑優(yōu)化
4.知識圖譜驅動推理
5.工具:Neo4j + SPARQL查詢的使用
6.記憶與上下文管理?
7.長期記憶存儲
8.PostgreSQL + pgvector擴展
9.短時記憶優(yōu)化
10.KV Cache壓縮技術
11.工具調用開發(fā)?
12.企業(yè)API集成
13.RESTful接口封裝FastAPI
14.代碼庫:LangChain(鏈式編排)、LlamaIndex(企業(yè)數(shù)據(jù)索引)
15.調試工具:LangSmith(智能體行為追蹤)
第五節(jié)典型行業(yè)Agent智能體案例實操?
1、個性化推薦Agent?
技術組合?:DeepSeek-R1用戶畫像生成 + Faiss向量檢索 + 強化學習動態(tài)調優(yōu)
應用場景?:實時分析用戶瀏覽/購買行為,生成跨品類推薦策略(“母嬰用品+家庭保險”組合營銷)?
數(shù)據(jù)源?:POS交易數(shù)據(jù) + 門店攝像頭行為分析(YOLOv11)?
2、合同審查Agent?
技術組合?:DeepSeek法律大模型 + DocParser OCR + 條款風險知識庫
應用場景?:百頁級并購協(xié)議關鍵條款提取與合規(guī)性審查,耗時從40小時壓縮至15分鐘?
3、電網(wǎng)調度Agent?
技術組合?:Fuxi氣象預測模型 + 圖神經(jīng)網(wǎng)絡(GNN)拓撲分析 + SCADA系統(tǒng)接口
應用場景?:極端天氣下電網(wǎng)脆弱節(jié)點預警,自動生成負荷轉移方案?
4、設備運維Agent:
技術選型:LSTM故障預測模型 + 工控系統(tǒng)集成
應用場景:運行商基站狀態(tài)維護、去年華為力推給運營商的節(jié)能模型
第六節(jié)多模態(tài)輸入輸出應用落地技術?
1.視覺模態(tài)處理?:
2.目標檢測:YOLOv11 + SAM(Segment Anything)
3.圖像理解:DINOv2(自監(jiān)督視覺編碼器)
4.語音模態(tài)處理?:
5.語音識別:Whisper Large V3(低資源語言支持)
6.語音合成:XTTS v2(情感語音生成)
7.跨模態(tài)對齊技術?:
8.圖文生成一致性控制:Kosmos-2(微軟)
9.語音-文本同步生成:Voicebox(Meta)
10.企業(yè)級優(yōu)化方案?:
11.多模態(tài)緩存策略:Faiss向量索引加速
12.硬件加速:NVIDIA Triton推理服務器 + TensorRT優(yōu)化
多模型企業(yè)級應用案例介紹
第七節(jié)多模型企業(yè)級應用案例介紹?
1、智能客服系統(tǒng)?:
多模態(tài)輸入:用戶截圖+語音描述→問題定位(CLIP+Whisper)
多模態(tài)輸出:工單生成(文本) + AR操作指引(3D模型)
2、工業(yè)質檢系統(tǒng)?:
視覺檢測:缺陷分類(ViT-Huge)
報告生成:缺陷位置標注(SAM) + 維修建議生成(GPT-4)
3、AR輔助工業(yè)維修系統(tǒng)?
設備故障現(xiàn)場視頻(手機拍攝)+ 工程師語音描述 → ?故障類型識別?
使用 ?ViT-Huge? 分類機械部件異常,結合 ?CLIP? 關聯(lián)語音關鍵詞與圖像特征?
維修步驟圖文生成、 通過?Blender腳本自動化生成設備拆解流程
4、智慧交通事故處理系統(tǒng)?
車載攝像頭事故片段(視頻)+ 車主語音描述 → ?責任判定預分析?
使用 ?YOLOv11? 檢測車輛碰撞軌跡, ?Whisper? 提取事故時間、地點等要素?
保險報案工單的生成、?ARKit?現(xiàn)場重建

課程費用

5800.00 /人

課程時長

2

預約體驗票 我要分享

近期公開課推薦

近期公開課推薦

活動詳情

提交需求