课程编号:59100
课程价格:¥25000/天
课程时长:1 天
课程人气:400
行业类别:不限行业
专业类别:人工智能
授课讲师:叶梓
第1部分:多模态学习概述
多模态学习的定义
多模态学习的意义
多模态数据类型:文本、图像、视频、音频等
多模态学习的应用领域(自然语言处理、计算机视觉、推荐系统等)
第2部分:ViT、Beit与CLIP/BLIP
ViT模型架构概述
Patch Embedding与Positional Encoding
Beit与ViT的比较
Beit在自监督学习中的应用
Beit在多模态任务中的优势
实践演示:利用ViT和Beit进行图文转化的效果
CLIP模型介绍:从图像到文本的跨模态嵌入
BLIP模型架构:结合CLIP的多模态模型
CLIP/BLIP在多模态任务中的应用:图像-文本匹配、图像标注等
实践演示:使用CLIP进行图像-文本匹配任务
第3部分:Stable Diffusion及SD XL
Stable Diffusion模型概述:生成模型在图像生成中的应用
SD的原理推导
SD模型的架构
Stable Diffusion XL:扩展的Stable Diffusion模型
微调扩散模型:DreamBooth
微调扩散模型:Textual-Inversion
微调扩散模型:LoRA
微调扩散模型:Hypernetworks
Stable Diffusion在艺术创作和设计中的应用
实践演示:使用Stable Diffusion生成图像
第4部分:微调与RLHF方法
微调的基本概念
SFT:监督微调方法
PEFT的概念
P-tuning v2 / LoRA / Freeze等
微调方法在多模态学习中的应用
实践演示:对多模态大模型进行微调
第5部分:与人类偏好对齐
强化学习基础概述
DPO:直接偏好优化
PPO:近端策略优化
llama-factory简介
实践演示:利用llama-factory对大模型进行RLHF
第6部分:多模态大模型
qwen_vl_chat
Yi_vl_chat
LLaVa
open-sora
chatTTS
实践演示:使用qwen_vl和Yi_vl_chat进行视觉问答任务
叶梓,上海交通大学计算机专业博士毕业,高级工程师。主研方向:数据挖掘、机器学习、人工智能。历任国内知名上市IT企业的AI技术总监、资深技术专家,市级行业大数据平台技术负责人。
长期负责城市信息化智能平台的建设工作,开展行业数据的智能化应用研发工作,牵头多个省级、市级行业智能化信息系统的建设,主持设计并搭建多个省级、市级行业大数据平台。参与国家级人工智能课题,牵头上海市级人工智能示范应用课题研究。
带领团队在相关行业领域研发多款人工智能创新产品,成功落地多项大数据、人工智能前沿项目,其中信息化智能平台项目曾荣获:“上海市信息技术优秀应用成果奖”。带领团队在参加国际NLP算法大赛,获得Top1%的成绩。参与国家级、省级大数据技术标准的制定,曾获省部级以上的科技创新一等奖。
1. 论文发表/项目经历
在国内外期刊、会议中发表论文27篇,其中被SCI/EI收录4篇
项目经历:
l 上海市城市信息化人工智能项目 项目负责人
ü 研发智能服务系统,包括:元宇宙与虚拟数字人、基于人工智能的内容生成(AIGC)、基于NLP技术的对话系统、基于深度学习的图像识别系统、基于智能推理的行业推荐系统。
相关工作:
作为项目总负责,负责项目管理、产品研发、系统分析、技术指导、算法指导等。
l 上海市城市智能信息化工程 总工程师
ü 采用大数据技术,建设市级信息平台,完成试点单位接入并采集居民相关信息,实现市级平台档案等服务,并实现所有单位的全面接入。
ü 为解决超量数据的存储与计算的问题,搭建了存储全市数据的云计算平台,并在其上进行了基于大数据的分析和挖掘工作。
作为总工程师,负责技术管理、系统分析、云平台数据存储设计、数据分析与挖掘指导、开发指导。
l 上海市城市信息化领域智能联网工程 技术经理
ü 建设内容包括:接入单位的联网;智能卡的实现;城市信息化智能平台的升级;科研平台的扩展与升级;建立决策支持系统;评估体系的展示设计;短信平台的实现;违规操作的提醒;协同智能服务平台的实现等。
作为技术经理负责总体架构设计、接口设计、大数据平台设计、AI技术指导等。
3. 主攻方向
具有扎实的数据挖掘、机器学习、深度学习等人工智能理论基础;了解AIGC等技术前沿动态。
精通机器学习、深度学习的理论、模型、算法、调优等;精通算法设计;
熟悉深度学习在自然语言处理、计算机视觉两大核心领域的实用技巧;
15年以上的程序开发经验,熟悉常用程序开发架构,独立完成多个产品级软件的设计与开发。