我们计划开发一款AI数字人,前期已经做了一些技术基础,现在寻找志同道合的伙伴一起把这事做起来。
如下要求可能有点苛刻,但是不要担心,只要你有这方面的兴趣,这方面的经验。我们热烈欢迎交流,也希望有缘成为同事。
开篇:学历与工作经验
- 学历要求:本科及以上学历,计算机科学、人工智能等相关专业。(我们对本科学院、专业、学历会有一定的 严格 筛选)。
- 工作经验:原则上需要工作经验,除非您很优秀,我们也很欢迎。
- 我们已经有了一支很优秀、合作很久的团队,我们需要在AI的赛道上有更多的伙伴加入。
- 薪资:先按照本科薪资填写,本科以上学历薪资可继续交流。
一、核心技术能力1. 多模态技术融合
- 生成式 AI 与大模型:需熟悉 GPT-4、扩散模型(如 DiT)等生成式技术,能将文本、图像、语音等多模态数据融合,实现数字人动态表情、动作与语音的自然同步。例如,字节跳动的 OmniHuman-1 模型要求开发者具备多模态交互和动态背景生成能力。
- 计算机视觉与图形学:掌握 3D 建模(Blender/Maya)、骨骼动画、面部表情捕捉等技术,能实现数字人高保真渲染和实时动作驱动。Meta 的职位要求中明确提到 3D 人体捕捉和动态模型重建经验metacareers.com。
- 语音与自然语言处理:精通语音合成(TTS)、语音识别(ASR)、口型同步算法(如 Wav2lip),以及 NLP 对话系统开发,确保数字人交互流畅。
2. 实时渲染与性能优化
- 引擎与工具:熟练使用 Unity、Unreal 引擎,或自研实时渲染管线,优化数字人在高并发场景下的响应速度(如端到端响应时间≤2 秒)。
- 编程能力:精通 C++/CUDA,具备底层算法优化经验(如量化、剪枝),能在 GPU / 云端实现高效推理。例如,腾讯 HunyuanVideo-Avatar 要求开发者掌握 FP8 量化和 Sliding-Tile Attention 技术以节省显存。
3. 动态场景处理
- 多角色协同:需具备多角色同屏生成、情感迁移(如通过音频情绪向量驱动表情变化)等能力,如腾讯 HunyuanVideo-Avatar 支持多角色对话和动态背景保真。
- 物理模拟与交互:熟悉物理引擎(如 NVIDIA PhysX),实现数字人与虚拟环境的真实交互(如物体抓取、碰撞响应)metacareers.com。
二、工具与框架
- 开发工具链:掌握 HunyuanVideo-Avatar、Hedra Character-3 等开源工具,或 SadTalker、MuseTalk 等口型同步算法库,支持快速原型开发。
- 深度学习框架:熟练使用 PyTorch、TensorFlow 或 PaddlePaddle,具备模型训练、推理及部署经验(如 ONNX 模型转换)。
- 行业解决方案:了解世优波塔、科大讯飞等企业的数字人平台,熟悉其 API/SDK 集成和跨终端部署(如网页、移动端、全息仓)。
三、项目经验与行业知识
- 全流程开发经验:需参与过从需求分析到系统集成的完整项目,包括数字人形象设计、算法开发、性能调优及多场景适配。
- 行业定制能力:针对水务、康养、文旅、政务、医疗等领域,需快速理解业务需求并定制数字人功能。例如,教育领域要求数字人具备教学内容生成和互动课程设计能力深圳市人民政府国有资产监督管理委员会。
- 合规与安全:熟悉算法备案(《互联网信息服务深度合成管理规定》)、数据加密(国密算法)及行业合规要求(如医疗 HIPAA、金融 GDPR)。
四、软技能与职业素养
- 项目管理:能制定技术路线图、管理跨部门协作(如协调设计师、后端工程师),确保项目按时交付。
- 创新与学习能力:持续跟踪 AI 前沿(如智能体、神经辐射场),探索新技术在数字人产品中的应用潜力,如 Hedra 的 Character-3 模型支持文本控制情绪和动作。
- 沟通与协作:能清晰表达技术方案,与非技术团队(如产品经理、客户)沟通需求,推动项目落地。
五、未来可能的趋势
- 技术融合:数字人开发需结合 XR(扩展现实)、脑机接口等新技术,提升沉浸感合肥市人民政府。
- 成本与效率:企业倾向于轻量化部署(如网页 SDK 方案),要求开发者具备低代码 / 无代码开发能力,降低硬件投入。
- 伦理与安全:需关注 AI 生成内容的伦理风险(如深度伪造),设计可解释性框架确保数字人行为可控。
期待您的加入
AI 数字人开发工程师需具备 “技术广度 + 行业深度” 的复合能力,既要精通多模态融合、实时渲染等底层技术,又需快速适配不同行业需求。随着生成式 AI 和边缘计算的发展,未来岗位将更强调动态场景处理、跨平台部署及伦理合规能力,开发者需持续学习以应对技术迭代带来的挑战。