我们是谁
MiroMind 是一家专注 AGI 与前沿基础模型研发的组织(miromind.ai)。我们相信开放协作与优秀社区会加速下一代智能的诞生。加入我们,把尖端研究、开源项目与全球开发者/研究者连接在一起。
社区运营专员(Community Operations / Growth)
岗位定位
通过内容、活动、社区机制与数据化运营,持续提升 社区用户增长(G)—激活(A)—贡献(C)—留存(R),促进研究影响力与开源生态的正循环。
主要职责
1. 社区增长与激活
负责 Discord/Telegram/飞书群、GitHub、Twitter/X、知乎/即刻/小红书、B 站、微信公众号等阵地的增长与日常运营(入群欢迎、分层触达、FAQ 与规范)。
设计新手引导与激励机制(徽章、贡献者等级、任务看板、活动积分),提升 7 日激活与 30 日留存。
2. 内容与品牌
策划技术内容:研究解读、模型发布说明、项目 Roadmap、案例与教程、周报/Newsletter。
协调研究与工程同学产出图文/短视频/直播,维护内容日历与素材库。
3. 活动与生态
组织线上线下活动:论文阅读会、Open Source Sprint、黑客松、开发者沙龙、合作高校社群活动。
搭建志愿者/大使计划(Ambassador Program),对接高校社团、开源社区与 KOL。
4. 贡献与转化
优化 GitHub 贡献路径(Good First Issue、贡献指南、Code of Conduct),提升 PR/Issue 量与质量。
将活跃成员引导为核心贡献者、讲者、合作伙伴或候选人。
5. 数据与工具
建立指标看板(活跃、留存、转化、口碑),A/B 实验与复盘;沉淀手册与 SOP。
任职要求
- 2 年以上社区运营/用户增长/开发者关系相关经验;或有说服力的开源/技术社群实践作品集。
- 对 AI/LLM/开源文化有强兴趣,能把复杂研究转译为清晰、可信、好懂的内容。
- 优秀的中文书面与在线沟通能力;具备 英文阅读与基础写作 能力(可快速消化论文/博文/Repo)。
- 强执行力与项目管理能力:内容日历、活动落地、跨团队协作、结果导向。
- 数据驱动与同理心兼具:能读数据做决策,也能理解社区成员的动机与反馈。
加分项
- 运营过技术/开源社区(Discord/Telegram/GitHub Star 级别增长、有效留存或 PR 转化案例)。
- 策划并落地过线上千人直播或线下 100+ 人活动(含议题征集、讲者管理、赞助洽谈)。
- 有 Newsletter/技术媒体主笔经验,或短视频/直播主持经验。
- 开源贡献者/维护者背景;熟悉 Git/GitHub 协作流与贡献者治理。
- 海外社群运营经验,具备多语种或跨时区协作能力。
数据团队项目经理(数据标注/数据运营)
岗位定位
负责规划与落地 MiroMind 的数据生产与标注项目(文本/图像/音频/视频/多模态),组织并管理内外部标注团队与供应商,建立标准与流程,确保进度、质量、成本与合规的平衡。
主要职责
1. 项目规划与交付
依据模型训练目标拆解数据需求(任务类型、规模、覆盖面、难度与优先级),制定里程碑、预算与资源计划。
管理多并发数据项目的进度/风险/依赖,确保按期交付并支持训练节奏。
2. 团队与供应商管理
组建和带教标注与质检团队(全职/兼职/众包/供应商),进行排班、绩效与激励管理。
供应商引入与考核(招投标、SLA、单价与交付质量)、费用与合同管理。
3. 标准与流程(SOP)
制定并迭代标注规范、标签体系、边界案例与决策树;沉淀操作手册与案例库。
设计分层质检(自检/互检/专家抽检)、金标集与复审流程,持续优化返工率。
4. 质量与数据治理
建立质量指标体系:金标准确率、IAA(如 Cohen’s kappa/K-alpha)、覆盖度、噪声率、PII 泄漏率等。
结合主动学习/难例挖掘/弱监督与 LLM-as-judge 等方法,驱动“数据飞轮”持续提纯与增量。
5. 工具与数据管线
选择与运维标注平台与工具链(如 Label Studio/Argilla/内建平台等),对接数据入湖、版本管理与审计。
与工程/研究协作,打通数据采集→标注→质检→合并→可视化→交付的全链路。
6. 沟通与对齐
与研究、训练、产品团队保持高频对齐(需求澄清、样例评审、质量回溯、效果闭环),用数据驱动决策。
任职要求
- 3 年以上数据标注/数据运营/众包或相关项目管理经验;有多团队、多供应商协作经验。
- 熟悉至少两类以上数据任务:指令/对话、偏好比较(RLHF/RLAIF)、评测打分、信息抽取、分类、检测/分割、语音转写等。
- 扎实的项目管理能力:排期与资源分解、风险控制、SOP 搭建与落地、成本与质量平衡。
- 数据与工具能力:能读懂指标仪表盘,熟练使用项目与知识协作工具(Jira/飞书/Notion/GitHub Projects/Airtable 等);1. 具备基础的 SQL/Python 能力更佳。
- 优秀的书面与异步沟通能力,能把复杂任务规范化、模板化;中英文工作能力(可阅读英文论文/指南/工具文档)。
强执行力与责任心:结果导向、问题归因与复盘能力强。
基础模型研究员
主要职责
- 人工智能创新:通过探索长期记忆、决策模型和自主 Agent 来推进 LLM、LMM 和下一代人工智能的创新。
- 发表高影响力工作:在顶级会议上发表文章、获得专利,并通过数据集、模型和代码发布为开源 AI 社区做出贡献。
- 原创研究突破:探索AI 研究前沿与产业趋势,推动有影响力的方向性研究与原创成果突破。
基本要求
- 具备扎实的机器学习、深度学习、自然语言处理(NLP)、计算机视觉(CV)、强化学习(RL)等领域的理论基础
- 具备扎实的编程能力,能够熟练使用 Linux 环境下的 Python 和 C/C++ 等语言,能独立实现复杂的深度学习模型与系统模块,具备高效调试、性能优化能力
- 熟悉语言模型(Transformers 及其变种, Linear Attention)、多模态模型(LLaVA-like, native MLLM)、生成模型(Autoregressive,DiT)、推理模型(o1 / PPO)等当前主流架构技术细节
- 出色的问题分析能力,良好的合作心态与沟通技巧
加分项
- 计算机科学,人工智能等相关领域的知名高校的博士学位
- 在顶会/顶刊(如 NeurIPS、ICML、ICLR、ACL、EMNLP、CVPR、ICCV/ECCV 等)发表相关论文
- 有优异学科竞赛成绩(ACM/ICPC,NOI/IOI,CMO/IMO,CPhO/IPhO 等)
- 参与知名大模型开源项目或在相关竞赛取得优胜成绩
基础模型研究工程师
主要职责
- 为前沿探索成果规模化为业界领先的下一代模型提供大规模训练数据获取,强化学习环境构建,训练效率极致优化等关键支撑。
- 为下一代模型提供全面细致的自动化评测系统,推动对模型能力边界的理解,引导未来研究优先级的设立
- 将理论突破应用于现实世界的真实产品挑战,推动 AI 的应用和影响。
基本要求
- 具备扎实的编程能力,能够熟练使用 Linux 环境下的 Python 和 C/C++ 等语言,熟悉 pytorch,熟悉主流大模型训练与微调框架,能独立实现复杂的深度学习模型与系统模块,具备高效调试、性能优化能力
- 有大规模数据预处理、数据生成、数据增强能力;了解数据驱动下的模型迭代工作流程
- 熟悉大模型训练流程,包括分布式训练、模型并行、训练效率调优
- 出色的问题分析能力,良好的合作心态与沟通技巧
加分项
- 熟悉 CUDA/Triton/Cutlass 等高性能算子框架
- 熟悉 veRL / OpenRLHF / Ray 等强化学习分布式计算框架
- 熟悉 browser / computer use / code sandbox 大规模强化学习环境构建
- 熟悉 Megatron-Core / DeepSpeed 等分布式训练框架,有多节点训练效率调优经验,能分析优化模型计算与通信重叠效率
- 有优异编程竞赛成绩(ACM/ICPC,NOI/IOI,codeforces,top coder)
- 参与知名大模型开源项目或在相关竞赛取得优胜成绩
数据工程师(面向AGI研发)
主要职责
- 数据系统建设:构建大规模数据处理系统,支持千亿级参数基础模型的训练与评测,确保数据全链路高效、稳定、可扩展。
- 高质量数据构建:主导用于训练基础模型(语言、多模态、Agent等)的数据采集、清洗、去重、标注与增强流程,持续提升模型数据质量与多样性。
- 数据智能化工具开发:开发智能数据生成、合成、过滤与自动评估工具,加速数据迭代与闭环优化,支撑模型能力边界扩展与对齐训练。
基本要求
- 扎实的编程能力,熟练掌握 Python/C++,具备良好的系统设计能力,能独立开发大规模数据处理模块。
- 熟悉数据处理与存储框架,如 Spark/Flink/Ray/Hadoop 等,具有构建和优化数据管道的实战经验。
- 熟悉基础模型的训练流程与对数据质量的需求,具备基于数据驱动的模型迭代与评估意识。
- 优秀的问题分析能力、工程推动能力与团队协作意识。
加分项
- 具备大模型训练数据集构建经验,或主导过百万级别高质量数据的清洗与管理工作。
- 熟悉数据增强与合成技术(如 Self-Instruct、RLAIF、Synthetic QA Generation、图文对齐增强等),或具备 Agent 数据生成经验。
- 了解 web-scale 数据采集爬虫开发、网页去重、信息抽取、网页结构解析等技术。
- 熟悉强化学习环境下的交互日志数据构建与反馈数据挖掘。
- 在知名开源数据集(如 OpenWebMath、RefinedWeb、RedPajama、LAION、COYO)贡献过数据处理工具或清洗策略。
- 有 ACM/ICPC、NOI/IOI、data mining、data-centric AI 相关竞赛优异成绩者优先。
基础模型系统研究员
主要职责
- 系统开发与优化:主导大模型训练与推理系统的开发与优化工作,熟练运用混合并行、自动并行、高性能算子开发以及通信优化等前沿技术,显著提升内部模型训练的速度与效率,加速模型迭代进程。
- 技术难题攻克:专注于解决机器学习系统在高并发、高可靠性、高可扩展性等方面的复杂技术挑战,确保系统在各种复杂场景下的稳定运行和高效响应,为业务的持续发展提供坚实的技术保障。
- 多领域覆盖:全面负责机器学习系统多个关键子方向的工作,涵盖资源调度、模型训练、模型推理以及强化学习训练等核心领域,推动系统整体性能的提升和功能的完善。
- 性能分析与技术创新:深入剖析大模型训练过程中的性能指标,精准定位并有效解决性能瓶颈问题,最大化训练效率。同时,密切关注机器学习系统的前瞻技术,积极开展调研与引入工作,深度挖掘硬件资源潜力,推动技术的创新与升级。
职位要求
- 编程与框架能力:熟练掌握至少一种编程语言,如 C、C++、Python 或具备 Cuda 开发经验。熟悉 PyTorch FSDP、DeepSpeed 或 Megatron-LM 等分布式训练框架中的任意一种。在 ACM、ICPC、Codeforces 等国际知名编程竞赛中获奖者将优先考虑。
- 技术方案把控:能够从机器性能、系统稳定性等多个维度出发,以高标准严格要求自己的技术方案,确保方案的科学性、合理性和高效性。
- 领域经验与兴趣:对以下一个或多个领域具备丰富的实践经验和浓厚的兴趣:
3.1 并行系统:在基础模型的分布式训练、高效微调、强化学习训练以及推理引擎的优化等方面有深入研究,包括但不限于并行策略制定、量化压缩技术、算子优化等关键环节。
3.2 高性能算子:熟悉并行计算(如 Triton、Cuda)、通信技术(如 NCCL、NVSHMEM)以及 AI 编译器(如 MLIR、TVM、Trition、LLVM)等领域,具备相关开发和优化经验。
DevOps 工程师
工作职责:
- 参与 AI 训练集群的架构设计与核心组件研发,构建高性能、高可用的计算平台。
- 负责 训练与推理任务与资源的可观测系统建设,提升集群的监控、告警与日志分析能力。
- 优化计算调度、RDMA、容器运行时等关键组件,保障训练与推理任务的高效稳定运行。
- 支持 大规模集群的自动化部署、运维与故障排查,提升系统可维护性与可用性。
任职要求:
- 211 或以上院校本科 学历,计算机、软件工程、电子信息等相关专业。
- 扎实的操作系统基础,熟悉 Linux 内核、网络、存储、性能调优等方向。
- 熟练掌握 Golang,具备良好的编码能力,有 Kubernetes 相关开发经验者优先。
- 熟悉 Kubernetes、Docker、Prometheus、Grafana 等云原生技术栈。
- 具备 大规模分布式系统 运维或开发经验,能快速定位并解决复杂问题。
全栈工程师(AI 核心团队)
主要职责
AI 基础模型服务的全栈开发
- 负责将 LLM/LMM 等基础模型以高可用、高并发的推理服务形态落地,设计并实现前端交互界面与后端 API、任务编排与微服务治理。
数据标注与管理平台建设
- 搭建并维护多模态数据标注平台(文本 / 图像 / 音频 / 视频),支持任务分发、质检回流、动态优先级调度与可视化监控。
模型部署与持续交付
- 设计 DevOps / MLOps 流水线,涵盖容器化、自动化测试、灰度发布、A/B 实验与版本回滚,保障模型快速迭代与稳定上线。
基本要求
扎实的全栈开发功底
- 熟练掌握 JavaScript/TypeScript + React/Vue/Svelte 等前端框架;熟悉 Node.js / Python / Go / Java 至少一种后端语言与常用 web 框架。
云原生与容器化经验
- 熟悉 Docker、Kubernetes、Helm;理解服务网格、自动伸缩、监控告警体系(Prometheus / Grafana / Loki)。
数据库与缓存
- 掌握 MySQL/PostgreSQL、NoSQL(Redis/MongoDB/ClickHouse 等)建模与优化;了解向量数据库(Milvus/PGVector/Faiss)。
良好的工程素养与协作能力
- 熟练使用 Git/GitHub/GitLab,擅长单元/集成/端到端测试;具备清晰的技术文档习惯与跨团队沟通能力。