OmniMemo — 多模态会议智能体

🎯 为什么需要 100 万 token？

一场 2 小时的会议，转写文本约 3-5 万字（~4-7 万 token）。传统方案需要切片处理，丢失跨时段上下文关联。

OmniMemo 利用 MiMo 的 100 万 token 上下文窗口，一次性载入完整会议记录，保留所有跨时段关联。

传统方案 (32K)

~3%

MiMo (1M)

1,000,000 tokens

✨ 核心能力

🎙️

多模态输入

支持会议录音、视频、截图、白板照片。MiMo-Omni 原生统一处理，无需拼接多个 API pipeline。

🧠

跨模态理解

"张总指着第三季度报表说这个数据有问题" — Omni 同时理解语音和图表含义，建立跨模态关联。

📝

结构化纪要

自动提取决策点、行动项、争议焦点。分层输出：摘要→议题→行动项，支持 Markdown 和 JSON 格式。

🔊

语音摘要

MiMo-TTS 生成 3 分钟语音回顾 1 小时会议，通勤时轻松回顾核心内容。

🤖

智能调度

自动识别会议类型（站会/周会/技术评审/客户沟通），匹配最佳分析模板和输出格式。

📊

长上下文优势

100 万 token 窗口可处理 4-6 小时完整会议，跨时段追踪议题、关联发言人、溯源决策。

🏗️ 系统架构

┌─────────────────────────────────────────────────────────────────────┐ │ OmniMemo Pipeline │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ 📁 输入层 │ │ ├── 会议录音/视频 (MP3/MP4/WAV) │ │ ├── 屏幕共享截图 / 白板照片 (PNG/JPG) │ │ └── 转写文本 / 字幕文件 (TXT/SRT) │ │ ↓ │ │ 🧠 MiMo-Omni (跨模态理解) │ │ ├── 原生统一处理: 音频 + 视频 + 图像 + 文本 │ │ ├── 发言人识别 + 内容提取 + 引用标注 │ │ └── 长文本分片策略: 自动利用 1M 上下文窗口 │ │ ↓ │ │ 🤖 Agent 调度器 │ │ └── 自动识别会议类型 → 选择分析模板 │ │ ↓ │ │ 🧠 MiMo-Pro (深度推理) │ │ ├── 决策提取 + 行动项生成 + 争议标注 │ │ └── 分层结构化输出: 摘要 → 议题 → 行动项 │ │ ↓ │ │ 🔊 MiMo-TTS (语音合成) │ │ └── 结构化纪要 → 3 分钟自然语音摘要 │ │ ↓ │ │ 📤 输出: Markdown 纪要 + JSON 数据 + 语音摘要 + 交互式追问 │ │ │ └─────────────────────────────────────────────────────────────────────┘

🚀 CLI 演示

# 安装 $ pip install -e . # 查看配置 $ omni-memo info ┌──────────────┬──────────────────────────────────┐ │ MiMo API Base │ https://api.xiaomimimo.com/v1 │ │ Omni 模型 │ mimo-v2.5-omni │ │ 上下文窗口 │ 1,000,000 tokens │ └──────────────┴──────────────────────────────────┘ # 查看文件统计（演示 1M 上下文优势） $ omni-memo stats examples/sample_meeting.txt ┌──────────────────────────────────────┐ │ 文件: examples/sample_meeting.txt │ │ 预估 Token: 68,432 │ │ 需要 1M 上下文: ✔ 是 │ └──────────────────────────────────────┘ # 处理会议文件 $ omni-memo process examples/sample_meeting.txt --format markdown ╭──── 会议纪要 ────────────────────────────╮ │ # Q2 产品路线图规划会 │ │ **参会人**: 张三、李四、王五、赵六、孙七 │ │ │ │ ## ✅ 决策 │ │ - Q2 核心方向: 用户增长 + 技术债务并行 │ │ - 数据平台节奏: Q2 调研, Q3 实施 │ │ │ │ ## 🎯 行动项 │ │ - [high] 张三: 支付模块方案评审 │ │ - [high] 李四: 支付模块拆分第一阶段 │ ╰──────────────────────────────────────────╯ # 生成语音摘要 $ omni-memo process meeting.txt --voice -o ./output

🧠 OmniMemo