🧠 OmniMemo

基于 MiMo V2.5 全栈模型的多模态会议智能体 — 利用 100 万 token 上下文窗口,一次性处理完整会议记录

MiMo 1M Context MiMo-Omni MiMo-Pro MiMo-TTS Python 3.10+ MIT License

🎯 为什么需要 100 万 token

一场 2 小时的会议,转写文本约 3-5 万字(~4-7 万 token)。传统方案需要切片处理,丢失跨时段上下文关联。

OmniMemo 利用 MiMo 的 100 万 token 上下文窗口,一次性载入完整会议记录,保留所有跨时段关联。

传统方案 (32K)
~3%
MiMo (1M)
1,000,000 tokens

核心能力

🎙️

多模态输入

支持会议录音、视频、截图、白板照片。MiMo-Omni 原生统一处理,无需拼接多个 API pipeline。

🧠

跨模态理解

"张总指着第三季度报表说这个数据有问题" — Omni 同时理解语音和图表含义,建立跨模态关联。

📝

结构化纪要

自动提取决策点、行动项、争议焦点。分层输出:摘要→议题→行动项,支持 Markdown 和 JSON 格式。

🔊

语音摘要

MiMo-TTS 生成 3 分钟语音回顾 1 小时会议,通勤时轻松回顾核心内容。

🤖

智能调度

自动识别会议类型(站会/周会/技术评审/客户沟通),匹配最佳分析模板和输出格式。

📊

长上下文优势

100 万 token 窗口可处理 4-6 小时完整会议,跨时段追踪议题、关联发言人、溯源决策。

🏗️ 系统架构

┌─────────────────────────────────────────────────────────────────────┐ OmniMemo Pipeline ├─────────────────────────────────────────────────────────────────────┤ 📁 输入层 ├── 会议录音/视频 (MP3/MP4/WAV) ├── 屏幕共享截图 / 白板照片 (PNG/JPG) └── 转写文本 / 字幕文件 (TXT/SRT) 🧠 MiMo-Omni (跨模态理解) ├── 原生统一处理: 音频 + 视频 + 图像 + 文本 ├── 发言人识别 + 内容提取 + 引用标注 └── 长文本分片策略: 自动利用 1M 上下文窗口 🤖 Agent 调度器 └── 自动识别会议类型 → 选择分析模板 🧠 MiMo-Pro (深度推理) ├── 决策提取 + 行动项生成 + 争议标注 └── 分层结构化输出: 摘要 → 议题 → 行动项 🔊 MiMo-TTS (语音合成) └── 结构化纪要 → 3 分钟自然语音摘要 📤 输出: Markdown 纪要 + JSON 数据 + 语音摘要 + 交互式追问 └─────────────────────────────────────────────────────────────────────┘

🚀 CLI 演示

# 安装 $ pip install -e . # 查看配置 $ omni-memo info ┌──────────────┬──────────────────────────────────┐ │ MiMo API Base │ https://api.xiaomimimo.com/v1 │ │ Omni 模型 │ mimo-v2.5-omni │ │ 上下文窗口 │ 1,000,000 tokens │ └──────────────┴──────────────────────────────────┘ # 查看文件统计(演示 1M 上下文优势) $ omni-memo stats examples/sample_meeting.txt ┌──────────────────────────────────────┐ │ 文件: examples/sample_meeting.txt │ │ 预估 Token: 68,432 │ │ 需要 1M 上下文: ✔ 是 │ └──────────────────────────────────────┘ # 处理会议文件 $ omni-memo process examples/sample_meeting.txt --format markdown ╭──── 会议纪要 ────────────────────────────╮ │ # Q2 产品路线图规划会 │ │ **参会人**: 张三、李四、王五、赵六、孙七 │ │ │ │ ## ✅ 决策 │ │ - Q2 核心方向: 用户增长 + 技术债务并行 │ │ - 数据平台节奏: Q2 调研, Q3 实施 │ │ │ │ ## 🎯 行动项 │ │ - [high] 张三: 支付模块方案评审 │ │ - [high] 李四: 支付模块拆分第一阶段 │ ╰──────────────────────────────────────────╯ # 生成语音摘要 $ omni-memo process meeting.txt --voice -o ./output

🛠️ 技术

MiMo-V2.5-Omni
跨模态理解
MiMo-V2.5-Pro
深度推理
MiMo-V2.5-TTS
语音合成
Python 3.10+
核心语言
Click + Rich
CLI 框架
OpenAI SDK
API 客户端
pytest
测试框架
GitHub Actions
CI/CD

📊 Token 消耗预估

15-20万
单次会议 Token
200+
月处理会议数
5500万
月度 Token 总量
100万
上下文窗口