数字人智慧讲解

把文旅 AI 讲解，从一个想法做成可复制、可付费的多模态产品。

RAG多模态交互AI 评测体系商业化落地从 0 到 1

面向省级重点数字文博平台，服务亿级用户和线下场馆场景

主导多模态主链路定义、AI 验收口径和跨场馆复制方案

让 AI 讲解从试点能力走向可持续商业化模块

这是一个典型的复杂 AI 能力落地项目。我要解决的，不只是讲解内容不够智能，而是整个线下文博体验里，内容、交互、导览和商业化没有真正连起来。

问题起点

很多博物馆并不缺内容，缺的是一种更容易被理解、也更值得被付费的体验。传统讲解的问题很明显：太单向、太专业、太弱交互。用户听不进去，也很难形成持续使用和付费意愿。

当时山海需要的不只是一个“AI 问答功能”，而是一套能够在线下真实场景中被使用、被复制、并最终带来营收结果的完整产品方案。

我主导设计了一条完整的多模态体验链路：数字人讲解、蓝牙触发、拍照识物、AI 问答、智能导览。重点不是单点功能，而是让这些能力在一个用户旅程里协同工作。

在产品定义上，我把“听不懂、找不到、不值得付费”三个核心问题前置，倒推每个触点该承担的角色，避免功能堆砌。

我做的第一件事，是和算法团队一起把文博垂类 RAG 策略拆清楚：语料标签、召回优先级、答案结构、上下文长度、客观与主观的双维评测标准。

第二件事，是把识图、TTS、ASR 这些能力统一纳入产品验收体系，不让模型优化停留在“感觉更好了”，而是要有可以持续追踪的口径。

第三件事，是联动商务和运营一起把 B 端采购与 C 端付费模式梳理出来，让这个项目从一开始就不是“演示型 AI 功能”，而是面向结果的产品。

这个项目难的地方不在“有没有模型”，而在于怎么让这些能力在文博场景里真正可用。知识必须足够专业、识图要快、语音要自然，同时还要适配不同场馆的上线节奏和商业化需求。

算法团队一度希望把极端场景一次性打磨完整，但这会直接拖慢场馆落地节奏。我的做法是按用户使用占比分层，先把 80% 高频场景做到稳定可用，再安排边缘场景分阶段迭代。

这个项目最后不只是上线，而是真的跑通了落地逻辑。它从试点能力变成了平台核心 AI 创收模块，也验证了我在复杂 AI 产品上的一个长期方法：先把问题看清，再把链路搭稳，最后再去放大规模。

问答效果78% → 90%

离线评测样本与线上真实问答双口径验证

识图体验Top-1 92%

平均响应延迟低于 380ms

语音优化ASR 术语识别 +35%

同步建立 WER / MOS 评测体系

商业化结果30+ 场馆

Q4 创收 50w+，成为平台核心 AI 创收模块

如果再做一次，我会更早沉淀垂类语料与场馆规范，缩短算法适配周期。

同时我也会把 B 端个性化需求更早拉进方案阶段，减少后期为不同场馆做结构性改造的成本。