离线评测样本与线上真实问答双口径验证
数字人智慧讲解
把文旅 AI 讲解,从一个想法做成可复制、可付费的多模态产品。
面向省级重点数字文博平台,服务亿级用户和线下场馆场景
主导多模态主链路定义、AI 验收口径和跨场馆复制方案
让 AI 讲解从试点能力走向可持续商业化模块

这是一个典型的复杂 AI 能力落地项目。我要解决的,不只是讲解内容不够智能,而是整个线下文博体验里,内容、交互、导览和商业化没有真正连起来。
问题起点
很多博物馆并不缺内容,缺的是一种更容易被理解、也更值得被付费的体验。传统讲解的问题很明显:太单向、太专业、太弱交互。用户听不进去,也很难形成持续使用和付费意愿。
当时山海需要的不只是一个“AI 问答功能”,而是一套能够在线下真实场景中被使用、被复制、并最终带来营收结果的完整产品方案。
方案设计
我主导设计了一条完整的多模态体验链路:数字人讲解、蓝牙触发、拍照识物、AI 问答、智能导览。重点不是单点功能,而是让这些能力在一个用户旅程里协同工作。
在产品定义上,我把“听不懂、找不到、不值得付费”三个核心问题前置,倒推每个触点该承担的角色,避免功能堆砌。
推进方式
我做的第一件事,是和算法团队一起把文博垂类 RAG 策略拆清楚:语料标签、召回优先级、答案结构、上下文长度、客观与主观的双维评测标准。
第二件事,是把识图、TTS、ASR 这些能力统一纳入产品验收体系,不让模型优化停留在“感觉更好了”,而是要有可以持续追踪的口径。
第三件事,是联动商务和运营一起把 B 端采购与 C 端付费模式梳理出来,让这个项目从一开始就不是“演示型 AI 功能”,而是面向结果的产品。
关键难点
这个项目难的地方不在“有没有模型”,而在于怎么让这些能力在文博场景里真正可用。知识必须足够专业、识图要快、语音要自然,同时还要适配不同场馆的上线节奏和商业化需求。
算法团队一度希望把极端场景一次性打磨完整,但这会直接拖慢场馆落地节奏。我的做法是按用户使用占比分层,先把 80% 高频场景做到稳定可用,再安排边缘场景分阶段迭代。
结果变化
这个项目最后不只是上线,而是真的跑通了落地逻辑。它从试点能力变成了平台核心 AI 创收模块,也验证了我在复杂 AI 产品上的一个长期方法:先把问题看清,再把链路搭稳,最后再去放大规模。
结果概览
平均响应延迟低于 380ms
同步建立 WER / MOS 评测体系
Q4 创收 50w+,成为平台核心 AI 创收模块
复盘思考
如果再做一次,我会更早沉淀垂类语料与场馆规范,缩短算法适配周期。
同时我也会把 B 端个性化需求更早拉进方案阶段,减少后期为不同场馆做结构性改造的成本。