历经千年的探索与沉淀,凝聚了民族智慧的中医药一直是我国古代科学的瑰宝。近年来,我国在国家层面制定并颁布了《中华人民共和国中医药法》《中共中央 国务院关于促进中医药传承创新发展的意见》和《中医药发展战略规划纲要(2016 — 2030 年)》等十几项中医药相关法规和政策,中医药的传承创新发展已经成为重要的国家战略。
另一方面,中医数智化的浪潮也为传统中医药注入了新的生命力,尤其是人工智能,对中医药事业的传承创新发展起到了有力的支撑。近日,南京大经中医药信息技术有限公司(下文简称:大经中医)就隆重发布了 " 岐黄问道 · 大模型 ",率先将生成式 AI 引入到中医药领域。
大语言模型
将如何改变中医
自 2017 年 Transformer 架构发布开始,大语言模型(LLM,Large Language Model,下文简称:大模型)就进入了发展快车道。今年年初 ChatGPT 的走红更是让生成式 AI 在一夜之间为世人所关注。以大模型为基础的生成式 AI 已在许多行业展现出颠覆式创新的巨大潜力。
就医疗领域而言,生成式 AI 在自然语言处理上的巨大进步被认为将改变人与计算机的交互模式,从传统的 UI 界面、操作系统以及冷冰冰的电子病历系统转变为流畅的自然语言对话,更具亲和力。这种交互模式的改变可能会带来 " 流量入口 " 和 " 知识获取路径 " 的革命。
有意思的是,尽管时下走红的多为通用大语言模型,但由于通用大语言模型高度依赖文本统计概率生成答案,回答准确性无法保证,不少时候其回答都属于 " 一本正经地胡说八道 ",甚至重复询问完全一样的问题,每次给出的答案也不尽相同。
正因为此,行业普遍认为针对垂直领域乃至具体场景应用的大模型或许更能发挥大模型的价值——一方面,垂直领域大模型可以获得高质量的行业数据,并由行业高水平专家对预训练模型进行反复调整和反馈,给出具有高度一致性和准确性的解决方案;另一方面,由于垂直领域大模型对具体应用场景业务的深耕和理解更有针对性,可以实现大模型与行业的有效结合,真正起到赋能行业的作用。
中医正是这样一个可以最大限度发挥大模型优势的应用场景。
自古以来,中医留下了浩如烟海的临床诊疗数据及文献典籍数据,这些数据不但没有标准,很多还艰涩难懂,数据挖掘和应用难度较大。加上中医以流派众多著称,不同流派间仍存在一定壁垒,成果和经验很难进行迁移和融合。这些一直是以往困扰中医发展的痛点。
AI 则携数据挖掘与采集、数据处理与分析,以及深度学习等优势,可对海量临床经验和文献典籍知识进行数字化转化,赋能中医临床,构建中医诊疗规范与疗效评价体系,弥补中医高质量人才短缺与资源不均,更好地传承并发展中医。
事实上,早在二十世纪七十年代,就有有识之士尝试将 AI 引入中医领域。但受限于当时的技术水平,成果非常有限。如今,经过层层迭代、升级和创新,新一代以大模型为基础的生成式 AI 在各方面的能力都远比以往成熟,赋能中医也不再是一句口号。
创立于 2016 年的大经中医 7 年来一直秉承 " 数智化是中医药发展的必由之路 " 的创业理念,不断在中医 AI 领域探索精进,取得了不俗的成果。举例而言," 大经中医外感肺系疾病(含新冠肺炎)辅助诊疗系统 " 在新冠肺炎疫情期间就作为唯一的中医类产品解决方案入选了工信部人工智能标准化总体组第一批 34 个 " 有助于疫情防控的人工智能产品和解决方案 ",为抗击疫情做出了巨大贡献。
作为中医 AI 领域的领头羊,首个中医大模型由大经中医推出也在情理之中,是其多年来在该领域厚积薄发的成果。
大经中医创始人、董事长李文友认为,大模型的强大能力可以在三个方面赋能中医。首先,大模型可以助力中医传承发展。如前所述,中医临床诊疗数据及中医文献数据大多以文本数据的形式流传下来,尤其适合擅长自然语言识别及处理的大模型的发挥。
大经中医创始人、董事长李文友认为大模型可以在三个方面赋能中医(图片来自大经中医)
其次,大模型可以助力中医学习和人才培养。中医临床诊疗既有完善的理论体系,又有较强的经验属性。这些经验深藏于浩瀚的中医文献典籍和大量历代医家的医案、医话和医论中,所以,学习中医才有 " 读经典、跟名师 " 之说。然而,理解、记忆并应用这些经验是一项艰难的任务,中医大模型的出现或许将大大改变中医学习和人才培养的模式。
最后,大模型还可以助力更多应用场景的落地。李文友表示,中医不仅仅是医学,也是中国人的一种传统生活方式。正因此,中医不仅存在于医院,也存在于院外各种与健康相关的空间。在这些院外场景中,自然语言的交互方式显然更符合普通人的沟通习惯。因此,中医大模型将推动中医人工智能在更广泛的场景中落地。
根据介绍,目前 " 岐黄问道 · 大模型 " 已形成三个方向的子模型,以发挥大模型的优势,适配大经中医丰富的应用场景。
第一个子模型是基于已确诊疾病的临床诊疗大模型,可根据用户提供的疾病、症状、体征信息,给出辨证(诊断)结果和治疗方案(中药处方)。
第二个子模型是仅仅基于症状和体征的临床诊疗大模型,可根据用户提供的主诉症状和伴随症状、体征信息,给出辨证(诊断)结果和治疗方案(中药处方)。
第三个子模型则是中医养生调理大模型,可根据用户提供的症状、体征信息,给出个性化中医健康状态辨识结果,以及食疗、茶饮、推拿、艾灸等多维度养生方案。
" 岐黄问道 · 大模型 " 的三个子模型:知病、知症、养生(图片来自大经中医)
目前,第一个模型在发布会后已经通过公司官方微信公众号 " 大经数智中医 " 正式面向医疗机构开放内测,其他子模型仍在不断完善中,后续将逐步开放。在发布会现场的实时演示中,年轻医生现场输入模拟真实患者的 " 疾病 - 症状 - 体征 " 信息,基于已确诊疾病的临床诊疗大模型很快给出了准确的辨证结果、治则治法和中药方剂,给人留下深刻印象。
知病大模型演示(来自大经中医)
同时,现场也通过视频录像的形式展示了仅仅基于症状和体征的临床大模型及中医养生调理大模型的能力。在这些演示中," 岐黄问道 · 大模型 " 均给出了较为准确的回答。
知症大模型演示(来自大经中医)
养生大模型演示(来自大经中医)
此外,大经中医还在积极训练基于不同技术路径的中医古籍大模型。该模型据称将具备阅读、理解古籍,从中抽取 " 有用的 " 知识对齐临床需求,形成 " 病 - 症 - 机 - 法 - 方 - 药 " 知识链的功能,颇为令人期待。
大经中医凭什么可以
第一个拿出多场景中医大模型
开发中医 AI 一直被认为极具挑战性。一方面,汉语所属的汉藏语系与英语所属的印欧语系有巨大的差异,适用于英语的自然语言处理技术并不能被直接套用到汉语中。
另一方面,古汉语与现代汉语之间也存在一定的差异,而在现代汉语中也经常会夹杂一些古汉语单字,半文半白现象颇为普遍。恰恰中医典籍和医案往往采用叙述的方式记录病人的症状、体征和理法方药。
此外,不同于西医有统一的疾病共识或指南,中医存在多个流派,各流派有自己独有的方法论。中医 AI 往往需要将各个流派的方法论融汇其中,其工作量往往以数倍计。
所有这些因素都使得中医 AI 的路更难走。
作为中医 AI 领域的翘楚,大经中医在多年中医 AI 的探索过程中积累了丰富的经验,并打造出自己在数据、人才和应用上的独有能力。
以 AI 三大要素之一的数据而言,大经中医就已经在高质量中医数据上早早建立起 " 护城河 "。
首先,大经中医已经建立了包含 25000 多个词条的中医症状、体征术语规范化词典。这是整个中医行业唯一大规模、覆盖全病种的术语规范化词典,可大幅降低措辞差异对大模型输出答案的影响。
其次,中医的知识个性化且庞杂;同时,中医历来有 " 道不传非人、法不传六耳 " 的传统。这都导致中医公开数据的质量普遍较低,高质量数据则非常私密。要知道,没有大量高质量数据的训练,所谓大模型也只能是无米之炊。
大经中医多年来积累了堪称中医垂直领域最高质量的行业数据。其所构建的中医诊疗知识图谱基于大量真实名老中医的诊疗经验和中医文献中的诊疗知识,不仅涵盖了内外妇儿全学科,也覆盖了经方时方和孟河岭南等中医全流派,为大模型训练提供了海量的高质量数据。
最后,作为中医数智化的先驱,大经中医已通过业界领先的中医临床智能辅助诊疗系统(中医 CDSS)为 400 多家等级医院及 8000 多家基层医疗机构用户赋能。这些机构生成的大量数据在通过合规处理后,又可以为中医大模型的训练提供支撑。
根据 " 岐黄问道 · 大模型 " 技术总监王祺的介绍,大模型训练用到了大经中医在过去七年积累的海量高质量数据集。这些独有数据集包括 1100 多万条中医知识图谱数据,1500 本中医古籍和文献数据,10 万份真实中医专家医案数据,10 万条脉象、舌象、经络、穴位数据和 200 万条真实的中医临床诊疗数据。
王祺介绍从知识图谱到 " 岐黄问道 · 大模型 " 的转化路径(图片来自大经中医)
与时下流行的通用大模型动辄以兆计算的数据规模相比,中医大模型的数据量规模表面上看似不大,但这些数据都是经过清洗的高质量数据,一条高质量数据的价值实际上比上百条互联网泛内容的数据价值要高得多。
这些数据的得来并不容易——大经中医花费了数年时间和数千万元的费用才得到这些高质量数据。
大经中医也尤为重视人才,不仅拥有全行业规模最大的中医 - 人工智能跨界研发团队,也拥有行业规模最大的通过协议方式合作开展中医人工智能研究的名老中医团队。这些中医专家也在帮助大模型实现高质量的基于人类反馈的强化学习。
同时,大经中医也积极引入 " 外脑 ",与上海交通大学计算机科学与工程系大语言模型研发团队等国内一流专家合作。双方的技术优势彼此互补,实现 "1+1>2" 的效果,组成了强大的中医大模型研发团队。
只要对于大模型有基本的认知,就不难发现,只有将技术转嫁到应用层,改变用户的体验,大模型才能产生更大的价值。与此同时,多场景下大量用户的应用及反馈也将对大模型的迭代进化起到至关重要的作用——不仅可以帮助训练高水平的理解行业场景和业务的中医垂直领域大模型,也可以持续迭代这个中医垂直领域大模型。
应用优势,恰恰也是大经中医最大的优势之一。
凭借在中医数智化上的突出成绩,大经中医在中医医疗机构有着业内领先的覆盖渗透。无论是上海中医药大学附属龙华医院、广东省中医院这样的等级医疗机构,亦或是南京市江宁区、淄博市高青县这样的区域中医医联体,又或者是山东、吉林等地的基层村卫生室及上海市长宁区 " 为老服务中心 " 这样的大健康机构,还是 " 学习强国 "APP 上面向 C 端用户的应用,到处都可以见到大经中医的中医 AI。这些拥有大量用户的中医人工智能应用场景都对大模型的训练和持续迭代起到了增益作用。
中医大模型是
如何打造出来的,价值何在?
在发布会上,李文友介绍了 " 岐黄问道 · 大模型 " 分三步走的技术路径,分别为从名老中医临床诊疗数据 + 中医文献数据到中医诊疗知识图谱、从中医诊疗知识图谱到中医领域预训练模型和从中医领域预训练模型到岐黄问道大模型三步。
首先,大经中医利用知识图谱来表达和存储名老中医诊疗经验和文献诊疗知识。随后,利用千万级的中医知识图谱数据和临床诊疗数据微调通用的预训练模型,使其更理解中医的思维和知识。最后,中医专家参与其中,对中医领域预训练模型进行进一步调优,利用奖励模型—强化学习机制,并最终形成 " 岐黄问道 · 大模型 "。
这一技术路径最终形成了 " 岐黄问道 · 大模型 " 差异化的独特价值,分别是数据、产品和服务。
王祺表示 " 岐黄问道 · 大模型 " 差异化的独特价值分别是数据、产品和服务(图片来自大经中医)
对于 AI 而言,数据自不必多说。没有过去七年大经中医日复一日高质量数据的积累,也就没有 " 岐黄问道 · 大模型 "。在产品端,大模型是对大经中医现有产品体系的升级。最后则是服务。大模型降低了中医行业使用 AI 产品的门槛,使得更多类型的客户能够在更多场景中使用中医 AI 产品。
知识图谱是 " 岐黄问道 · 大模型 " 得以问世的基础。基于长期的数智中医技术积累,大经中医已经构建了完备的中医知识图谱体系,并将其应用于中医 CDSS 系统中。这一系统已经相当成熟,可根据医生输入的疾病、症状、体征信息可以非常准确地推理出证型、治法、方药结果。
知识图谱转化所形成的 1100 多万条中医自然语义数据则成为了 " 岐黄问道 · 大模型 " 的训练数据,也是 " 岐黄问道 · 大模型 " 能够生长发芽的底层土壤。
另外,基于对知识图谱的应用,大经中医已经形成了一整套完整的端到端业务流程。" 岐黄问道 · 大模型 " 对于自然语言的应用则使得这个业务流程变得更为高效和便捷。
比如,在中医问诊环节,以往医生更多通过中医智能辅助诊疗系统中的规范化症状、体征的点选输入患者信息。如今,利用 " 岐黄问道 · 大模型 " 则可以直接通过自然语言描述输入患者信息。这就使得过去在问诊中丢失的沟通细节可以全部被囊括进来,从而使得诊疗过程中沉淀的更通用的数据集将以十倍乃至百倍的规模增加。
在 AI 辨证环节,大模型的 " 智能 " 不仅局限于知识图谱,还扩展到了那些包含在医案数据和临床诊疗数据等更广泛、更大量数据当中的知识,使得 AI 辨证论治的深度、广度比以往都有了很大的延伸。
由中医专家参与的调整反馈工作则可以让大模型增加对中医知识和中医思维的理解,确保中医大模型回答的准确性和一致性。大模型的 " 基础能力 " 叠加上中医的 " 行业能力 " 后,中医大模型就具备了中医垂直领域的提炼、分类、模仿、推测、识别等能力,并通过与中医行业多种业务场景结合,成为可落地、可使用的中医大模型。
据介绍," 岐黄问道 · 大模型 " 目前已完成预训练和监督微调阶段,已进入奖励模型和强化学习阶段,正通过不断迭代和专家评估来提升其回答的准确性。
目前中医大模型回答问题的准确度相较于原有基于知识图谱的 CDSS 系统超高的准确性的确有一些差距。但其进步非常明显,答案准确性仅通过几个月时间的训练就从 30% 提升到了 60%。后期利用大模型沉淀的数据集持续训练,加上专家持续的评估和反馈,其准确性还将会不断提升。
写在最后
对于中医来说,大经中医 " 岐黄问道 · 大模型 " 的问世无疑是一个里程碑。它不仅可以助力中医传承发展、助力中医学习和人才培养,还可以助力中医 AI 在更多应用场景的落地。
在严肃医疗领域,大经中医的主力产品中医临床智能辅助诊疗系统(CDSS)已经建立起从标杆性三甲中医院到社区卫生服务中心和乡镇卫生院,再到诊所、门诊部、卫生室的各级医疗机构的应用生态。随着 " 岐黄问道 · 大模型 " 的应用,原来一些对于专业度要求很高的中医临床诊疗流程,也可以在 AI 的帮助下,由具备中等专业度的低年资医生完成,且整体的时间消耗会更少。
融合大经中医一系列软硬件产品的 " 数智中医一体化诊疗系统 "(图片来自大经中医)
更需要特别关注的是大健康养生领域。根据弗若斯特 · 沙利文的数据,2019 年我国中医大健康产业的市场规模为已经高达 9170 亿元,预期于 2030 年市场规模将达到 29730 亿元的规模。原本,自今年上半年开始,大经中医的产品线已经从单一的软件产品发展到集成了中医临床智能辅助诊疗系统(中医智脑)和中医智能脉诊仪(中医智指)、中医智能舌面诊仪(中医智目)的数智中医一体化诊疗系统,逐步走出单一的 " 严肃医疗 " 的生态圈,扩展到 " 中医大健康 " 的生态圈,而此次 " 岐黄问道 · 大模型 " 的问世,更是夯实、扩大了这个大健康生态圈,将从事中医慢病管理、中医养生保健服务的养老机构、康养机构、企业健康驿站、社区健康中心、养生馆和美容院等纳入其中,甚至所有把中医融入生活的家庭和个人也成为这个生态圈的重要组成部分。
我们相信,在 AI 的帮助下,假以时日,古老的中医也将会焕发出新的活力。
* 封面图片来源:123rf