文 | 阑夕
时值OpenAI冲击上市的当口,这家公司还在打着一起事关人命的官司:
一年前,美国得克萨斯州的19岁大学生Sam Nelson在询问ChatGPT能否混用两种药物之后,得到了肯定的回答,甚至包括推荐剂量,之后照此服药的Sam Nelson于当夜去世,死因是那两种药物共同造成的呼吸抑制副作用。
随着那对痛苦心碎的父母将OpenAI诉诸法庭,一个已经泛滥同时却也保守批评的应用场景再次被推倒了风口浪尖,那就是——AI看病到底靠不靠谱?
相比大公司们都争先恐后的追求模型上限——这固然重要——我其实更想看到的是,有没有大厂愿意在必要时放慢一步,解决AI在求医问药这种几乎没有容错率的场景里是否真正值得托付的难题。
· · ·
之所以说这么多,主要还是因为发现了确实有产品在做一些新的尝试。
老读者应该都知道,我有慢性荨麻疹,不是什么大病,就是比较闹心,迄今为止只有一次因为叠加了海鲜蛋白过敏引起了严重到必须入院的症状,在那之后我就比较小心,手边常备氯雷他定。
但寻麻疹这事儿的微妙在于,它每次发作的程度非常随机,出于「身体的事再小也得重视」这个原则,我成了蚂蚁阿福的月活用户,就为它的拍皮肤功能。
我当然知道AI没有诊断能力,但看皮肤和看CT片子的原理是一样的,主打一个经验主义的对照,当模型经过了定向训练——看过了成千上万张图片和诊断结果——之后,除非我身上出现了世间罕见的、未经记录的信息,负责它大概率能从数据库里找到同类病例,并且给我相对稳妥的建议。
我要说的,倒也不是这个已经运行了小半年的功能,新的变化在于,它开始支持用户发起请求,让三甲医院的执业医生对AI的判断进行复核。
这么一来,所谓AI看病是个伪命题的性质,就完全变了。
用户心里没底的原因在于,模型的本质是预测下一个Token,这也是为什么说我们在很大程度上——甚至必须——理解AI厂商的免责声明,因为实在是非技术所能及。
但阿福把真人医生拉进来,相当于在常规的问答轮次之外新增了一个类似后训练的流程,完全改变了AI的回答份量。
给你们感受一下这个过程:
在拍了疹子给阿福观察之后,它先是追问了一些细节情况,也给出了诊断建议,到此为止都还很正常,直到最后弹出邀请三甲医院医生确认分析结果的卡片,体验就和市面上所有ChatBot产品都不一样了。
简单授权之后,阿福给我对接了一个皮肤科专家,等了差不多五分钟,对方发来了「医生认可」的盖章,让我吃下了一颗定心丸。
而且阿福目前可识别的皮肤病范围,已经从50种增至100多种,能够覆盖99%的线上就医常见皮肤问题。
是不是有点意思?
· · ·
半年前,我在参加一期讨论AI健康主题的播客时,就聊到了互联网医疗那波热潮过后的理想与现实:
那些在线问诊平台的初衷,通常都是想让三甲医院的医生在闲时也能线上看病,由此来为医疗资源较弱的三四线城市解决分配不均的问题,然后就发现这些好医生根本就没有闲时……于是画面就变成了,三四线城市的医生在闲时给一二线城市的年轻人进行线上问诊,互联网改变的是匹配机制,却并没有创造出新的供给。
AI的不同,是它真的能够承接海量的问诊需求,并且具有理论上不逊于资深医生的知识库,但是问题在于,它无法替代真人医生,无法和真人医生一样能结合自身经验和多维度观察。
蚂蚁阿福通过「AI+医生」的模式,极有巧思的互补了AI和医生:
AI先接住海量需求,解决绝大部分问题,医生再复核拿不准的地方。
从我分享的自身实例就能看出,只有用户不放心,需要复核的时候,才需要真人医生来判断,这意味着医生的时间成本也得到了最大程度的保障。
某种意义上,我们不能完全信任AI的原因不是AI经常犯错,恰恰相反,它是会在99次正确里掺杂1次错误,这种小概率但要命的疏忽,才是用户不可承受之轻。
而「AI+医生」的模式,则是在用最高效的方式,把人机合作的好钢用在了刀刃上。这是把「HITL」(Human In The Loop)的理念用在了现阶段的AI看病原则里,它源于 20世纪中期的控制工程、航空航天和军事自动化:
机器可以自动运行,但人类仍参与反馈、判断或最终决策,后来被引入机器学习和AI治理领域,在重要决策中保留人的监督和干预权。
如果说被「龙虾」误删电脑文件尚能补救或是损失可控,那么在性命攸关的事情上让专业的医生去给AI「批作业」,无论是实际上的安全性还是心理层面的可靠性,都得到了质变。
· · ·
很巧的是,最近我在刷一部医疗题材的神剧「匹兹堡医护前线」,豆瓣评分高达9.5,镜头对准了一家急救医院的重压日常,在永远看不完的病人和始终不够用的医生之间,艰难化解矛盾的故事。
其中分诊制对于效率优化的作用被提到过很多次,虽然这难免引起部分病人的等待时间变长,但以轻重缓急为标准去为急救室输送病人,依然是能够最大化挽救生命的方案。
阿福的做法,有点像是给目前的AI看病配置了一种「分诊制」,先接住海量需求,并以性价比最优的资源占用率,去做出准确的反馈。如果用户觉得需要医生再确认一遍,由用户发起之后,真人医生便会介入,根据上下文给出判断,也会向用户发起文字对话,请求补全信息后再做考虑和回复。
正常人使用AI,不会像基准测试那样,按照出题规范那样去和AI一唱一和,他们往往起手就是「我肚子疼」,然后希望能从AI那里直接得到即刻应验的答案,这不现实。
至少从我的使用体验来看,阿福的追问已经相当「尽职」了,在上下文不足的情况下,它基本不会轻率作答,而是会细致追问,而在有了医生接入判断的组合之后,用户和AI之间的对话也会成为更加详细的上下文,去为医生节省诊前时间。
我相信,带着这样的AI使用过程,即便是真的在医院里和医生讨论病情,也一定不会引起医生的血压升高⋯⋯
· · ·
古人说,「尽信书,则不如无书」,读书当然是好事,但唯书本是从,就会丧失思考能力,反倒比不上直觉的判断。
在今天的这个时代,「尽信AI,则不如无AI」的常识也应当被建立起来,和纯粹的反AI叙事不同的是,科学合理的与AI相处,懂得正确的使用科技,已经属于上网冲浪的基本素养了。
而阿福做的事情,确实是在是在医疗资源长期不均的环境里,让AI负责任的担当普通人焦虑身体的求助对象,同时因为有了医生把关的最后一道防线,用户被尊重的体验也上升到了前所未有的地步。
阿福现在的「AI+医生」模式只在皮肤类目开放,可能还要收集反馈,我是很期待能有足够乐观的信息,包括已经看到其他用户强烈呼吁了,希望能够覆盖更多科室和类目,真正意义上让天下没有难看的病。
这事儿能不能长久的做下去,我说不好,但我能知道的是,它一定是对的。