【AI x 风味研发】把1000位数据分析师装进口袋里

【AI x 风味研发】把1000位数据分析师装进口袋里
2024年10月11日 08:39 FBIF食品饮料创新

来源:FBIF食品饮料创新

提示:本文选自《FBIF2024-2025食品饮料创新报告》,快速拉到底部扫码联络可获取(如果您是FBIF参会嘉宾,请直接联系对接的FBIF工作人员获取)。

内容来源:2024年6月26日,Gastrograph AI创始人、Simulacra Data创始人兼首席执行官Jason Cohen于FBIF2024科技创新分论坛,进行了题为“【AI x 风味研发】把1000位数据分析师装进口袋里”的演讲。

忘掉无休止的调整和试错吧!AI正准备彻底革新风味创新的世界,将1000位数据分析师的综合专业知识装进你的口袋。在全球38个国家、超过15亿风味数据档案的支持下,Gastrograph AI将能以超乎想象的速度分析成分组合与文化趋势,推荐你从未想到的可能风味搭配,预测下一个突破性的热门——突破“美味”的界限。

嘉宾介绍

Jason Cohen,创始人,Gastrograph AI;创始人兼首席执行官,Simulacra Data

Jason Cohen,创始人,Gastrograph AI;创始人兼首席执行官,Simulacra Data

开场与背景介绍

感谢大家今天来到这里。我将讨论如何利用人工智能(以下简称AI)进行风味和感官洞察、建立消费者偏好模型,以及这些技术在产品创新中的应用。

我是Jason Cohen,Simulacra Synthetic Data Studio的创始人兼首席执行官。许多人可能还记得我之前的身份,从2013年到2023年,我一直是Gastrograph AI的创始人兼首席执行官。Gastrograph AI是一家领先的AI风味研发平台,利用AI来模拟人类对风味、香气和质地的感官感知,从而预测全球食品和饮料产品的消费者偏好。大约一年半前,我转任Gastrograph AI的董事职务。与此同时,我越来越清晰地意识到生成式AI将在消费者研究中带来变革。因此,我创立了Simulacra Synthetic Data Studio。Simulacra是一个合成数据生成平台,让你能够基于先前的研究创建新数据,并将新的知识和信息整合到这些研究中。

(一)背景介绍:Gastrograph AI与风味研发

首先,我想谈谈Gastrograph AI取得的成就,包括其使用的技术是什么,能够实现什么功能,以及为什么我们能在这个早期AI平台上取得成功。我们的研究始于2009年,2013年实现商业化,自2016年以来Gastrograph AI一直与全球大型公司合作。Gastrograph AI是一家非常早期的AI公司,我在这十多年里担任创始人兼首席执行官的经历,既让我获得了灵感,也为Simulacra Data(以下简称Simulacra)的构想奠定了基础。Gastrograph AI是一个高度专业化的模型,它利用从世界各地收集到的消费者数据来预测食品和饮料产品的消费者感官感知和偏好。为了建立这些大规模数据库,整个团队前往多个国家、城市和地区,调查不同的人口统计数据,从而预测全球各地目标消费者对产品的感知,以及他们对于产品的喜欢和不喜欢之处。食品饮料企业可以利用Gastrograph AI收集的数据帮助公司开发新产品、优化现有品牌、进入新市场,所有这些都是从为特定消费者创造更好的、更具针对性的风味配方的角度出发的。这一切之所以有效,是因为Gastrograph AI拥有一个在过去11年中收集的专有数据集。

(二)背景介绍:Simulacra Data与模拟数据

相比之下,Simulacra更加通用,Simulacra使用企业已经拥有的数据进行学习,然后生成新数据。企业可以将自己的想法、专业知识、领域知识和外部信息整合到这些数据中,从而生成更多数据,或者运行场景模型和模拟。因此,除了能够使用一些形式的感官数据、QDA数据(Quantitative Descriptive Analysis Data,定量描述分析数据)和CATA数据(Check-all-that-apply Data,选择合适项目法获得的数据)外,Simulacra还可以使用营销数据、消费者偏好数据、市场反应数据、销售数据、零售渠道数据和购物车数据。这个更为广泛的模型具有更广泛的应用范围,这一切都是由生成式AI所实现的。接下来,我将详细介绍Gastrograph AI,我们的成就,以及这些成就如何启发并促使我们创建Simulacra。

数据收集与AI分析:助力风味研发之路

(一)Gastrograph AI的定位与目标

1、预测消费者的风味偏好

Gastrograph AI对于食品和饮料企业的作用在于以下几点:回答他们应该制作什么?应该制作什么特定风味?哪些风味将受到偏爱?如果他们已经有了风味配方或市场上的产品,世界上的哪些群体将最喜欢该产品?他们喜欢和不喜欢什么?以及如何优化它,使他们更加喜欢?利用Gastrograph AI的配方工具,企业可以制定出真正达到与目标一致的风味配方。此外,Gastrograph AI可以预测未来的消费者偏好,洞察未来将会流行的风味、香气和质地。

2、精准定位消费者风味偏好

Gastrograph AI要解决的问题是如何让产品成功上市,获得消费者欢迎。即使在20世纪50年代和60年代初感官科学兴起后,我们仍然看到大量产品失败。在座的许多产品研发者都很了解,在产品的创新周期中,有多少产品会从研发阶段走到市场推广,这些被推向市场的产品中,又有多少能够成功。目前,了解产品是否能够取得成功,依赖的仍然是传统方法,即人类专家、经过培训和校准的小组进行的描述性分析以及消费者偏好测试。Gastrograph AI能够提供一种强大、准确且经过验证的模型,可以精确定位和目标化消费者感知和偏好。

(二)Gastrograph AI的技术成就

1、建立全球风味数据库

这之所以有效,是因为我们在全球范围内收集了数据。Gastrograph AI在超过30个国家和45个地区进行了数据收集,从而进行预测。这些数据收集具有连续性,每隔两到三年,Gastrograph AI的团队就会返回这些市场进行新数据的收集,以保持模型的更新。这是一项巨大的工程,至今已经进行了11年,持续进行数据收集使Gastrograph AI拥有了世界上最大最全面的感官感知和偏好数据库。Gastrograph AI比任何其他公司拥有更多的产品和消费者数据,当时没有人拥有这样的资源,但今天,我们可以将其视为构建的风味基础模型。

2、观察不同风味组合的表现

由于我们在全球范围内看到了所有这些产品和风味的数据,因此我们拥有一些非常惊人的技术能力。例如,Gastrograph AI能够通过不同国家和不同人口对于咖啡的统计数据,看到咖啡不同产品和不同风味组合中的表现。我们还看到了姜在不同组合或不同产品中的表现。此外,在美国的甜味食品和中东的浓郁风味食品中,我们也观察到消费者对于丁香和丁香油与不同风味结合表现出的偏好。因此,借助这些数据,AI可以迭代数千到数十万种潜在的新风味组合,以预测消费者会喜欢的新产品和新风味。

在许多情况下,由于Gastrograph AI拥有的海量、庞大的数据,它甚至可以映射整个市场。例如,这是美国学生咖啡市场的一个例子。您可以看到一些区域,如左下角的奶味、浓郁风味的咖啡更受欢迎,而另一些区域,如右上角苦涩风味的咖啡则不太受欢迎。事实上,我们可以放大风味空间中的任何一个点,以确定那里的感知和偏好。因此,我们可以帮助食品饮料企业识别市场的空白,帮助他们确定产品应向哪个方向发展,他们的竞争对手是谁,以及创新领域。由于这一点,以及Gastrograph AI数据是经过验证的、具有重复可靠性、有效性和稳健性的数据,所以我们现在是尼尔森IQ的全球数据合作伙伴。

图片来源:Jason Cohen分享资料

AI数据生成:数据获取的低成本方式

(一)数据收集痛点:成本高、耗时长、易过时

在运营Gastrograph AI十年之后,以及在建立全球数据库十年之后,我们发现,即使Gastrograph AI是数据利用率最高、数据杠杆效应最大的公司之一,公司也面临着其他任何消费品公司、市场研究平台或风味公司面临的问题——消费者研究的运行成本高、耗时长,而且收集的数据几乎立即就会过时。如果你正在收集数据,或者运行一个大型市场研究项目,希望能得到一些具有统计显著性的结果,从而作出决策的话,你一定希望这些决策结果良好。但我们通常看到的是,这些数据被收集后,往往会进入一个数据仓库,供以后查找。在大多数公司,这些数据可能会进入某个Excel文件夹,这个文件夹可能在共享驱动器上,也可能永远找不到。你为了收集数据付出了许多代价,但是这些数据很可能只使用了一次,然后就被束之高阁。因此,我们认为,用这些数据进行的研究,实际上是对“化石”的研究。

如果能够使用AI生成合成数据,并且可以预测真实的消费者行为,那将可以解决数据收集的各种问题。基于这个初衷,我建立了Simulacra。通过Simulacra,你可以利用任何先前的研究项目,然后生成更多更新的数据。你可以将新的信息整合到原有的数据中,而不需要为每个问题收集新数据或进行新研究。这意味着,你可以扩展数据的用途。

(二)合成数据的应用方式:更新、拓展、预测

1、更新先前的市场调研

这项技术的应用有三个方面。首先是更新先前的研究结论。如果你在一年前或两年前进行了一项市场调查,如今你对目前市场上发生了哪些变化更加清楚了。比如新竞争者的出现、销售变化或消费者偏好的转变,你可以直接告诉AI这些变化,它将为你生成一个全新的数据集。在传统机器学习世界中,AI仅能够从你的数据中学习并预测一个单一数值或做出单一的响应;而生成式AI则创造出完全新的东西,并且这些新生成的内容依然能够真实反映现实情况,实际上比传统预测更准确。

2、拓展市场调研群体

第二个应用是提升难以调查的群体的响应率。如果你进行了一项调查,目标群体是一些难以调查的人群,比如忙于照顾孩子的女性、不在意奖励的富人或通常不响应调查的酒吧招待。你可以简单地使用这些群体的数据,生成更多的数据,并且这些数据在统计上是有效的。你可以直接从中得出统计推论。

3、预测产品表现

最后,也是最强大的应用,是运行“假设”场景模型。你可以使用Simulacra预测未来。你可以向它提问,如果想要X发生,还需要实现哪些条件?例如,如果某品牌希望今年的大客户购买率提高5%,那么这个品牌还需要怎样调整产品配方、怎样调整商业布局?如果某品牌希望今年某款产品的总销售额增长10%,那么还需要哪些条件?AI会为你生成一个数据集,显示实现这些结果的最可能路径。

(三)现场展示:感官数据生成与风味研发

接下来,我将进行一个现场演示,更新QDA数据。这将是一个关于感官数据生成与风味研发的演示。当然,Simulacra具有高度的通用性,你还可以同样将其运用于生成营销数据、市场反应、市场调查、定价和促销数据,也可以用于销售和零售渠道数据、购物车数据,甚至可以进行竞争对手分析,比如如果竞争对手改变价格会发生什么情况。Simulacra可以在最少24个原始观察值的情况下运行。因此,即便我们只有相对较少的数据量仍然可以进行数据生成。但显然,对于多样化的人口和目标,我们需要更多的原始数据。下面我将以一个即食罐装豆类产品为例,像大家展示Simulacra的应用方式。

1、输入原始数据

这里我们从860个原始数据开始,包含37个变量,没有重复的数据。这些数据是非常标准的QDA数据,包括家庭成员、年龄、性别、总强度、番茄香气、培根香气、草本香气、甜味、咸味土豆风味、蒜味。有趣的是,对于这个数据集,我们有五个样本,样本A、B、C和D是已有的市场产品,每个市场产品的原始数据量是200到230个。

2、原始数据分析

样本X是一个正在开发的原型产品,只有30个原始数据。这个原始数据中,男女比例接近50%,年龄分布在20到60岁之间,使用者占67%,非使用者占33%,家庭状态也很均匀,分为有孩子、单身、双收入、无孩子家庭。

再来看一下样本X的喜欢度得分,并看看它在当前的堆栈排名中的位置。我们将数据排序,可以看到产品C和B领先,产品A和D在底部,我们的原型产品X得分为6.83,位于中间。

3、新数据生成

我们将使用这860个原始数据,生成3000行新的合成数据。几乎瞬间,AI就生成了3000组具有相同统计维度的数据。所有数据样本的偏差约为1%。从860组数据增加到3000似乎很难,但实际上远远没有达到系统的上限。现在让我们重新生成6000行数据。瞬间,我们又有了6000个观察值。我们请求6000行,得到了5998行,平均偏差仍然是1%,向下滚动可以看到,这种一致性依然存在。到目前为止,一切顺利。

4、用合成数据优化产品

现在,我要展示如何在60秒内优化产品X,更好地了解这个产品的目标消费者和风味优化方式。首先,我们暂停数据生成,回到原始数据界面,也就是30组产品X的数据。我们将根据这30组数据,生成新的1000组合成数据,我认为这应该足够得出一些有意义的推论。选择样本,并选择喜欢度,然后让AI生成1000组100%关于产品X的合成数据,并且所有数据的喜欢度在7到10之。点击运行后,我们得到一个包含1000行产品X的新数据集,完全符合我们的要求。

这些新数据完全独立,没有重复,数据质量仍然非常高。你可以看到界面上保留了数据的结构和格式,这意味着你可以像使用真实数据一样使用这些数据,没有任何变化或数据完整性的损失。

(1)找到目标群体

现在,我们可以查看目标消费者群体的变化,并优化该产品。可以看到,原先的男女比例是5:5,现在数据中7成是女性,增加了2成,男性则减少了2成,几乎是7:3的比例,说明这个产品更受女性欢迎。再看到年龄维度,这个产品应该主要针对30岁左右的人群,因为这个年龄段人群占44%,其次是20岁和40岁左右的群体。你可以看到年轻时的偏好增加,年纪稍大时的偏好减少,所以50岁或60岁以上的群体并不是这个产品的目标群体,他们不会喜欢这个产品,AI已经将其排除。在身份类型维度,单身人群占52%,较原来的数据增加了18%。因此,现在我们还可以按样本划分,并按变化量排序,获取具体属性级别的优化建议。我们可以将这个产品优化到每一个细节层面。

(2) 调整产品属性

根据合成数据,你也可以通过调整产品属性,比如风味配方,来优化产品。可以看到,为了提升产品喜好度,应该将甜味减少6%,总体甜度减少6%,以及减少草本风味和顺滑度。另一方面,应该增加苦味余味、番茄香气(Aroma)、番茄风味(Flavor)、大蒜风味、红色色素、草本香气、咸味、奶酪香气和奶酪风味。如果你采取所有这些建议,喜欢度将从6.83提高到7.96,位列排名首位。我几乎可以肯定,这完整的优化过程花费不到60秒。而且,你可以进一步调整。例如,你可以调整性别目标,设定AI针对100%女性,针对女性设计更受她们欢迎的产品。这时,尽管只占1%的样本量,你仍然会有1000个数据。

5、数据安全性

Simulacra是目前唯一一家不保存数据的生成式AI平台。我们不会保存你上传的数据,也不会保存你生成的数据或基于你的数据构建的模型。但是如果系统闲置、页面关闭或会话结束,每个会话都托管在一个独立的单租户单元(isolated single tenant container)中。如果你刷新页面,这个容器将被完全且不可恢复地删除。这样,我们可以绝对保证不会以任何方式分享你的数据。没有人能窃取你的数据,因为Simulacra不存在存储硬盘,也没有文件系统,也不保存数据。这极大地减少了隐私问题,并保证不会在为其他公司工作时交叉训练数据,不会发生任何模型或信息泄漏。

在结束之前,我将留几分钟回答问题,我们为提问预留了充足的时间,谢谢大家。

问答环节

提问:我想问一下,模型会给出的结果是否经过市场验证?您能否举两个或三个例子,说明模型生成的结果与市场上的实际情况是否一致?或者,您是否可以使用市场上的产品来进行验证,然后将结果与市场结果进行比较?

Jason Cohen:谢谢你的问题。我们进行了多种不同的验证。首先,我们使用了尼尔森IQ的定价和促销数据集。我们根据2021至2022年的销售数据进行2023年的销售数据预测,并将其与2023年的实际销售数据进行盲验证。这个验证在我们一位客户的监督之下进行。尼尔森IQ的定价和促销数据集,为我们提供了哪些产品在什么价格、什么商店销售的真实数据。在这些原始数据基础上,我们能够在2023年的预测中比标准尼尔森预测更准确,即使在价格变化和市场通货膨胀的情况下,我们仍能准确预测。这是最高级别的验证,因为我们有真实数据作为支撑。

除此之外,还有许多简单的方法可以自行验证模型的应用。一个方法是从已知数据集中剔除部分数据,然后对缺失的消费者群体进行预测。比如,去除所有20岁的男性数据,然后预测该群体,看模型是否与现实相符。大多数客户在试用期间都会进行类似的操作。

此外,更重要的是,当公司使用平台时,平台会复现他们已经知道的信息。如果他们要求更多关于儿童的数据,他们会看到甜度偏好增加;如果他们关注年轻群体,他们会看到酸味偏好增加;如果他们观察购买行为,他们会发现购买汽水的人群正在转向低糖或无糖饮料。这种对外部领域知识的复现是最重要的,因为它意味着系统真正地在学习,而不仅仅是复制、猜测或基于相关性运行。它能够重新创建这种专家领域知识,而不需要直接的教导。

提问:您好,今天的讨论让我学到了很多。作为一名年轻的企业家,我发现利用尼尔森的数据在我现阶段的业务中成本非常高,即使在运营了大约六年后,花费也接近1000万美元。我想问的是,对于想利用你们的平台来识别新市场机会的年轻企业家,你会有什么建议?在这些大公司拥有大量数据的情况下,创业者如何在不拥有外部团队的情况下,通过合成数据利用现有资源来占据行业的新空间?

Jason Cohen:这是一个很好的问题,也是一个涉及数据和资源的多元问题。确实,对于小公司而言,大公司可以访问的大多数数据在成本上是不可承受的,无论是收集自己的数据,还是购买尼尔森或其他数据库的数据。这些类型的数据通常只有大公司能够负担得起。在我之前的公司Gastrograph AI,我们发现小公司在成长到一定规模之前,通常无法有效利用这些数据。大企业通常会问,为什么Gastrograph AI不自己创造产品?为什么不帮助小公司开发产品?不幸的是,小公司没有足够的资源来利用基于AI的产品开发策略。比如,如果你告诉一家小型精酿啤酒厂,这款IPA啤酒在你们的本地市场排名在70%左右,在全国范围内则是60%,但在美国西南部的西班牙裔受过大学教育的男性中,这款产品的偏好度是98%。小公司可能会问,这些信息对我有什么用?而大公司则会认为这是一个巨大的机会,他们会利用自己的分销网络、品牌经理和本地广告市场来推广这个产品,这对他们来说是一个巨大的胜利。

这种资源和能力的差异一直是一个限制因素。然而,我认为生成式AI正在改变这一局面。例如,在Simulacra,我们所有的营销材料、图像和解释视频都是由AI生成的。在Gastrograph AI,我们曾经需要雇佣一个完整的团队来做这些工作,包括创意和广告代理机构。而在Simulacra,我们作为一个小公司就可以完成这些任务。

因此,我认为在数据使用方面,你可以通过创造性地使用数据来获得优势,尤其是在大公司还不愿快速采用的新数据源上。你可以收集少量的消费者数据,可能只有30、40或60个观察值,然后使用类似Simulacra的工具来提升发生率,快速找到可以修改或激活更多用户的方法。你可以比大公司行动得更快。我知道这个答案可能不完全令人满意,但希望对你有所帮助。

问题:您的演讲非常具有洞见。根据我的理解,我们仍然需要人工收集数据并将其输入系统,对吗?我们多久需要更新一次基础数据池?因为我看到在快速消费品行业,消费者的喜好变化非常频繁。

Jason Cohen:是的,您确实需要一个起始数据集。Simulacra的AI会基于先前的研究进行训练。这些先前的研究可以很小,也可以有某些缺陷,或者人口统计数据不平衡,但您确实需要一个起始点。这个起始点的数据质量非常重要。

Gastrograph AI拥有自己的专有数据库,并在风味方面训练了自己的基础模型。Gastrograph AI每天都会更新,因为Gastrograph AI在纽约和罗马尼亚有常设小组,并且不断有数据流入。它在全球进行人口统计调查,因此数据每天都在更新。Simulacra没有自己的专有数据库。Simulacra基于用户输入系统的数据,因此用户输入的数据需要符合自己的质量标准,满足个性化的筛选要求。但正如我之前所说,它不需要完全完整,不需要像传统方法那样庞大,也不需要最新,因为你可以简单地更改那些已经过时或需要修正的数据。举一个简单的例子,如果你的目标消费者群体是50%的男性和50%的女性,而你进行了一次调查,但得到了60%的男性和40%的女性的数据,那么你可以通过调整这些数据来使其更符合实际情况。

80万字,126篇内容,《2024-2025 FBIF食品饮料创新报告》来了!

扫码联络下载!👇

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

海量资讯、精准解读,尽在新浪财经APP

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部