云鹰读书会2024第21期（总第205期）

2024-07-03

云鹰读书会2024第21期（总第205期）

2024年5月31日晚上，南开大学经济学院云鹰读书会在圆阶205教室“数字经济与贸易科研训练：理论”课堂上顺利进行，本次读书会由2022级本科生刘桐赫、李姝洁、彭明宇同学展示Maryam Farboodi和Laura Veldkamp的NBER工作论文“A Growth Model of the Data Economy”(with L.Veldkamp,2022), R&R,Review of Economic Studies，由国际经济贸易系何秋谷老师跟进指导，助教薛靖羲提供答疑。

特别鸣谢

本次云鹰读书会由南开大学国际经济贸易系

系友苏武康博士赞助支持

摘要

本文主要构建了一个关于积累数据以促进自身发展的经济体的经典增长模型，以研究数据作为一种信息，能否用于预测来消除未来的不确定性,进而通过不确定性的减少来提升企业的利润率。模型主要解释了为什么数据密集型的产品和服务能够被免费提供以及经济体中众多处于起步阶段企业是负利润的。同时模型也解释了单纯依靠数据积累而没有技术提升无法产生持续性的增长的原因。

关键词：数据要素，知识积累，数据易货，边际报酬递增，S型曲线

1. 引言

1.1概况

数据经济是否存在新的经济学理论？在信息时代，生产越来越依赖于信息，尤其是数据。很多公司，特别是价值最高的美国公司，因为它们积累的数据而备受关注。自从Wilson（1975）以来，我们就知道想法、信息、数据和其他非竞争性投入具有规模收益。由于大公司从数据中获益更多，它们产生更多数据并变得更大，因此数据通常具有递增的回报。

然而，任何数据科学家都会告诉你，数据的回报是递减的：大部分预测值来自最初的几次观察。要理解这些相反的力量及其对经济的意义，我们需要构建一个新的动态均衡框架，并将数据视为状态变量。我们的数据经济模型告诉我们，长期动态和福利类似于资本积累和回报递减的经济。然而，短期具有新的动态特征，例如收益递增、负利润和商品数据易货（数据密集型的产品和服务能够被免费提供，但通过数据积累提升对未来不确定性的预测来提高企业利润率）。

这篇论文的主要贡献是提供一种评估数据、衡量其影响并清晰思考数据积累总体经济后果的工具。数据的衡量和评估是复杂的，因为客户经常提供他们的数据以换取免费的数字服务。我们的价值函数将商品和数据赋予正值，即使它们的交易价格为零。通过这样做，它使聚合模型超越了价格加权估值，并以一种更新的方式思考数据经济中的经济价值。

对数据经济进行建模是一项具有挑战性的任务。一个关键特征是公司/客户行为会产生数据，这是一种信息形式。考虑到这些行为所产生的信息，在选择行动时进行积极实验是重要的。微观级别的积极实验模型通常很难解决，即使没有复杂的平衡力。此外，一个有用的数据经济模型应将数据视为长期存在、会贬值和可交易的资产。这需要使用递归Bellman方法来处理数据状态变量。

第1节的模型描述了一种特定类型的数字化信息，即通过交易产生的数据，公司利用这些数据通过准确预测未来结果来优化其业务流程。随着机器学习和人工智能的进步，数据经济正在蓬勃发展。预测算法起到了关键作用。它们需要大量通过交易自然产生的数据，如买家特征、交通图像、用户评论的文本分析、点击数据和其他经济活动证据。这些数据通常用于帮助公司通过预测需求、成本、收入、劳动力需求、定向广告或选择投资或产品线来进行优化。

由于其简洁结构，该模型可以在许多方面得到应用和扩展。我们在论文中探索了一些应用，而结论中还讨论了其他问题，如不完全竞争或公司规模分散。虽然向主模型添加功能可以使其更好地解决特定问题，但保持模型的简洁性使其具备灵活性。

第2节说明了如何对数据进行估值和折旧。这两个概念都很难直接观察到。然而，我们的模型提供了一种估计特定类型数据价值衰减速度的方法。贝叶斯定理及其相关的卡尔曼滤波器决定了信息准确性下降的速度，并为我们提供了一个简单的估计过程。了解数据如何贬值使我们能够建立一个递归价值函数结构，类似于评估资本的结构，但反映了作为积极实验的生产价值和数据贬值的独特方式。

第3节探讨了公司在达到稳定状态（短期）时所采取的路径。当数据稀缺时，由于“数据反馈循环”，其回报可能会增加。更多的数据提高了公司的生产力，从而导致更多的生产和交易，进而产生更多的数据，进一步提高生产力和数据生成。这是数据稀缺时的主要驱动力。收益递增也可能导致贫困陷阱。数据水平低的公司利润较低，使得几乎不生产成为最佳选择。但是，少量生产的数据很少，导致公司缺乏数据。公司甚至可能选择以负利润生产，作为一种昂贵的数据投资形式，尽管账面价值很小，但股票市场估值可能仍然很高。这解释了观察到的数据易货现象。许多数字服务（如开发成本高昂的应用程序）以零价格提供给客户，以交换客户的数据。以零货币价格进行的服务交换客户数据是一种易货交易。

第4节考察了长期的数据经济。我们从一个思想实验开始：在没有任何技术进步的情况下，数据能否维持增长？这类似于Solow（1956）提出的关于资本的问题。我们发现，从长远来看，收益递减是主导力量。长期数据经济看起来类似于长期资本经济，但原因不同：首先，预测误差只能降为零，这为数据增长设定了一个自然限制。其次，不可预测的随机性限制了公司预测的准确性。这些力量中的任何一个都会确保当数据充足时，其回报递减并且无法维持增长。当然，如果我们改变模型，将数据视为研发（R&D）的输入，那么数据可以维持增长（第4.3节）。信息并不意味着一切皆有可能。关键是为了评估提供信息的事物：我们应该像宏观经济学家通常区分常规资本投资和研发投资一样单独衡量用于研发的数据。

当前一些最激烈的政策辩论围绕着公司对数据的使用展开。考虑到监管和福利方面的需求曲线，我们对家庭层面的微观模型进行了建立。

第5节探讨了这一点，并发现尽管存在非竞争、收益递增和数据作为副产品的生产，但均衡选择是有效的。这并不意味着数据不会造成伤害。这只是意味着我们的模型所描述的简单力量本身不会损害福利。我们扩展了模型以捕捉数据的外部性，例如隐私丧失或通过数据定向营销从竞争对手那里窃取业务。这些负面外部性显然会刺激过度的数据生产，进而扩大商品生产，以产生额外的数据。数据经济是一个复杂的领域，需要更深入的研究和经济学家、政策制定者和从业者之间的广泛讨论。

文章的主要贡献在于为更加理性地思考数据积累及其经济影响提供了一个工具,同时也回答了在思考数据经济时,应当如何从现有的集合框架如索洛(1956)模型和以其为基础的现代DSGE模型中调整思维方式。此外,文章模型也为测度数据提供了指导,能够从中理解数据的定价行为和交易价格为零时企业的经济行为。文章的结论说明了数据就如同资本投资,如果非数据技术(生产力)持续改进,数据将有助于寻找新技术的最优利用方式,数据的积累也可以通过减少技术创新的不确定性来降低技术创新的成本,或者通过提高回报以增加创新的激励。

1.2文献综述

在增长文献中，我们的模型建立在Jones和Tonetti(2018)的基础上。他们探索了不同的数据所有权模型如何影响经济的增长率。我们模型与其他模型的关键区别在于数据是用来预测随机变量的信息。

在Jones和Tonetti(2018)，Cong(2020)的相关研究下，数据直接作用于生产效率，它并不是信息。信息的基本特征是它减少了不确定性。当我们将数据建模为信息而不是技术时，Jones和Tonetti(2018)关于数据作为一种隐私具有效益的结论可能仍然成立。但在这个模型中经济并不是长期增长而是长期停滞。

在“干中学”模型中，企业积累了一种形式的知识，但对于经济来说结论会有所不同。与用来预测的数据不同的是，知识积累不是长期收益递减的，并且它不是一种可交易性资产。数据短期收益递增不同于具有收益递增性质的增长模型Farmer和Benhabib(1994)，因为它们是基于企业间的正外溢性，而我们的是企业内部的反馈环。数据反馈环的早期版本：更多的数据可以带来更多的生产，更多的生产产生更多的数据。在这些模型中，信息都是经济活动的副产品;企业利用这些信息来减少不确定性，制定决策。但关键不同点在于，信息是一种公共产品，而不是私人资产。本文中的私有资产假设改变了企业生产数据的动机。

在早期的模型中，金融公司利用数据来预测商业周期，而不是最优的企业策略。我们将数据作为特定行业或公司中所属于企业的私有财产引入到模型中。探索数据与创新之间的相互作用完善我们的模型。例如，Agrawal et al(2018)开发了一个基于组合的知识生产函数，并将其嵌入到Jones(1995)的经典增长模型，探索人工智能的突破如何提高发现率和促进经济增长。我们的工作分析了在缺乏技术变革时的大数据和新的预测算法。一旦我们了解了这个要点，我们具有对数据和创新顶部的洞察力。在金融学文献中，Begenau et al.(2018)探索了增长是如何在财务数据的处理中影响企业规模。他们没有对企业使用自己的数据进行建模。还有一篇文献是关于数据驱动决策，探究数据在微观经济层面的重要性。我们添加这些活动的综合效应。最后，五方程的简化模型Farboodi (2019)知识存量可以作为一个状态变量。这是一个局部均衡的数字训练，旨在探索具有异构数据企业的规模。本文构建了一个我们用分析方法求解的总量均衡模型，具有更丰富的特征，探索了不同的问题。数据市场、非竞争数据和调整成本的新特征是一个大的突破。这些新的边际分析回答了总体动态和长期产出主要问题的答案。

2. 模型构建

3. 数据经济的特征

4. 数据增长理论框架的拓展

模型框架的重要性取决于可以用来回答的问题。数据增长理论模型框架的好处是可以在许多方向上进行扩展。下面是数据增长理论框架的七个扩展。

4.3 数据理解能力的提高

在前文提到的模型中，数据生产率这一用来衡量企业i能从数据中挖掘信息来提高生产率的能力的指标一直是固定的。在数据生产率为外生时，企业会根据调整自身成本结果以达到最优产出，因此每一组都对应着一个成本结构。假设企业在付出一定成本的条件下提升其数据生产率，即变为内生变量。因此给定一个成本结构，企业在考虑最优化选择时将会选择在此成本结构下能够实现最优产出的数据生产率。因此对于数据生产率的内生与外生重点在于成本结构与数据生产率间的相互影响。

4.4 数据配置的选择

首先引入“理性忽略”这一概念。理性忽略是指在信息处理过程中，由于认知限制或成本考虑，个体或组织无法或不会处理所有可用的信息，而是会选择性地关注那些他们认为最有价值的信息。这是十分符合经济学原理的，在经济学中，资源（包括信息）是稀缺的，因此企业需要在有限的资源下做出决策。

假设电商平台面临两种不同的用户数据：购买数据和浏览数据。购买数据直接反映了用户的购买行为和偏好，而浏览数据则提供了用户对商品的兴趣和潜在需求。然而，处理这两种数据的成本和难度是不同的。购买数据相对简单，可以直接用于推荐算法；而浏览数据则需要更复杂的处理和分析。在理性疏忽的框架下，电商平台需要权衡这两种数据的价值和处理成本。如果处理成本有限，平台可能会选择主要关注购买数据，因为它直接关联到用户的购买行为，对提升销售额有直接帮助。然而，随着处理能力的提升或成本的降低，平台可能会开始考虑利用浏览数据来挖掘更多潜在的用户需求，从而进一步提升销售额和用户满意度。

因此通过理性忽略，我们可以更加精确地描述企业在面临不同类型数据时，如何权衡其价值和处理成本，从而做出最优的决策。

4.5 数据测度

文章的模型为数据测度提出了两种可能的方法。一种是测量产出和交易。考虑到数据作为经济活动的副产品，那么对经济活动的测量可以作为测量总体数据生产的良好指标。对于企业来说，如果存在数据交易，那么企业的实际数据使用量和数据生产量之间是存在差值的。因此可以根据企业对于数据的购买与销售的交易情况来得到企业层面的数据流，而数据存量即为数据流的贴现总和。贴现率与市场类型有关。例如对于时尚服饰行业，消费者快速变化的偏好信息数据的寿命很短，贴现率很高，但消费者手机号码这一数据的寿命就会很长。

测度数据的另外一种方法为观测企业做出的行动，因为掌握更多数据的企业能更加快速地对市场变化做出反应。使用这种衡量方法需要确定公司利用数据能为哪些行动提供信息，公司利用数据预测哪些变量，并对变量和行动进行测量。比如金融市场中的投资组合，通过测度投资选择与未来回报之间的协方差，这一协方差可以体现出投资者掌握了多少关于未来未知情况的数据。

4.6 企业规模的分散——更大或更小

文章的模型为企业规模分布变化的原因提供了一个可能的解答——数据的积累。行业中的大型企业往往有更高的交易量，就能获得更多的交易数据，从而提高生产率，推动企业进一步扩大规模。在这种作用的影响下，行业内的企业规模呈现两极分化。但在模型中这种分散是暂时的。可以利用前文提及的企业增长的S型动态来解释。

初期分散：在企业增长的凸形（即增加回报）阶段，即使企业初始时的数据存量（如知识、技术、市场资源等）差异很小，这些差异也会被放大，导致企业规模变得更加不同（即分散）。这是因为拥有更大知识存量的企业能够以更快的速度积累更多数据（或资源），这种正反馈机制推动了企业规模的分散。

后期收敛：随着企业增长进入凹形（即减少回报）阶段，尽管拥有更大知识存量的企业仍然能够积累更多数据，但每次增加的额外知识或数据所带来的效益在递减。这被称为“递减回报”。在这一阶段，不同企业在其知识存量上的差异对它们的生产力和产出影响变得不那么显著，导致企业规模开始趋于相似（即收敛）。

假定同一行业内的两个初创企业A和B，从事相同的科技产品开发。

A企业由于初始资金较为充裕，更快地招聘到优秀的技术团队，并在市场上获取更多的用户反馈。这些用户反馈（即数据）被用来优化产品，吸引了更多用户，从而进一步促进了数据的积累。B企业则可能因为资金紧张与团队能力有限，在产品开发初期进展较慢，获取的用户反馈也较少。在这个阶段，A和B之间的规模差异会逐渐扩大，因为A企业的数据积累速度更快，能够更快地迭代产品，扩大市场份额。

随着时间的推移，两个企业都积累了一定的用户数据和市场经验。A企业虽然仍然保持着一定的领先优势，但由于市场逐渐饱和，每次新增用户带来的额外效益在递减。B企业则通过不断学习和改进，逐渐缩小了与A企业之间的差距。虽然B企业的数据积累速度仍然不及A企业，但由于递减回报效应，这种差距的扩大速度在减缓。最终，两个企业在市场上的规模可能趋于相似，因为市场饱和使得新增用户的价值对于所有企业来说都变得相对有限。

4.7数据陷阱是国家增长的壁垒

前文提到的在企业层面出现的数据陷阱也可能在国家层面出现。与一个小型转型企业在静态市场中面临的情况类似，可以将其解释为一个小型开放经济体面对稳定的世界价格。如果这样的经济体无法购买数据，或者市场上出售的数据与其预测问题不相关，那么强大的数据反馈循环可能会成为增长的障碍。对于这种情况，政策上的解决方案可以为对数据投资进行大规模推动。

另外一个陷阱为缺乏互补技能的陷阱。在一个数据科学技能稀缺的国家中，雇佣数据分析师的劳动力成本可能会使数据调整成本非常高。因此，稀缺的数据技能劳动力可能会使一个国家的企业陷入数据贫困陷阱。

这可能导致该国的企业在国际市场上失去竞争力，因为他们无法像其他国家的企业那样利用数据来优化生产和营销策略。这种数据贫困陷阱可能会进一步加剧该国的经济困境，并阻碍其实现持续增长。

为了解决这个问题，政府可以采取一系列政策措施，如加强数据科学教育和培训，吸引国外人才，以及与其他国家合作共享数据资源。此外，政府还可以为数据科学研究和创新提供资金支持，以鼓励企业利用数据进行创新和发展。这些措施有助于提升该国的数据科学能力，并为其经济增长注入新的动力。

5. 结论

数据交易的经济学特性在某种程度上既类似于技术，也类似于资本，但又不完全等同。当经济体仅仅积累数据时，其总体增长的经济学特性与仅积累资本的经济体相似，会出现收益递减的现象，即随着数据积累的增加，其带来的额外增长会逐渐减少，最终收益会趋于稳定或有限，但达到稳态的过渡路径存在不同。然而，在数据的生产过程中，其特有的从数据到生产再反馈到数据的闭环结构，使得递增收益成为一种自然的结果，这可能会创造出“数据贫困陷阱”。需要注意的是，当数据市场存在时，虽然可以缓解数据贫困陷阱，但收益递减的现象仍然存在。这是因为数据市场的存在虽然使得数据更加易于获取和使用，但同时也增加了数据获取的成本，使得数据的使用效率受到一定的限制。数据的积累和分析虽然可能被视为“新经济”的标志，但这种新经济中仍然存在着许多我们熟悉和了解的传统经济力量。对于数据经济的研究还需要我们继续为之努力。

参考文献

[1]Maryam Farboodi，Laura Veldkamp. A Growth Model of Data Economy. (with L.Veldkamp,2022) R&R,Review of Economic Studies

下期预告

时间：2024年6月7日下午18:30-21:05

地点：南开大学八里台校区经济学院圆阶205教室

论文：The Changing Economics of Knowledge Production, Simona Abis、 Laura Veldkamp, The Review of Financial Studies, 2024.

文稿：刘桐赫李姝洁彭明宇

编辑：吕宸慧

审校：何秋谷

2024年7月3日

新闻动态

云鹰读书会2024第21期（总第205期）