云鹰读书会2024第20期(总第204期)
2024-07-02特别鸣谢
本次云鹰读书会由南开大学国际经济贸易系
系友苏武康博士赞助支持
摘要
大数据技术改变了数据和人类劳动结合创造知识的方式,这是一个普通的技术进步还是一场数据革命?利用投资管理部门的招聘和工资数据,我们展示了如何估计公司的数据积累和知识生产函数。这种对生产函数变化的研究使我们能够了解由于新的大数据技术,在产出、要素份额和收入分配方面可能发生的长期变化。利用投资管理部门的数据,本文结果表明,知识相关工作的劳动收入份额可能从29%下降到21%,这种与大数据技术相关的变化是工业革命带来的变化的三分之二。
目录
1. 引言
2. 相关文献
3. 测量模型
4. 数据与估计
5. 研究结果
6. 结论
1. 引言
机器学习、人工智能、大数据技术减少了人类在产生可用知识时的判断作用。这究竟是一次寻常的创新,还是一场变革性的创新?这种技术转变的本质与工业化类似:在 19 世纪和 20 世纪,工业化改变了资本—劳动比率,允许人类使用更多的机器、工厂和复杂的工具,成为更高效的商品和服务生产者。今天,机器学习正在改变数据—劳动力比率,让每个知识工作者都能充分利用更多的数据,成为更高效的知识生产者。经济学家将工业化建模为生产技术的变化:从一种资本回报显著减少的技术,转向至一种资本回报递减较少的技术。因此,工业革命的规模可以用决定收益递减的生产参数变化的幅度来概括。同样的统计方法可以估计新的大数据技术对知识生产的影响。通过衡量大数据技术的采用在多大程度上改变了数据的收益递减,并将其与工业革命期间发生的生产函数变化进行比较,可以告诉我们这是一次有用但常见的创新还是下一场革命。
金融行业是研究知识生产趋势的一个特别有用的实验室,因为它是新的大数据技术的早期采用者。使用来自投资管理部门的劳动力市场数据,我们估计了两个生产函数——一个用于经典数据分析,一个用于机器学习。数据收益递减的下降表现为生产函数中的数据指数更接近1:我们估计数据指数从0.711上升到0.791。控制收益递减的参数增加0.08。这意味着,知识生产企业在最佳情况下应该每个工人拥有更多的数据。这一变化也影响到了工资,支付给劳动力的企业利润份额将下降8%,支付给数据所有者的知识利润份额增加了8%。换句话说,新的数据技术从结构上增加了数据作为一种资产的价值,并使数据所有者更加富有。最后,这些转变所代表的生产变化的规模大约是工业革命期间所经历的变化的三分之二。
估计新旧知识生产函数是具有挑战性的,因为公司拥有的数据量、创造了多少知识以及采用的技术是难以测度的,但是我们可以观察到的是招聘、技能要求和工资。构建一个简单的两层生产经济模型可以帮助我们推断其余部分,生产的两个层次如下:原始数据由数据管理人员转化为可用的、经过处理的数据;经过处理的数据和数据分析师的劳动结合起来产生知识。因此,我们使用雇用数据经理来估计公司数据存量的规模,通过分析师的技能组合来估计工作中的数据技术组合,并且我们通过使用工资数据来构建收入份额来绕过衡量知识的需要,收入份额告诉我们每个因素的收益递减。
为了估计生产功能,我们必须精确地对招聘信息进行分类,并根据雇主对招聘信息进行匹配。与其他测量机器学习相关就业的工作(Acemoglu 和Restrepo等,2018)不同,我们的工作需要更精细的工作划分。我们需要区分准备数据供机器分析的工人、使用机器学习的工人以及使用过去的统计技能的工人。我们还需要知道,数据经理是否受雇于同样在招聘机器学习分析师的同一家公司。
因为不同的行业有不同的工作词汇,我们可以通过专注于一个行业来更准确地分类工作:金融,更具体地说,我们专注于投资管理。由于投资管理主要是一个知识产业,没有实物产出,因此它是一个有用的环境,可以将这些不同类型的知识工作区分开来。根据Webb(2019)和Brynjolfsson和Mitchell等(2018)的研究,金融也是人工智能劳动力替代潜力最大的行业。我们使用Burning Glass的招聘数据,包括每个职位的文字描述,来隔离每个雇佣财务分析师的公司主要使用和不主要使用机器学习的财务分析职位,以及数据管理职位,我们根据职位填补的概率来调整职位发布的数量,由此我们衡量一个公司期望增加的劳动力。这一系列的工人增加,以及按工作类别划分的工作分开,使我们能够建立一个衡量每个公司劳动力存量的指标。
下一个挑战是估计每家公司拥有的数据量。我们认为数据管理工作是对贬值的数据资产的一种昂贵投资,因此,我们使用数据经理的职位发布、此类职位的职位填充率和离职率,以及对初始数据存量的估计来构建每家公司每年的数据流入。为了估计每个投资管理公司2015年的初始数据存量,我们选择一个初始数据库,使每个公司的实际招聘数量与每个类别中最优招聘数量之间的距离最小化。将这个初始存量与数据折旧率和数据流入系列结合起来,我们可以估计每个投资管理公司在其数据库中拥有的数据存量的规模。
根据PayScale的数据存量、每个类别的劳动力和工资,我们估计了数据和劳动力收入份额,这些收入份额对应于柯布-道格拉斯生产函数中的指数。我们估计一个恒定回报的柯布-道格拉斯函数,因为我们正在探索人工智能类似于工业化的类比,这是最常用于描述工业产出的生产函数类型。因此,我们将知识生产与工业化并行建模,以方便比较认识到数据的非竞争性。通过比较经典数据分析和机器学习数据分析的估计指数,我们可以评估技术变革的程度。
这种方法绕过了两股力量:资本的作用和增加回报的潜力。通常情况下,知识与资本结合在一起,产生利润,形成一个可能呈现递增回报的生产函数。第三部分展示了如何在不改变我们估计知识生产的方式的情况下,将这两种特征纳入我们的企业利润模型:只要存在一定数量的知识就产生1美元的利润,我们只需要考虑数据和劳动力如何结合创造这一数量的知识,而不需要考虑如何利用这些知识创造利润。
我们的数据显示,在投资管理部门,知识工作者的就业正在发生稳步变化。我们看到,掌握新大数据技术的劳动力比例稳步上升,掌握旧技术的劳动力份额的下降。这可能会导致人们期望采用旧技术的知识工人减少,但我们发现该部门规模的增长足够大,以至于即使份额缩小,工人数量和他们的工资也会增加。虽然2015年,人工智能职位只占所有分析职位的一小部分,但到2018年底,投资管理公司中约有七分之一的金融分析师掌握新大数据技术。我们测量的这些变化只是采用这项新技术的前几年,但它们表明了一种转变的方向,我们预测这种转变将在未来几年会持续下去。
2. 相关文献
Jones和Tonetti等(2020)在研究数据在经济增长过程中的作用时和我们基于模型的方法基本一致,但其将数据和知识直接等同起来,而本研究揭示了原始数据是如何转化为有价值的、能提高产出的知识的。
许多工作论文使用劳动力市场数据来调查机器学习和人工智能是如何影响劳动力需求的,他们主要使用双重差分法。例如,Acemoglu和Restrepo(2018)等确定了更容易接触到机器学习相关技术的行业,在控制了其他与劳动力相关的变量后,他们报告了相较于未受影响的行业,有多少工作岗位已经失去或增加;Agrawal和Gans等(2017)认为,机器学习很可能是一种通用技术,因为它被广泛采用于各行各业;Kogan和Papanikolaou等(2021)的研究则运用了一种类似本文的方法,关注新大数据技术对相关技术人员的就业和收入风险的影响。
在我们的方法中,由于机器学习而获得或失去的工作数量是一个重要的证据,它影响着我们的工作,但劳动力需求不是我们的主要问题。本文关注技术如何影响知识生产,所以需要使用一种不同的、结构性的方法,关于自动化和机器人技术的文献对实物生产也提出了类似问题(Berg和Buffie等,2018)。其他人则研究了在提供信贷(Fuster等,2018)、股权分析(Grenna等,2018)或更普遍的深度学习(Brynjolfsson等,2017)中采用人工智能技术后的生产率提高或潜在的歧视成本,这些见解也与知识生产如何变化的问题不同。《货币经济学》则探讨了机器人和体力劳动者之间的替代弹性。
测量数据及其价值是对估计无形资产价值工作的补充(Crouzet等,2020),但前人研究目标是分解企业的价值来源,而本文感兴趣的是同一家公司内使用的两种技术有多大不同,所以需要不同的方法。
文章的第三部分建立了一个三方程模型,并且推导了我们用于从数据推断参数的最优条件;第四部分介绍了选取金融行业的原因,描述了数据以及我们如何使用它来组合与模型中的对象相对应的变量;第五部分介绍了估计结果,探讨了就业、工资和跨公司的一致性如何决定我们的估计参数,同时还估计了公司数据存量的价值;第六部分是总结。
3. 测量模型
4. 数据与估计
4.1 投资管理行业
在估计参数时,我们选择金融业中的投资管理行业数据。选择这一范围的原因有以下四点:
1.投资管理行业主要是知识生产行业,利用信息分析和预测资产回报、投资组合的利润,这与我们所研究的将信息加工成知识的过程类似。
2.金融业是AI和大数据技术的早期采用者,AI劳动力招聘数量仅次于信息和商业服务行业,是人工智能替代劳动力潜力最大的行业,具有代表性。
3.金融业相关职位通常无空缺。金融行业薪酬较高、竞争激烈,是空缺职位转化为新就业的比率最高的行业之一。
4.若扩大样本到其他行业,数据处理将更加棘手。不同行业对同类工作的描述词汇不同,需构建的词典更加复杂,可能影响估计的准确性。
4.2 劳动力需求
劳动力招聘量反映劳动力需求量。我们从Burning Glass 2010.01-2018.12 的招聘数据集中获取招聘数据。该数据集信息来源广泛,涵盖美国60%-80% 的招聘信息,金融行业的信息尤其全面;提供的信息丰富全面,数据报告雇主名称、职位、技能要求等,且包含以非数字形式发布的职位。
接下来开始构建数据集。构造数据集分为三步。
(1)筛选出金融行业的招聘数据。使用北美产业分类体系、美国劳工部职业信息系统和专有的Burning Glass代码,筛选出金融行业的招聘样本。
(2)对金融行业工作进行分类,区分数据管理者、AI分析师和OT分析师。定义数据管理者为需要与数据清理、采购、结构化、存储和检索相关技能的工作,定义数据分析师为将结构化数据与劳动相结合的工作。构建“数据管理”与“数据分析”的关键词典,分析招聘启事全文, 根据关键词出现的相对频率进行分类。在“数据分析”关键词中,进一步识别旧技术、新技术的关键词,区分 AI 与 OT 分析师。
整理得到AI、OT、DM的关键词词云图,如Figure2所示。词云图显示了招聘信息中,属于每类职业的所有关键字的出现频率,字体越大,词频越高。词云之间的显著差异也证明了,分类是有效的。
(3)将招聘信息与雇主进行匹配。将雇主范围限制为2010-2018年发布至少5个AI或OT职位的雇主,这样的公司更具代表性。接下来,创建雇主名单、识别候选雇主、标准化,并基于Levenshtein 距离算法测算相似度,将候选人与雇主进行匹配。
4.3 工资
Burning Glass工资数据并不全面,所以我们从PayScale获得工资数据。我们取得了5639 份 DM 工资数据、2817 份 OT 分析师工资数据、2585 份 AI 分析师工资数据,据此计算三类劳动力的每月平均工资,再使用12个月的数据进行移动平均来平滑工资,获得工资的时间序列数据,然后将其用于结构估计。
通过图像可以发现,AI分析师的年薪比传统的分析师约高2万美元,表明AI分析师可以更有效地利用数据。而在柯布道格拉斯函数中,指数的大小反映了要素所得在总产值中所占的份额,也即指数越大,工资也就相应越高。所以工资差异也佐证了,AI、OT两种生产函数存在明显指数差异。
4.4 累积劳动力存量
通过招聘启事,我们获得了各时期劳动力招聘量,但真正所需的是实际在岗的所有劳动力数量,即累积的劳动力存量。因此,我们要对两组概念进行区分。
4.5 数据折旧
数据折旧率取决于被预测变量的时间序列属性,以及数据管理的性质。对于数据价值本身,若随时间推移,数据波动较小、持久性较强,则其折旧率较低;反之较高。过往研究表明,数据价值的月折旧率一般在 5%-7.5% 的范围内。
但对本研究而言,数据贬值了多少并不是我们关注的,数据管理者本身的劳动产出贬值与否才是重点。对 DM 而言,数据由系统自动提取,单位劳动力产生的结构性数据流不会贬值。因此,我们关注的折旧是硬件损坏、数据链接更改或软件需要更新,更类似宏观理论中的标准资本折旧。我们采用标准会计惯例,将每月折旧率视作3%。此外,我们还探讨了折旧率为1%、10%的情况,以评估高频流动数据和长期数据。
4.6 累积结构化数据存量
5. 研究结果
研究结果分为四个部分。第一部分是主要结果,包括本文对生产函数参数的估计。本文的结果显示,知识生产变化的规模约为商品生产工业革命规模的三分之二。第二部分探讨了本文得出这一结论的原因。它解释了为什么公司的数据-劳动力比率是确定生产函数指数的关键统计数据。第三,将本文的结论与一篇关于劳动力替代技术变革的文献联系起来。我们发现,随着技术的采用,该行业的劳动力需求正在上升。最后,本文使用我们的结构模型来评估金融分析公司正在积累的数据。
6. 结论
当代观点将新的大数据技术描述为下一次工业革命,更具体地说,是知识生产的工业化。工业化是采用新的生产技术,涉及较少的人力投入和资本收益递减得更少,即工业化的关键特征是要素份额发生了变化。因此,如果大数据技术是知识生产的工业化,那么它们应该提供较少的数据递减回报。
我们通过对知识生产进行建模来探索这一假设,描述了劳动力和数据如何与科布-道格拉斯生产函数混合来生产知识。然后利用财务分析这一特殊知识生产类型中的工资和劳动力流动来测算知识生产函数的指数。我们发现生产函数发生了实质性的变化,其幅度与工业化造成的变化相当。
人工智能和大数据技术的采用,以及数据存量的积累,因公司而异。拥有更多数据的公司更倾向于雇佣更多的大数据或人工智能员工,即这是一种正在改变生产要素组合的技术。这一发现改变了未来劳动收入的份额。在一个规模收益不恒定的模型中,这样的变化会导致数据收益递减较小的企业很可能拥有更大的最优规模,并且未来的知识将更加丰富。
该模型的两个扩展将在接下来的步骤中发挥作用。一种方法是放宽知识生产规模回报不变的假设。产生新知识变得越来越困难(Bernard and Jones, 1996)。我们使用恒定收益是因为它便于与工业化进行比较,后者通常使用这种生产函数。恒定回报也产生了从劳动份额到生产函数指数的清晰映射。在非恒定回报的情况下,关于确定市场工资或要素份额的最佳方法存在相当大的争议。陷入这种争论会分散本文的主要信息。
另一个延伸是考虑市场力量。数据所有者收取租金,因为数据不是完全可替代的。知识生产企业也生产差异化的产品,使他们能够盈利。市场力量确实与均衡工资相互作用。修正它会使模型的数学计算复杂化,但也会使生产函数的估计更加精确。
当然,这个估计是针对在一个部门从事一种工作的工人。在其他行业,大数据可能会或多或少地改变产出,因为在其他领域机器学习并没有被广泛应用。要了解我们目前正在经历的数据处理技术变革的规模和后果,这方面还有许多工作要做。
参考文献
[1] Simona Abis, Laura Veldkamp, The Changing Economics of Knowledge Production, The Review of Financial Studies, Volume 37, Issue 1, January 2024, Pages 89–118.
下期预告
时间:2024年6月14日晚18:30-21:05
地点:南开大学八里台校区经济学院圆阶205教室
论文:
Philippe Aghion & Antonin Bergeaud & John Van Reenen, 2023. The Impact of Regulation on Innovation, American Economic Review, vol 113(11), pages 2894-2936.
文稿:李佳灿 位福林 姬姝延
编辑:吕宸慧
审校:何秋谷
2024年7月2日