刚刚过去的2023年,以Chat GPT为代表的AI(人工智能)大模型引发前所未有的关注,国内AI领域掀起了研发大模型的极大热潮,各个产业也都开始探索大模型在本行业的应用。
在2023年底召开的中央经济工作会议上,也明确要求“加快推动人工智能发展”,会议还提出,要以科技创新推动产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,发展新质生产力。
新质生产力“新”在何处?要形成新质生产力有没有比较好的抓手?为什么这一次AI大模型能引起如此高的关注?我们应该怎样看待AI大模型在当前科技领域的地位和影响?AI大模型训练和优化过程中面临的难点又应该如何来解决?
围绕这些问题,中国社科院信息化研究中心主任姜奇平近日在接受《每日经济新闻》记者(以下简称NBD)专访时表示,新质生产力发展是新的劳动者利用新的工具作用于新的对象这样一个过程,形成新质生产力的抓手应当是在“十五五”期间加快建设现代化产业体系,特别是其中的战略性新兴产业与未来产业。
在他看来,当前AI大模型还存在缺失价值判断能力的短板,要解决这个问题,需要下一代人工智能进行基础层的范式革命。“中国在这方面有机会,可以谱写‘中国式现代化的科技篇章’。”
新质生产力离不开数据
NBD:我们应该如何理解新质生产力?新质生产力“新”在何处?
姜奇平:我赞成这样一种说法:“新质生产力的基本特征是数字化、网络化、智能化。”
首先,从技术角度看,生产力的质主要是指效率的性质。
数字时代新质生产力与工业时代新质生产力相比,效率的性质有所不同。全要素生产率中的技术,以往一直默认为只有一种技术,即工业技术。效率概念本身也一直被默认为专业化效率,它在现实中构成做大做强的效率基础。
而与工业技术并列的,还有另一类效率,即多样化效率,它是“做优”的效率。因此,“整合科技创新资源”的侧重,如果放在以数据为主要生产要素的新科技上,需要把效率的发力点在“做大做强”基础上升级为“做优”。这样可以充分体现新质生产力在数字时代发展不同于在工业时代发展的那种时代特征。
其次,从经济角度看,经济的质由价值的性质决定。新质生产力创造的价值,首先是新的使用价值,即新质使用价值。新质生产力创造的价值,是创新劳动价值。由信息、知识、数据创造出的附加值,构成数字经济的价值本体。因此新质生产力与数字经济,在创新附加值上是一致的。推及从信息中产生的生产力,本身就可以得到这样的判断:“信息生产力是当今社会发展产生的新质态生产力”。
第三,“新质”在技术经济结合上体现为三“新”。新质生产力发展是新的劳动者利用新的工具作用于新的对象的过程。
不同于传统以简单重复劳动为主的体力工人,参与新质生产力的劳动者是能够充分利用信息技术,适应先进数字设备,具有知识快速迭代能力和信息决策能力、自主意识的新型人才。新劳动工具既包括高端智能设备、计算工具,如人工智能、虚拟现实和增强现实、自动化制造技术、设备及数据基础设施,也包括数据等新型生产要素。新劳动对象是与新质生产力相适应的、由数据构成的可以驱动实现对应实体功能的符号存在,如虚拟现实。
这三“新”都以数据化为时代内涵,这决定了新质生产力离不开数据的存在。
带来新的产业增长空间
NBD:具体到实践中,您觉得要形成新质生产力有没有比较好的抓手?
姜奇平:这个抓手应是在“十五五”期间加快建设现代化产业体系,特别是其中的战略性新兴产业与未来产业。
新质生产力对产业的改变,主要表现在功能替代、组织替代与生产方式替代上。
首先,将以物质、能源为主要功能载体的传统产业,转变为以数据为主要功能载体的全新产品、生产资料、零部件和原材料,形成高附加值产业。新质生产力用知识、技术、管理、数据等新型生产要素替代有形生产要素,减少了对生态环境的损害。通过数据的功能替代,降低了自然资源和能源投入,使经济增长摆脱了物理要素驱动的制约,例如新能源、新电子设备汽车以电池、数控系统替代燃油汽车中发动机、变速箱的同等功能,将工业设备变为信息设备。
其次,数据科技导致产业组织方式发生根本变革,从受到时间、空间条件制约明显的传统产业,转向以虚拟要素的快速多变排列组合的现代产业,加速了生产要素的有效流动,并形成以流量变现为特点的流量空间,以平台加应用为经营形式的新业态,促进了产业的生态化。
第三,促进了产业生产方式转变。颠覆性技术中有很多是通用目的技术,具有强大的赋能作用。机器人、人工智能技术使生产的效率、精度、良品率都显著提高。新质生产力创造迎合了用户以前未能满足的潜在需求,开辟了新的市场,带来新的产业增长空间。
中国即将迎来“十五五”规划,明确新质生产力所引导的产业规划方向具有重要现实意义。当前从产业结构优化程度看,与高质量发展的要求还有相当差距。
例如,中国服务业GDP占比在55%左右,与世界平均水平65%相差了10个百分点;生产性服务业在服务业中占比,与发达国家也有10个百分点以上的差距,一二三产的服务化还有很大优化空间。而服务业、服务化主要是通过提价竞争带来高附加值的活动。面对这种差距,亟待以数字科技降低差异化、多样化等提价活动(提高利润与附加值的活动)的成本,通过数字产业化及产业数字化,建立起现代化产业体系。
如果说,最近三四十年我国通过发展工业生产力,实现了“做大做强”,那么,发展新质生产力,补上中国经济在结构上的差距,补强“做优”这一块,应是发展新质生产力的总抓手。
研究新质生产力,需要聚焦于将产业结构调得更加优化。与传统产业的增长主要依靠有形要素不同,以数据能力为核心的新质生产力主要通过无形要素驱动产业拓展新的领域,其中服务业与服务化将是其驰骋的主要疆域。
AI大模型尚处“猿人阶段”
NBD:中央经济工作会议提出,要加快推动人工智能发展。在您看来,为什么这一次AI大模型能引起如此大的关注?包括引起很多职业可能被AI取代的担忧和警惕,我们应该怎样看待AI大模型在当前科技领域的地位和影响?
姜奇平:过去AlphaGO打败李世石,只是人工智能在单一领域发威。而AI大模型则是通用人工智能在不同领域发威,当然会引起更大的关注。
从就业来看,需要看到AI大模型对就业的影响存在挑战与机遇两方面。挑战在于很多知识型白领的工作可能被AI取代;机遇在于AI刺激出的新工作有可能与取代的工作一样多,在先发地区甚至创造的工作机会多于取代的旧工作机会。
技术进步有没有可能导致绝对失业的增加?答案是:如果新的就业不能补上旧的就业空缺,就会引致有效需求不足的经济危机。这种危机会在复苏阶段由就业的创新来自然解决。
从历史看,每次技术革命前后对比,就业既不增加,也不减少。例如,工业革命,农民都“下岗”了但并没有失业,而是全变成了工人。因此不过是“转岗”,是就业的结构变化。这就是要素供求本身的适应机制在起作用。
因此,与其担忧“人将被AI取代”,不如赶紧去发现新的机会从哪里涌现。只有不适应造成的失业,没有因适应而发生的失业。
就科技本身而言,从数据科技这个较窄的领域来说,目前的AI大模型还是低水平的,相当于人工智能的“猿人”阶段。这个阶段总的特征是计算主义当道,人文完全失位,这是它目前的天花板。而2023年8月人工智能界提出的人工智能新范式,代表了十年后,等AI大模型完全过时后,下一代人要追的新时髦。由此可以定位AI大模型在数据科技领域演进中所处的位置。
将数据科技放到整个科技领域评估其发展的地位和影响,可以用“引领”来概括。它表明人类科技正从物质范式、能源范式,向信息范式转变。在这种转变中,数据科技中哪怕不太成熟的领域(如通用人工智能)的一小步,可能都预示着人类科技的一大步。数据科技要突破当前AI大模型的局限,最重要的是摆脱物质范式的羁绊,找到自己的位置,即信息不同于物质、能源的特性所在,方向是向主客一元化方向演进。
打造AI大模型训练数据集
NBD:当前,AI大模型的训练和优化过程中还面临不少难点,其中突出的一点是高质量数据非常难获取。据您了解,高质量数据缺乏主要有哪些原因?又应该如何来解决?
姜奇平:高质量可以分为科学意义上的高质量与工作意义上的高质量。
就科学意义上的高质量而言,目前造成低质量的深层根源就是计算主义,即人工智能中的物质范式的局限造成的。
这时的高质量是相对于人而言的,例如人有自由意志、主观能动性,有创造性,有情感等不同于物质、物理的方面。
当前的AI大模型只能在“训练和优化”这种低水平层面上模仿人,因此很难模仿到博士以上水平(博士要求“发现知识”,而非归纳共识)。问题不是出在应用层,因此单靠语料训练很难达到高质量;而是出在基础层,就是在计算的底层范式中,根本没有人(主体)的位置。
例如,主体有动机,AI大模型却没有动机,它想模拟出恋爱诗,但它自己就分不清自己是男是女,因此是无动机的伪恋爱,它可以一时让人真假难辨,但不可能在所有时间所有地点骗所有人。高质量的数据非常难获取,最根本原因出在根子,即范式上,不能把人之为人的特殊之处提取出来。
当前AI大模型低质量的标志,据北京邮电大学前副校长钟义信分析,主要是缺失价值判断能力。可以说一语中的。要解决这个问题,需要下一代人工智能进行基础层的范式革命。中国在这方面有机会,可以谱写“中国式现代化的科技篇章”。
工作意义上的高质量,不是指模型训练和优化这种具体事情上的质量。而是“供得出,流得动,用得好”,是数据供给水平上的高质量,是就数据工作的社会效果评价而言的。
当前数据供给流通应用的主要矛盾是数据生产出来,但流不动,用不好。但数据供给内部也存在矛盾,即数量与质量的矛盾。是低质量的数据多,而高质量的数据少。一方面要继续提高数量,另一方面要重点提高质量。从社会角度分析高质量数据缺乏的原因,主要在供给的外部条件(设施条件),供给的市场条件(配置机制)、供给的生产条件(标准化)与供给的制度条件(主体激励)四个方面,因此要从这四个方面入手解决问题。
具体而言,一是加强数据基础设施建设,完善数据资源体系,包括推动行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。
二是公共数据资源供给。目前不是没有这类数据,而是有,但供不出,是因为机制有问题。要通过支持在重点领域开展公共数据授权运营试点,实现“供得出”。
三是社会化大生产。数据的小生产是低质量的,只有大生产才是高质量的。为此,要健全标准体系,加强数据采集、管理、安全等通用标准建设,协同推进行业标准制定,修订完善数据管理能力评估标准。
四是要完善相关主体的权益保护规则,以规则推动信息利用。当然,数据的激励,不光要激励一次生产(开发),还要激励二次生产(再开发)。因此要平衡所有权与使用权(用益权)的关系。