当前位置: 首页 > 资讯

每日视点!生成式ai对中国的影响

来源:果果爱吃鸡 发布时间:2023-04-01 12:06:16 分享至:

前言

从临近中国的兔年开始,生成式AI(又称AIGC)的发展可谓“兔”飞猛进。几乎每周都有许多新的消息和成果发布,更低的门槛和更好的效果不断冲击大众认知,让越来越多的人认知到生成式AI已经成为推进下一轮技术革新的重要动力。同时,也有越来越多的人开始思考一些问题,比如:为什么最好的生成效果不在中国?中国的生成式AI离国外有多远?要做出最好的生成式AI,除了模型,我们还需要建设哪些东西?

网易伏羲作为国内首个专注数字文娱领域的人工智能研究机构,从17年成立之初开始关注生成式AI的发展和落地可能,这些问题在过去的几年内不断在团队内部被提及、讨论,并驱动一系列工作的开展和推进。本文将介绍网易伏羲对这些问题的思考,以及当前的一些进展。


(资料图片仅供参考)

自然语言与生成式AI

这一轮生成式AI的爆发,需要从自然语言处理技术的突破说起,17年谷歌提出Transformer架构,使得计算机可以更加高效地进行文本内容知识的学习,从而推动BERT、GPT等一些列大规模文本模型的诞生,从理解和生成的维度都获得了巨大突破。而自然语言处理这门连接人类和计算机交流的基础学科,也成为驱动包括文本、图像、音频、视频、三维模型等各个维度生成式AI爆发的核心基座。一方面人们从海量的互联网数据当中整理可以用于生成式AI训练的数据,另外一方面通过自然语言来对齐各个模态的信息,使得这些知识可以互通。这也可以很好的解释为什么英文生态的公司和机构在这一轮技术热潮中更容易占据先机--当前规模最大、内容最丰富、质量最高的机器学习语料是由英文构成的。

例如文本下游微调数据,英文领域有像T0-SF,Muffin等大量优质的数据集,图文领域也有像LAION-2B,MSCOCO等开源数据集。相比于国内,中文领域虽然这两年也有多个相关数据集的建设,如200G悟道文本预训练数据集,“悟空”1亿图文对数据集等,但是无论从数量还是质量上来比,与海外的数据还是存在着一定的差距。

除此之外,英文生态本身也具备非常明确的先天优势,其包含了大量其他语种不具备的优质的内容。比如说全球最顶尖的学术论文、编程代码、多个行业领域的规范标准。这些构成了英文的独天得天独厚的优势,也使得基于英文生态的研究方案可以更好的去推动和落地。

如何走出数据困境

面对这样的数据困境,国内的研究者和机构又采取了哪些办法?归结来看大概有4种策略:

1、直接用开源模型,走API翻译

这可能是最直接的方案,尤其在图文生成领域,去年stablediffusion模型开源之后国内有不少创业公司尝试直接基于该模型进行适配训练和推理生成,同时利用API的翻译接口将中文的输入转化成英文实现对中文用户的支持。这条路线的好处是可以快速地将最新的英文生态的工作应用到国内。缺点也非常明显,一方面是中文翻译可能引起语义的缺失,很多英文这个领域当中常用的说法在中文当中是没有办法很好的表达的,比如说中国的许多成语以及谚语:

飞流直下三千尺fromMidJournel

竹杖芒鞋轻胜马fromMidJournel

海外数据的内容组成也大多由当地的人文地理,生活历史构成,对于中文的知识缺乏很好的理解,比如说中国的历史古迹、名人、美食和生活习俗。

西湖断桥frommidjournel

过桥米线frommidjournel

第三点也是最核心的一点:已有开源模型数的数据据存在偏见,合规性和安全性都留有风险。举例说,这些模型在种族问题上不平等,也存在大量裸露、暴力的内容。直接将这些数据模型用于国内的生产,存在着巨大的隐患,所以从年初开始,相关部门对生成式AI的能力构成加大了审核力度。

2、海外数据翻译

这种方案是第一种方案的改进版。具备一定研究能力的机构,会选择将海外数据整理下来之后进行英文到中文的翻译,借助英文数据已有的成果,构建更加可靠的自有模型,目前国内有不少研究机构和企业采取了这条路线。优点是可以继承英文的丰富的数据生态,同时可以对涉黄、涉政的数据进行系统性筛选。

缺点还是存在领域差异,包括对一些特定的中文表述、生态、文化习俗的缺失,以及数据本身还是带有非常强的偏见,甚至是歧视。即使去除了不合规的数据,这些隐性的问题还是很难解决的。比如“穿旗袍的女孩”,“七夕节日”等等。

3、中文数据构建

这是一条相对难走的道路,需要大量前期的积累。数据的整理的工作往往在短期内难以获得成效,其阶段性价值也难以衡量。但完善的高质量数据的建设,将对生成式AI后期的工作推进带来可靠的助力。所以在伏羲以往的讨论当中,这也被认定为是一条难走却又正确的道路。自建中文数据集的好处在于可以解决中文场景的一系列基础性问题,弥补模型对中文知识的欠缺,更好的去控制数据安全,从而对数据的合规性进行有效审核。

国内目前也有一些做了中文数据构建的这些工作,高质量对齐数量例如coco-cn,数据量级别在十万级别,数据量较少。wukong数据集是目前较大规模的开源图文数据集,但相比海外的对标数据集目前还是存在一定差距。许多场景之下,相关的研究人员也开始呼吁国内的政府和企业可以推进高质量的中文数据集的共建,我们也看到有许多国内同行开始加入到这个行列。

4、多语言兼容

自建数据集虽好,但依然无法解决其他语言优质内容缺乏的问题。所以多语言兼容是目前看起来大规模预训练模型技术比较切实可行的方案。当然,这个方案目前依旧在验证当中,当前已经有一些相关的工作,通过多语言的方案,将英文场景下图文理解,文图生成功能,扩展到其他的语种中,打通了英文体系和其他语种的障碍。

在ChatGPT的训练过程当中,已经体现展现出跨语言的可行性以及潜力。由于有大量的多元数据融合,目前GPT的中文能力已经比许多纯中文预训练模型更加出色。在图文生成领域,Niji模型的跨语言能力和生成效果都是不错的。

关键词:

Copyright   2015-2023 港澳礼仪网 版权所有  备案号:京ICP备2023022245号-31   联系邮箱:435 226 40 @qq.com