当前,ChatGPT以席卷一切的姿态引发全球范围内AI大模型的投资狂潮与军备竞赛,仅国内号称投入大模型的厂商就多达30多家。
按照参数量和应用领域的不同,大模型市场正迅速分化为通用大模型与专业性大模型两种路径。作为海量参数与训练数据驱动的极致工程化产品,ChatGPT这类通用大模型的优势明显,即应用场景广泛,在应对文本生成、图像识别、语音识别等多样化任务时具有竞争力。但在专业和垂直领域,通用大模型还缺乏给出可靠事实的能力,而“一本正经地胡说八道”显然不是细分领域的用户希望得到的结果。因而,针对某一特定领域或任务进行优化和定制的专业大模型也站到了舞台中央。
与传统语言处理模型相比,超大规模的模型参数量及海量的训练数据,使得通用型AI大模型拥有极强的表现力和广泛的适用性,具有自主学习和优化能力,可以处理更复杂的自然语言任务,生成自然流畅的对话与文本。
(资料图片仅供参考)
但同时,通用型大模型并未脱离开现有的理论基础及方法,缺乏专业知识,更适用于通识类问题或简单请求,在更侧重于客观准确描述及专业性决策的垂直领域中落地时具有局限性,在部分场景中的应用体验也不够灵活。
不同于元宇宙,大模型并不只是大公司的游戏。但中小型初创企业受限于资金与技术,往往难以涉足通用大模型这一高端市场。
在前期投入方面,通用人工智能大模型需要大量、高质量的数据与计算资源,通过长时间的训练、推理才能达到高精度的表现。以GPT-3的AI大模型为例,OpenAI使用了近1万亿个单词和45TB的数据量来训练它,单次训练成本达到140万美元。作为一个深度神经网络大模型,ChatGPT一次运算就要花费将近450万美元,仅花费在算力上的训练成本就介于200万美元至1200万美元之间。
在推向市场后,通用大模型还要继续付出高额运营成本。有机构估算,比如1月份平均每天约有1300万用户访问ChatGPT,需要3万多片英伟达A100GPU芯片,初期投入成本约为8亿美元,每日电费约5万美元。
这对于普通企业来说无异于无底洞。相比之下,数字化程度不断加深的细分领域似乎更容易找到AI大模型的切入口。对于中小企业来说,能灵活迅速地响应市场需求也是其优势所在。
创新型企业可根据市场定位和行业发展趋势,选择已有的适宜的大模型作为垂直应用研发的基座,逐步形成差异化和有竞争力的定制化大模型产品和服务,借助市场力量推动产品研发,帮助细分领域的企业提升生产力和效率,与大厂在大模型领域形成错位竞争,实现更好的业务增长。
当前,多款垂直大模型已面世或处于持续研发中,其应用场景主要覆盖了金融、零售、政务、医疗、教育、工业等领域。
今年2月,京东云表示,旗下言犀人工智能应用平台将推出ChatJD,定位为产业版ChatGPT。ChatJD落地应用主要包含零售和金融两个领域。在零售电商文本生成方面,京东于2019年开始自研,基于自研领域模型K-PLUG(参数量10亿),对于给定商品的sku自动生成长度不等的商品文案,包括商品标题、商品卖点文案、商品直播文案三类,目前商品文案写作能力已经覆盖2000多个京东的品类。
通过提供较为精准的市场分析和风险控制模型,大模型在金融领域的应用也将带来重大变革。今年3月底,彭博社重磅发布了为金融界打造的大模型BloombergGPT。彭博社构建了迄今为止最大的特定领域数据集,并训练专门用于金融领域的LLM,开发了拥有500亿参数的语言模型。该模型依托彭博社的大量金融数据源,构建了一个3630亿个标签的数据集,支持金融行业内的各类任务,该模型在金融任务上的表现远超过现有模型,且在通用场景上的表现与现有模型也能一较高下。
在数字政务方面,大模型也引领着政务服务的创新趋势。目前,北京已启动首个政务服务大模型项目,福建政务领域首个互动式大模型应用也已亮相。企业布局中,百应科技发布的政务行业专有大模型“万机”可适配具体行业业务场景中的任务,如政务服务、政策宣传、反诈劝阻、反诈宣传等;追一科技的大模型博文Bowen可根据与居民/企业的交流内容,快速判定并精准适配最新政策,实现高效便民服务,可生成如指挥类、通联类、公布类、记录类、报请类等规范性公文以及如工作报告、简报、书信、启事类等非规范性事务公文。
在医疗领域,大模型正帮助行业打破药物研发的“双十定律”。英伟达公开资料显示,使用AI技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。2022年5月,百度对外发布了文心生物计算大模型,并将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子、基因组学信息的生物计算领域预训练大模型。目前正式对外发布的文心生物计算大模型,包括化合物通用表征模型、蛋白结构分析模型以及单序列蛋白表征模型。在实际应用中,文心生物计算大模型已帮助百克生物等医药公司大大缩短了化合物分子选型的周期。
近日,多家企业公布其大模型成果在教育领域的应用成果。深兰科技正在开发一款面向个人数字化的硅基知识大模型,该模型主要用于进行知识的个性化和专业化预训练,实现用户终生上下文学习、垂直领域知识嵌入与表示、在垂直应用中有效减少AI反事实、提供持续一致的更加可控的服务等;网易有道基于“子曰”大模型的AI口语老师和中文作文批改功能研发工作已取得阶段性进展:不仅能提供灵活的练习场景,还可以根据用户需求扮演多种角色,循循善诱引导用户进行多轮对话、提供个性化的语法润色和发音建议,助力用户有针对性地改进口语水平;学而思自研的数学大模型MathGPT面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,将于年内推出基于该自研大模型的产品级应用;淘云科技推出了阿尔法蛋儿童认知大模型,为将长期积累的儿童原始语料加入到大模型中,引入主动对话,让机器人发起和儿童经历相关的话题,通过多轮对话的方式,引导儿童进行自我表达。
互联网+的红利逐步退潮后,AIGC或成为下一次工业革命的标志。4月,创新奇智基于行业内部业务数据打造的工业预训练大模型“奇智孔明AInnoGC”正式问世。目前,该模型着重应用于制造业、工业软件领域,有效解决行业中大客户的专属需求,例如交互式动态业务报表生成,智能产线设计等,打破垂类信息孤岛,提升生产力,实现更全面的数字化转型。
与通用大模型相比,垂直大模型需要更快的商业化来兜底。基于开发初期就更加清晰的应用场景规划,垂直大模型的落地有更高的可能性和更快的普及速度。
AI大模型的要素包含数据的获取与处理、算力与存储资源的消耗以及算法与模型的架构。与通用大模型相比,垂直大模型对算力规模、算法精度的要求较低,其难度主要在于数据。
训练一个强大的AI大模型需要大量高质量的数据,然而在某些细分领域,获取的数据可能很难达到这样的标准。同时,大规模数据的处理和清洗是AI大模型研发的关键,数据处理的有效性和高效性会直接影响模型的准确度。
综合来看,开发垂直领域的AI大模型需要充分考虑在所在领域的数据特点、算法选择、模型训练和优化,以及实际应用场景与需求等方面,综合考虑技术和业务需求,才能取得最佳效果和价值,提供更全面、贴合特定领域需求的解决方案。
以上文的追一科技为例,在构建垂直领域大模型的过程中,其采用了生成式预训练+强化学习算法,将所有任务统一转换为文本生成任务,通过专业领域数据预训练+Prompt数据微调和基于RLEF领域专家反馈强化学习。
同时,以垂直领域大模型作为核心,以其他专有模型辅助,共同支持需求,并通过知识外引与注入,如搜索、推荐、查询等知识工具,结合知识整合模块,整合各类垂类知识,形成一套安全可控且高度适配下游业务逻辑的完整AI系统,为客户提供高效、高质的解决方案。