正所谓“得数据者得天下”,这家央企算是把高质量数据集给玩明白了——
超过10万亿tokens的通用大模型语料数据,以及覆盖14个关键行业的专业数据集,总存储量高达350TB!
如此庞大的体量,还不是杂乱无章的原始数据,而是经过精心标注和优化且包含多模态在内的行业数据,是随时可以在行业里“上岗”的那种。
或许有小伙伴就要问了,这很重要吗?答案是非常确定的。
高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。建设高质量数据集至关重要,因为它直接决定了AI模型的准确性、泛化性和可用性——优质数据是训练出高效准确模型的基础。
重要程度,可见一斑了。
那么这家央企到底是谁?
不卖关子,它正是AI国家队——中国电信天翼AI,其打造的星辰MaaS平台是建设高质量数据集的关键。
星辰MaaS平台像是一个数据精炼厂,通过四大核心协同运作,构建“数据—模型—服务”的完整闭环。
其中,基模作为“动力引擎”,提供基础认知与推理能力;数据工具链作为“原料库”,持续输送高质量的数据资源;模型工具链作为“加工厂”,将数据高效转化为可用模型;智能体作为“执行中枢”,灵活调度资源并自主完成复杂任务,实现决策智能化与行为自动化,服务千行百业。
基于此,中国电信天翼 AI 与中国电信人工智能研究院(TeleAI)正加紧搞技术研发,像大模型、智传网(AI Flow)、具身智能这些基础技术都在推进。而且不只是搞研究,还照着产业和实际场景的需求,把这些技术做成能用的产品落地。
另外,靠着高质量的数据集,他们还建了 “三全” 星辰大模型体系——全模态、全尺寸、全国产。
更厉害的是,已经成功做出了万亿参数的大模型,这个模型是用全国产的万卡集群和国产深度学习框架训练出来的,在国产化创新这块走在了前面。
例如在福建晋江的一家纺织厂里,过去完全依赖人工肉眼验布,受工人经验和熟练程度影响很大,检测效率、精度稳定性差,缺陷检出率仅有50%。
如今已被基于星辰MaaS平台打造的AI验布所取代,对于并纬、擦伤、断经、浆块、经向条纹、空织、毛边、破洞、纬接头、油点等瑕疵均可高效检出,通过安装使用智能验布系统,企业实现了24小时稳定检测,常见瑕疵检测准确率高达95%以上,并且沉淀了全流程数据,支持实时数据和历史数据分析,有效发现业务卡点和问题,整体生产效率提升50%以上。
但这也仅仅是冰山一角。
因为,从繁忙的港口到关系国计民生的供应链,从智慧医疗到现代农业,高质量数据正在以前所未有的深度和广度渗透进各行各业。
那么这一切是如何发生的?在庞大的数据蓝图背后,又蕴含着怎样的战略考量与技术雄心?
为了探寻这背后的一切,量子位与中电信人工智能科技(北京)有限公司副总经理阮宜龙进行了一场深入的交流。
为什么要死磕高质量数据集?
站在AI时代的当下,算法、模型、应用,可谓是以前所未有的速度在迭代。但万变不离其宗,数据,尤其是高质量数据,始终是驱动人工智能发展的核心燃料。
中国电信天翼AI作为人工智能行业的国家队,为何选择重仓投入,甚至死磕高质量数据集这一看似基础却极其艰巨的领域?这背后,既有对国家战略的深刻领会,也有对市场脉搏的精准把握。
量子位: 我们观察到中国电信天翼AI近年来在高质量数据集建设上投入巨大。从战略层面看,是什么驱动公司下定决心,要啃下这块硬骨头?
阮宜龙: 中国电信天翼AI重仓投入数据基础设施建设,是基于四个层面的综合考量:国家战略、市场需求、运营商自身的优势禀赋和使命责任。
在战略层面,近年来,政府相关部门快速出台人工智能系列法规,并深入实施“人工智能+”行动,这些都清晰表明AI已切实上升为国家战略。同时,2025年中国电信加速“云改数转智惠”战略升级,布局算力、数据、模型、平台及应用等全产业链,尤其在基础大模型技术攻坚方面,我们致力于成为AI领域的主力军,推进AI迈向普惠发展新阶段,这些都要求我们自主建设数据基础设施,实现依托可控的高质量数据集,加速AI关键技术突破,助力AI战略高效落地。
市场需求方面,我们判断2025年人工智能将转向以数据要素价值为核心的规模化落地。对内,天翼AI有义务服务于云网运营、客户服务、渠道营销、科技研发和企业管理等20余个重点领域复杂业务场景的智能化升级;对外,天翼AI承担着面向工业、应急、教育等行业研发行业大模型和构建智能体应用的职责。这些AI赋能的实现,依托于高质量数据集的训练孵化和支撑,要求我们必须投入高质量数据集的建设。
从运营商自身优势考量,中国电信具有庞大的数据基础,拥有超10亿的公众客户和上千万的政企客户,日增数据量达1.6PB、基础数据集超10万亿tokens。同时,在客户服务、渠道运营等领域,具有广泛的数据应用场景,落地1.2万家全业务数字门店、赋能超2万个行业客户等。依托这些优势,我们能更好地深耕高质量数据集领域,而这也是当前阶段的必然选择。
在使命和责任方面,中国电信坚定履行建设网络强国和数字中国、维护网信安全的使命担当,持续推进新型数字信息基础设施建设,推动AI向善、应用普惠,助力人工智能同经济社会发展深度融合,这要求我们打造安全、可信的高质量数据集,推进数据流通交互,赋能千行百业智能化转型。
如何做到的?
拥有海量数据和战略决心只是第一步,如何将这些庞杂的、多模态的原始数据,转化为能够直接“喂”给大模型的高质量数据,则是一项复杂的系统工程。
这背后需要一个强大的技术平台,一套贯穿数据全生命周期的管理方法论。天翼AI打造的“数据-模型-服务”能力闭环,正是解开这道难题的钥匙。
量子位: 这听起来是一个庞大而复杂的工程。天翼AI具体是如何将这些来自不同渠道、不同形态的数据,加工成高质量数据集,并最终赋能应用的呢?这背后的技术逻辑是怎样的?
它的数据工具链覆盖“采-存-算-管”链路,能统一接入文本、图片、音视频等多种类型的数据,并将其统一高效存储;在计算环节,借助自有的上百种处理工具,实现对数据的清洗、转换、增强与合成;最后通过自动化治理机制,保障数据质量与安全。整个过程将原始数据高效转化为高质量、可复用的数据资产,为上层AI应用提供稳定可靠的数据服务。
这里我想特别提一下数据合成技术。在很多行业,一些极端的、危险的或罕见的场景数据,在现实世界中是极难采集的。比如,自动驾驶,你不可能为了采集数据去主动制造一场交通事故,这时候,数据合成就派上了大用场。星辰MaaS平台的数据工具链可以通过AIGC、知识注入、链路反思等技术,生成这些极端天气、罕见事故的数据集,让模型训练得更鲁棒、更安全。
它的模型工具链覆盖“标-训-推-评”链路,不仅支持40多种标注任务,更重要的是能基于自研星辰大模型进行AI预标注,标注人员只需对结果进行校验,使得标注效率相比传统纯人工方式提升了5倍以上,极大地降低了成本。标注后的数据再经过严格的质量评估,就成了高质量数据集;这些“精炼燃料”会被送入模型工厂进行模型训练、微调、推理和评测,最终得到的不同用途的大小模型。
平台在“用”链路上,训练出的模型嵌入到智能体中,支撑千行百业的智能应用场景,同时智能体运行中产生大量的反馈数据,通过数据回流机制重新采集加工,进一步丰富高质量数据集,从而持续优化模型效果。
整个过程,从杂乱无章的原始数据,到标准化的、高质量的数据集,到能解决实际问题AI模型服务,再到数据回流、模型自优化,形成了一个完整高效、自动化、自闭环的流水线。
标准又是什么?
到底什么样的数据集才称得上高质量?还是数据量越大越好,还是数据类型越多越好?在与阮宜龙的交流中,我们发现,天翼AI对此有着更为辩证和务实的理解。
量子位: 大家都说高质量数据很重要,但似乎每个人对“高质量”的定义都不同,您是怎么理解的?
阮宜龙: 这是一个很好的问题。我们认为,高质量并没有一个放之四海而皆准的绝对标准。业内一般根据模型训练阶段、数据应用类型两个维度来划分数据集类型:从模型训练阶段看,包括预训练数据集、微调数据集、评测数据集;从数据应用类型看,包括通识数据集、行业通识数据集、行业专识数据集。不同阶段、不同用途、不同场景的数据集,其高质量与否的评判标准不能一概而论。
比如,一个用于基础大模型预训练的通识数据集,我们可能更关注它的基础数据维度和安全维度指标,比如规范性、完整性、一致性、合规性和可溯源性等。而一个经过精细标注,用于特定行业微调的数据集,我们则会更关注它的内容维度和应用维度指标,比如全面性、多样性、均衡性,以及是否包含了足够的行业专有知识(Know-how)等。
为更好地理解这一点,我们可以再深入看看前面提到的工业纺织缺陷质检案例。传统的纺织企业质检,完全依赖人工,靠人眼去发现布匹上的瑕疵。这种方式有几个致命痛点:速度慢、人工成本高、标准不统一、漏检率高,而且人会疲劳,无法做到7×24小时不间断工作。
我们的目标,就是用AI解决这个真问题。那么,一个高质量的纺织行业缺陷数据集应该是什么样的?首先,它的全面性要够,需要覆盖行业内常见的20多种瑕疵类型,比如纱结、污渍、破洞等等;其次,多样性要丰富,同样是“污渍”,有油污、水渍、染料渍,形态大小各异,这些都要包含进去;再次,标注要精准,不仅要框出瑕疵的位置,还要准确地分类,告诉模型这具体是哪一类缺陷。

我们通过采集、清洗、标注15余万张图像,构建了这样一个高质量数据集。用它训练出的行业模型,能够自动识别出布匹上毫米级的瑕疵,综合检出率超过90%,并且能实时将瑕疵的类型、数量、位置传输给生产系统,代替了人工。对企业来说,这就是实实在在的降本增效,这个能解决实际问题的数据集,就是高质量的。
用起来才是硬道理
当前的人工智能领域,存在一种普遍情况:一方面是通用大模型引发的全民狂欢,另一方面却是其在垂直行业落地难、创造实际价值慢的现实。
AI的最终价值,不在于数据集有多好、模型参数有多大,而在于能否真正深入产业一线,解决实际问题。
天翼AI深谙此道,将应用的广度和深度作为衡量自身价值的核心标尺,在服务大型央国企、国家标注基地、政务、交通、工业、医疗、文化旅游、教育等领域上,交出了一份份高分答卷。
量子位: 天翼AI有很多大型央企的服务案例,比如中物流、中车等,他们的系统极其复杂,对安全性有自身特定的要求。在服务这些客户时,有哪些特别的挑战和应对之策?
阮宜龙: 您说得很对,大型央企确实有自身的显著特征:一是业务需求聚焦于生产,他们的痛点是如何优化成本、提升生产运营效率、降低故障率。二是系统复杂度高,央企有大量分子公司,具备众多已建成的核心系统,AI能力必须与这些现有系统深度融合,这对技术整合能力要求极高。三是安全和价值观要求高,因为这些领域都关系到国计民生和国家安全,必须坚持安全第一,并确保模型与主流价值观保持一致,且符合国家监管要求。四是国产化要求,为保障数据安全和系统稳定,需从算力、操作系统、中间件、业务平台等多方面,推动构建安全、可靠、可控的全国产基础信息设施体系。
针对这些特点,我们提供端到端的全链路解决方案,核心思路是价值导向和敏捷迭代。我们坚持与行业龙头的一线专家并肩工作,让技术服务于业务;采用云边端协同架构,满足不同场景的部署要求;通过数据反馈闭环机制,让AI系统能伴随业务共同成长和优化。
以服务物流集团为例,我们基于星辰MaaS平台构建AI大模型“标训推评”的人工智能套件,纳管其超500P国产化算力卡,协助构建了多个物流行业高质量数据集,支撑其自研流云大模型及CV模型研发和建设;为其提供数十个统一的服务接口,包含文本、语言、图片等多场景;通过“算力、数据、模型、应用”四位一体的模式,赋能其在全国智慧物流场景的应用。
量子位: 天翼AI支撑了成都、沈阳等多个国家级数据标注基地的建设,在这个过程中,除了提供技术平台,天翼AI还扮演了哪些角色?
阮宜龙: 在支撑国家级数据标注基地的建设中,我们不仅仅是技术平台的提供方,更扮演了三个关键角色:产业生态的规划者、产能的运营者和新职业的培育者。

作为规划者,我们结合地方产业特色,比如沈阳的工业制造、成都的金融医疗,帮助政府规划数据产业生态,定向引入上下游企业,形成产业聚集效应。例如,在成都,我们联合新津区政府、成都数据集团打造“蓉数公园・新津数据要素服务站”,重点围绕金融风控数据核验、医疗影像标注等场景规划生态,已引入整数智能、路米科技等数十家标注企业及成都职业技术学院等教研机构。
作为运营者,我们不仅提供工具,还会通过自身的项目和生态网络,为基地带来稳定可靠的AI数据订单,帮助入驻企业“有活干”,能够健康成长。我们将自身政务热线升级、工业质检等项目的标注需求定向输送至基地,其中成都基地承接了四川方言语音标注订单,基于19个地市方言语音大数据,构建了四川方言高质量数据集。
作为培育者,我们建立了培训认证体系,规模化地培养数据标注师、AI训练师等数字化人才,提升基地的整体产业能力,并促进地方就业。
我们追求的不是短期的项目利润,而是通过技术赋能带动产业发展,通过产业发展培育出繁荣的AI生态,最终实现多方共赢的长期价值。目前已形成“政府引导+央企主导+生态协同”的可复制模式,构建起“算力供给-数据生产-模型训练-应用落地”的完整生态链。比如,前面提到的方言标注项目既解决了上亿非普通话人群的服务痛点,又为地方创造大量灵活就业岗位。这种生态繁荣带来的价值,远超过单一项目的短期收益。
量子位:除了服务大型央企和国家政府,在更广泛的国计民生领域,这些高质量数据集带来了哪些改变?
阮宜龙:我们目前已经在14个行业、30多个应用场景中,构建了相应的高质量数据集,实现了规模化落地。
在医疗领域,我们与北京某三甲医院合作,构建了医院医疗质量管理数据集,打造科学化精细化智能化医院运行管理体系,实现医院运行管理场景智能化升级,推动院内资源高效配置、风险精准防控,赋能公立医院高质量发展。
在文旅领域,我们承接了国家文旅部的重点课题,在云南丽江落地的智慧导览服务,能够准确识别超过95%的旅客需求,提升了游客体验。
在农业领域,我们为雄安新区打造的“雄小农”智能交互应用,背后是庞大的农业农村数据集,它可以解答农技问题、预测农产品价格,帮助当地农民实现了超过15%的增收。
在智慧城市领域,我们联合杭州“中国视谷”打造视觉类通识数据集,通过视频共享平台与自助打标工具,已汇聚城市视频数据26万路、视觉标签2000余个,服务城市建设、智能驾驶、低空经济等多个方向,构建视觉数据产业一站式平台。
在政务服务领域,我们与深圳市政数局合作构建12345民生诉求专识数据集,基于1200万条工单记录,建成520万条高质量语料,支撑25个智能应用场景,助力政务服务质量提升。
在电信内部,围绕中国电信集团供应链采购要求构建了行业通用的供应链专识数据集,依托大模型与多模态技术,统一标注标准、贯通法规环节,实现评标流程的智能化升级。
无论是社会治理、城市安全,还是教育、金融,我们的目标就是让高质量数据真正用起来,深入到社会经济的毛细血管中,创造出可感知的价值。
量子位:看起来天翼AI在国计民生领域落地了很多垂类行业案例,刚才谈到了数据工具链、模型工具链、高质量数据集等内容,此外,还有哪些影响智能服务真正发挥效果的关键因素吗?
阮宜龙:AI行业有三大关键因素:数据、算法、算力。除了数据之外,算法也很重要,天翼AI自主打造了国内领先的“全模态、全尺寸、全国产”的星辰系列大模型,并在央企中率先开源,完成了中央网信办“境内深度合成服务算法备案”和“生成式人工智能服务”双备案。
同时,围绕数据治理、模型健壮性、应用可信三大核心维度,我们自主研发的星辰大模型安全围栏从源头防范因恶意诱导或模型自身“幻觉”产生的意识形态问题及被恶意利用风险,构筑智能化安全防护矩阵,为自研国产大模型奠定安全基座,守护安全底线。
打造的语音大模型能精准识别60种方言并合成逼真语音,极大便利了非普通话人群的沟通;语义大模型参数规模庞大,下载量巨大,广泛赋能政务、教育等场景;视觉模型在公共安全与灾害预警中作用显著,其鉴伪技术达国际领先水平;多模态模型更实现了长视频生成等突破性应用,助力内容创作创新。
我们以基础大模型为核心,推出了一系列产品和服务。面向B端用户,基于天翼AI开放平台上线了18项星辰大模型API服务,覆盖语音、图像、多模态等方向,为他们提供以行业大模型为核心的智能化解决方案;面向C端用户,天翼AI发布了可实现“智能反诈”的“星小辰”应用服务,守护C端用户通讯安全;面向家庭场景,天翼AI发布了可实现智能陪伴的智能玩偶“智伴小熊”;推出AI智能眼镜,拓宽用户的日常场景触达等一系列覆盖C端多种场景的软硬件服务。
最终愿景
技术的发展终将服务于人与社会。在一场深刻的技术变革中,一家企业最终能达到的高度,往往取决于其愿景的广度与深度。
对于天翼AI而言,建设高质量数据集、打造全栈AI能力,并非终点,因为他们的目光,已经投向了更远的地方。
量子位: 最后想请您分享一下,作为人工智能领域的核心力量,您对天翼AI的最终愿景是什么?
阮宜龙: 中国电信天翼AI作为人工智能领域的重要力量,我们承载着深远的愿景和宏大的目标。我们的最终愿景是,发挥央企在AI领域的主力军作用,成为国家战略科技力量和领先的通用人工智能服务提供商。
为此,我们将持续发力:
第一,在技术上追求领先。我们将继续打造全栈自研的AI能力,在前沿领域持续探索,从基础大模型到具身智能再到智传网,对标国际一流,力争引领人工智能技术的发展潮流。
第二,在应用上追求普惠。我们正在构建一个“全民工具箱”,依托鉴伪反诈打造网络可信空间、打造适老适幼产品弥补智能鸿沟等,让AI从高精尖的实验室走进千家万户,让每一个普通民众都能享受到人工智能带来的便利和福祉。
第三,在生态上保持开放。我们将通过开放平台,以算力服务、扶持计划等政策,支持和欢迎全球的开发者、学者和合作伙伴,共同参与到这个生态的建设中来,共同推动人工智能产业的健康发展。
第四,在人才上研用一体。重视青年人才创新能力发展,营造宽松的科研环境,加速科研成果转化为实际生产力,促进关键领域产业升级,为国家培养一批懂理论、能实践的高层次AI队伍。
在未来的数字化经济战场中,中国电信天翼AI将继续做好产业升级的核心引擎和社会安全的基石。作为AI国家队,我们将持续强化赋能,打造更多高价值的行业大模型和产品;同时,我们也将担起社会责任,构建完善的安全防护体系,确保数字经济的红利能够全民共享,维护社会的公平与安全。
这既是我们的目标,也是我们的承诺。