当前位置:100EC>产业数字化>腾讯优图开源通用文本嵌入模型Youtu-Embedding 支持企业级语义理解应用
腾讯优图开源通用文本嵌入模型Youtu-Embedding 支持企业级语义理解应用
网经社发布时间:2025年10月16日 09:35:46

(网经社讯)10月14日,腾讯优图实验室正式开源了其通用文本表示模型Youtu-Embedding。该模型专为企业级应用设计,参数规模达20亿,支持文本检索、意图理解、相似度判断、分类聚类及重排序等六类核心自然语言处理任务。

据网经社云计算台(CC.100EC.CN)了解,Youtu-Embedding通过三阶段训练流程提升模型性能:首先进行大规模基础预训练,使用3万亿中英文Token语料夯实语言理解基础;随后采用弱监督对齐技术,使模型能够辨识语义相近但表述不同的文本;最后通过协同-判别式微调框架,结合统一数据格式、任务专属损失函数和动态采样机制,有效解决了多任务训练中的负迁移问题。

在技术评测方面,该模型在中文文本嵌入基准CMTEB上以77.46的综合得分位居榜首(截至2025年9月),在检索、分类、聚类等细分任务中均展现出领先性能。模型特别适用于RAG(检索增强生成)系统、智能客服和知识管理场景,能有效提升语义匹配准确率并减少大模型幻觉现象。

目前,模型权重、推理代码及完整训练框架已在GitHub和Hugging Face平台开源,支持本地部署与云端API调用两种方式,可集成至LangChain、LlamaIndex等主流开发框架。

浙江网经社信息科技公司拥有18年历史,作为中国领先的数字经济新媒体、服务商,提供“媒体+智库”、“会员+孵化”服务;(1)面向电商平台、头部服务商等PR条线提供媒体传播服务;(2)面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务;(3)面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务;(4)面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库(DATA.100EC.CN,免费注册体验全库)基于电商行业18年沉淀,包含100+上市公司、新三板公司数据,150+独角兽、200+千里马公司数据,4000+起投融资数据以及10万+互联网APP数据,全面覆盖“头部+腰部+长尾”电商,旨在通过数据可视化形式帮助了解电商行业,挖掘行业市场潜力,助力企业决策,做电商人研究、决策的“好参谋”。

【投诉曝光】 更多>

【版权声明】秉承互联网开放、包容的精神,网经社欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源网经社;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至NEWS@netsun.com,我们将第一时间核实、处理。

        平台名称
        平台回复率
        回复时效性
        用户满意度
        微信公众号
        微信二维码 打开微信“扫一扫”
        微信小程序
        小程序二维码 打开微信“扫一扫”