开源数据总量逾2TB,多模态语料“书生·万卷”发布

2023-08-14 22:46    来源:人民资讯

本文转自:人民日报客户端

沈文敏

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”,上海人工智能实验室于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等特征。其中,文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等领域。图文数据主要来自公开网页,经处理后形成图文交错文档,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。



湿冷“魔法攻击”上线!南方遭今冬来最强雨雪 这份防抖指南请收好
科技

湿冷“魔法攻击”上线!南方遭今冬来最强雨雪 这份防抖指南请收好

本文转自:中国天气网 中国天气网讯 眼下,2024年首场寒潮天气正在影响我国,南方多地遭遇今冬来强度最强、范围最广的雨雪天气。今天(1月22日)早晨,最低气温0℃线已南压至贵州南部至江西北部一线,低温叠加雨雪,南方人熟悉的湿冷“魔法攻击”上线了,网友纷纷吐槽“南方的雨雪天冷到刺骨”。湿冷到底是一种怎 [详情]

周鸿祎称不能套用过去的模式看人工智能 大模型不是OS
科技

周鸿祎称不能套用过去的模式看人工智能 大模型不是OS

【CNMO新闻】在2023年1月21日的猎户星空大模型发布会上,360集团创始人周鸿祎分享了他对大模型应用前景的看法。他预测,2024年大模型应用将迎来巨大的机会,而企业级应用将成为其突破口。 周鸿祎强调,大模型与已有业务场景的结合将带来巨大的机会。随着技术的发展,越来越 [详情]

“听见”两会丨海南省政协委员何逸舟:建议搭建文旅服务区块链评价系统 助推海南文旅服务实现高质量发展
科技

“听见”两会丨海南省政协委员何逸舟:建议搭建文旅服务区块链评价系统 助推海南文旅服务实现高质量发展

点击查看更多视频 新海南客户端、南海网1月22日消息(记者 王燕珍)如何提升海南文旅服务水平和服务质量,助推海南文旅服务实现高质量发展?参加海南省政协八届二次会议的省政协委员何逸舟建议可搭建一个以区块链作为底层技术的评价系统,推动海南文旅服务生态的评价、反馈机制升级。  [详情]

雍禾医疗携手国内三甲医院展开合作 雍禾植发助力行业健康发展
科技

雍禾医疗携手国内三甲医院展开合作 雍禾植发助力行业健康发展

根据《都市人群毛发健康消费白皮书》调研显示,国内毛发医疗服务行业市场规模从2021年至2030年将以21.8%的复合年均增长率(CAGR)增长,2030年将达到1381亿元。市场前景广阔的同时,消费需求也在升级迭代。 此前,北京大学人民医院与雍禾医疗共建“北京大学人民医院X雍禾医疗毛发联合实验室”( [详情]

杭州3年引进731家首店,近半已销声匿迹
科技

杭州3年引进731家首店,近半已销声匿迹

都市快报讯 刚过去的2023杭州写字楼商业市场表现出了弱复苏状态。 近日,戴德梁行发布相关数据,并对杭州2023年整年度的零售商业市场及写字楼市场进行多维度的解读,并对2024年的发展趋势进行展望和预测。 “当下消费市场真正发生的既不是单纯的升级,也不是简单的降级,而是分层。顺应消费分层这一主流趋势 [详情]