公众号
关注微信公众号
移动端
创头条企服版APP

海天瑞声:助力AI企业出海,破解小语种密码

2971
京客网 2022-06-13 16:11 抢发第一评

从“数字化出海”到“出海数字化”,中国企业拓展全球化市场势头强劲,同时也展现出中国数字经济的新趋势。

对于AI企业而言,“出海”更首要的是解决产品与当地目标受众群体的互动问题,即AI能否实现“听音识人”、“看脸识人”、“识文断字”等。不同国家/地区的人种在人脸特征、语言表达、行为习惯、图文书写等方面都存在着差异。首当其冲的便是语言问题——能够清晰而准确地与不同国家用户进行“交流”,是AI应用打开海外市场的第一步。

  全球语种多,出海困难大?

AI应用在不同国家/地区“听音识人”的实现,依托于多语种AI语音技术的实现,需要根据语言积累构建语种系统,但不同语种之间差异极大,所以需要根据不同的语言特性单独建立语言模型,而建立模型则需要大量的数据做训练支撑。

据统计,目前世界上约有7000多种语言,使用最高频的语言仅10多种,尽管不少智能翻译设备的中英在线和离线翻译效果已经达到专业水平,但小语种依然存在语言研究不充分、训练数据稀缺、应用场景复杂多样等问题,为AI语种系统的构建与研发带来巨大挑战,与语音识别、合成等多项技术的融合上也困难重重。

多维数据布局,海天瑞声助力企业出海

海天瑞声作为全球AI训练数据服务行业的领军者,基于近20年的领域深耕,从“覆盖杂难语种数据”、“建成最大规模数据库”、“数据紧跟前瞻AI应用场景”三个维度布局,助力企业全球化业务拓展。

“覆盖杂难语种数据”——面对“语种多、小语种研究不足”的行业问题,海天瑞声全球化的母语发音人资源布局以及全球语言学家团队,支持170多种语言及方言的数据方案设计、语音采集、转录、发音词典制作服务,可在70+个国家/地区进行本地化项目服务。

“建成最大规模数据库”——针对“训练数据稀缺”的需求难题,海天瑞声打造全球规模最大的现有数据集库。近千个数据成品库,包含稀缺小语种在内的100多种语言,让AI企业不再花费精力根据不同的语言特性单独建模,将大大加速AI应用的开发与迭代。

“数据紧跟前瞻AI应用场景”——对于“应用场景复杂多样”的海外市场需求,海天瑞声凭借多年全球化项目经验,对市场前沿需求时刻保持敏锐,数据集支持语音识别、语音合成、计算机视觉、自然语言处理、词典等多个任务领域,覆盖智能家居、智能驾驶、虚拟主播、有声书、智慧金融、智能安防、智能搜索等多个业务场景,为AI企业及应用出海开启更多赛道与可能。

打造稀缺小语种数据库,海天瑞声破解语言密码

针对不同的任务和应用场景,海天瑞声基于自有高规格录音棚、全球优质声优资源建立了多语种、数千个小时的语音库,不乏众多稀缺小语种数据库,如亚美尼亚语、巽他语、普什图语、印地语等,所有参与录音的发音人均经过专业筛选,保证其发音标准,吐字清晰;专业的语言专家全程参与监督,保证数据准确性。

以下小编整理的个别语种数据库展示,覆盖TTS、ASR、OCR等领域,如有更多感兴趣的小语种,欢迎来撩:

TTS:

King-TTS-117 :越南语女声合成库,录音风格多样,包含中性通用录音和多情感录音;标注包含发音标注、韵律标注。被采集人为一位音色成熟稳重的32岁女性声优,在专业录音棚每周录音2-3次,总录音周期为6个月,录音内容选自影视台词。

King-TTS-076:芬兰语男声合成库,被采集人是一位音色成熟沉稳的35岁男性声优,在专业录音棚每周录音2-3次,总录音周期为1个月,录音内容覆盖日常用语、金融、新闻等领域。标注维度多样,包含发音标注、韵律标注、词性标注、音素边界标注。

ASR

King-ASR-752:南非祖鲁语识别语音库,该识别数据在安静办公室/家居环境中完成录制,共有400位发音人参与,包括179位男性和221位女性,录音文本覆盖新闻等领域,总音频时长241.3小时。

King-ASR-708:斯洛伐克语识别语音库,该识别数据在安静办公室环境中完成录制,共有200位发音人参与,包括90位男性和110位女性,录音文本覆盖新闻、日常对话等领域,总录音时长336.9小时。

OCR

藏/维/蒙语OCR数据库,每种语言包含1000张图片,涵盖日常生活各类场景,如自然场景(路牌,宣传栏,店铺名,菜单,海报等)、文档翻拍(书籍,报刊,A4纸文档);转写由专业的语言专家全程进行监督,转写规则适用于大多数的算法需求,具有普适性。

Lexicon

King-Lexicon-129:爱沙尼亚发音词典,包含 67114 个常用词和 52158 个专有名词。

King-Lexicon-032:巴基斯坦乌尔都语发音词典,包含 101211 个词条。

......

截至目前,海天瑞声已与全球近700家科技巨头、科研机构、AI新兴企业建立深度合作关系,以专业、可靠、安全的数据服务,成功交付了数千个定制项目,深得客户信赖。此外,除了现有的数据集产品,海天瑞声还可以针对特定语种、特定人群、特定场景等提供相应的数据定制化服务,力求满足每一位客户的特定需求,赢得客户每一分信赖。


声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 0
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
阿里云创新中心
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP