前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递2.28

每日学术速递2.28

作者头像
AiCharm
发布2023-05-15 16:38:25
1360
发布2023-05-15 16:38:25
举报
文章被收录于专栏:AiCharmAiCharm
Subjects: cs.RO

1.Language-Driven Representation Learning for Robotics

标题:机器人的语言驱动表示学习

作者:Siddharth Karamcheti, Suraj Nair, Annie S. Chen, Thomas Kollar, Chelsea Finn, Dorsa Sadigh, Percy Liang

文章链接:https://arxiv.org/abs/2302.12766v1

项目代码:https://github.com/siddk/voltron-robotics

摘要:

最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。首先,我们证明现有表示在这些任务中产生不一致的结果:掩码自动编码方法以高级语义为代价获取低级空间特征,而对比学习方法捕获相反的结果。然后,我们介绍了 Voltron,这是一个用于从人类视频和相关字幕中学习语言驱动表征的框架。Voltron 权衡了以语言为条件的视觉重建来学习低级视觉模式,以及以视觉为基础的语言生成来编码高级语义。我们还构建了一个新的评估套件,涵盖五个不同的机器人学习问题——一个用于全面评估机器人视觉表示的统一平台。通过对所有五个问题进行全面、受控的实验,我们发现 Voltron 的语言驱动表示优于之前的最先进技术,尤其是在需要更高级别特征的目标问题上。

Subjects: cs.CL

2.Improving Massively Multilingual ASR With Auxiliary CTC Objectives

标题:使用辅助 CTC 目标改进大规模多语言 ASR

作者:William Chen, Brian Yan, Jiatong Shi, Yifan Peng, Soumi Maiti, Shinji Watanabe

文章链接:https://arxiv.org/abs/2302.12829v1

项目代码:https://github.com/espnet/espnet

摘要:

多语言自动语音识别 (ASR) 模型已将语音技术的可用性扩展到多种语言。然而,由于这些模型必须处理多少种语言,理解它们在不同语言之间的不平衡性能的关键是检查模型是否真的知道它应该转录哪种语言。在本文中,我们介绍了我们通过在语言身份 (LID) 上调节整个模型来提高 FLEURS 性能的工作,FLEURS 是一种 102 种语言的开放式 ASR 基准。我们研究了受最近联结主义时间分类 (CTC) 研究启发的技术,以帮助模型处理大量语言,以辅助任务的 LID 预测为条件。我们的实验结果证明了我们的技术相对于标准的基于 CTC/注意力的混合模型的有效性。此外,我们最先进的系统使用具有 Conformer 架构的自我监督模型,相对于 FLEURS 先前工作的结果提高了 28.4% CER。训练有素的模型是可重现的配方。

Subjects: cs.LG

3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression

标题:T Phenotype:发现疾病进展中预测时间模式的表型

作者:Yuchao Qin, Mihaela van der Schaar, Changhee Lee

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/yvchao/tphenotype

摘要:

医疗保健中的聚类时间序列数据对于临床表型分析以了解患者的疾病进展模式和设计针对同质患者亚组的治疗指南至关重要。虽然丰富的时间动态能够发现静态相关性之外的潜在集群,但仍然存在两个主要挑战:i)从多变量时间序列数据中的许多潜在时间相关性中发现预测模式,以及 ii)将各个时间模式关联到最能表征潜在临床进展的目标标签分布。为了应对这些挑战,我们开发了一种新的时间聚类方法 T-Phenotype,以从标记的时间序列数据中发现预测时间模式的表型。我们在频域中引入了一种有效的表示学习方法,可以将可变长度、不规则采样的时间序列编码到统一的表示空间中,然后使用新的概念将其应用于识别可能对目标标签有贡献的各种时间模式。基于路径的相似性。在合成和真实数据集的整个实验中,我们表明 T-Phenotype 在所有评估的基线中实现了最佳表型发现性能。我们通过揭示以独特的时间模式为特征的具有临床意义的患者亚组,进一步证明了 T- Phenotype的效用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档