我爱计算机视觉-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”。www.52cv.net QQ群: 805388940

专栏成员

815

文章

833179

阅读量

61

订阅数

3D生成模型同台竞技，魁首究竟花落谁家！

数据开源模型实践视频

近两年，得益于Diffusion模型在2D领域取得的巨大成功以及Objaverse系列大规模3D数据集的开源，3D物体生成领域已经进入迅速发展阶段，3D生成模型数量激增。那么，他们的生成质量究竟如何呢？

2024-05-22

970

回顾AAAI 2024：窥见AI未来之路

论文数据算法人工智能工作

今年的 AI 顶会 AAAI 人工智能大会（AAAI 2024 : The 38th Annual AAAI Conference on Artificial Intelligence）在加拿大温哥华举办。在此次大会期间，人工智能领域的研究人员、从业者、科学家、学生和工程师齐聚一堂，展示了他们的研究成果，并进行了学术交流。同时，多个重要论文奖项也在大会上揭晓，为进一步推动该领域的探索和研究注入了新的动力。

2024-05-22

1310

ECCV 2024 Workshop | 一文了解多元化议题、前沿技术与全球研究动向

计算机视觉模型人工智能 https 基础

欧洲计算机视觉会议（ECCV）是由欧洲计算机视觉协会（ECVA）主办的双年度顶级计算机视觉和机器学习研究会议。该会议汇集了这一领域的科学和工业界的专业人士。每两年举办一次，今年的会议定于 9 月 29日（星期日）至 10 月 4 日（星期五）在米兰 MiCo 举行。

2024-05-20

1880

Cantor（领唱员）:厦门大学提出多模态思维链新架构

数据性能工具架构模型

本文分享论文Cantor: Inspiring Multimodal Chain-of-Thought of MLLM，提出一种名为“领唱员（Cantor）”的决策感知多模态思维链架构，无需额外训练，性能大幅提升。

2024-05-20

800

国防科大最新 | SceneTracker：在4D时空中追踪万物

网络自动驾驶测试视频数据

本文分享论文SceneTracker: Long-term Scene Flow Estimation Network，提出 SceneTracker，首个公开的（2024.03）有效解决在线 3D 点跟踪问题或长时场景流估计问题（LSFE）的工作。

2024-05-20

1490

CVPR 2024 Workshop | 两个超高难度视频分割挑战赛正式启动，数据集开放下载！

机器学习测试计算机视频数据

近年来，随着移动计算机的性能不断增强，视频已经成为最重要的数据模态之一，其承载着不计其数的现实应用，如自动驾驶、视频电话、视频直播等等。因此，如何让计算机对视频有更深入的理解也变得越发重要。其中，像素级视频理解任务，如视频目标分割（VOS）和语言指向性目标分割（RVOS），均为视频理解领域最重要的研究课题。目前，现有的机器学习方法已经能够处理很多场景下的分割问题，也能够将视频与简单的文本信息进行联合理解。然而，这些课题仍然面临很多挑战，如背景的复杂性、目标的遮挡和消失重现、对描述动作的文本的理解等。现有的许多算法在应对这些复杂情况时仍然存在不足[1,2]，因此需要更为先进和稳定的解决方案。

2024-05-20

1550

揭秘 CVPR 2024 Workshop 新兴技术与研究方向（下）

计算机视觉论文模型人工智能 https

本文汇总了 CVPR 2024 所有的研讨会（下篇），会议中既有延续举办的经典研讨会，也有首次举办的全新研讨会。大部分研讨会的论文征稿已经截止，部分接收的论文也已经公布，欢迎感兴趣的伙伴先行查阅。

2024-05-20

1410

揭秘 CVPR 2024 Workshop 新兴技术与研究方向（上）

https 计算机视觉论文模型数据

本文汇总了 CVPR 2024 所有的研讨会（上篇），会议中既有延续举办的经典研讨会，也有首次举办的全新研讨会。大部分研讨会的论文征稿已经截止，部分接收的论文也已经公布，欢迎感兴趣的伙伴先行查阅。

2024-05-20

2560

从部分到整体：可控⼈体图像⽣成的统⼀参考框架

编码测试框架设计数据

本篇分享论文From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation。

2024-05-20

580

项目合作 | 15万预算，道路交叉口交通情况识别

流量公众号

在总量方面定义为单位时间内通过交叉口停止线的非机动车数量，分方向流量定义为单位时间内左转、直行、右转的非机动车数量。(需要区分非机动车车型，包括共享单车，私人单车，三轮车)

2024-05-20

980

性能突破Transformer，新架构Mamba引爆AI圈

模型效率性能架构论文

通过结合RNN和CNN的优点，并引入选择性机制和硬件感知算法，Mamba模型成功地解决了传统Transformer模型在处理长序列数据时的计算效率问题。

2024-04-30

810

CVPR 2024 | LORS算法：低秩残差结构用于参数高效网络堆叠，参数少、成本低、内存小

网络性能模型内存算法

本文主要介绍 CVPR2024 录用文章LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking的主要工作。深度神经网络主要采用堆叠大量相似模块的设计范式。尽管这是一种有效的方式，但与此同时带来了参数量的显著增长，这给实际应用带来了挑战。本文算法LORS允许堆叠模块共享大多数参数，每个模块只需要少量参数就可以匹配甚至超过原始完全不同参数的方法，这显著减少了参数量。

2024-04-30

1740

字节、华师、华科联合提出TextSquare，8B参数量的文字多模态大模型指标逼近GPT4V

开源表格模型数据性能

近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展，尤其是多个闭源的例如GPT4V和Gemini，甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型，最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题，尽管这些努力取得了显著的效果，但仍存在一些问题，图像描述数据和VQA数据属于不同的领域，图像内容呈现的粒度和范围存在不一致性。此外，合成数据的规模相对较小，使得MLLM无法充分发挥潜力。

2024-04-25

1540

CVPR 2024 | 腾讯优图实验室20篇论文入选，含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向

人脸识别论文模型数据腾讯

近日，CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。

2024-04-25

8150

第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线

模型数据架构设计架构框架

Bunny 团队推出第一个基于 Llama-3 的多模态大模型！Bunny-Llama-3-8B-V 正式上线，超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。在众多主流 Benchmark 上表现良好，具有更好的识别、数学和推理能力。

2024-04-25

930

CVPR 2024 | LiDM：首个可以根据多模态条件生成逼真的激光雷达场景方法，加速107倍

自动驾驶汽车模型设计性能

本篇文章分享 CVPR 2024 论文LiDAR Diffusion：Towards Realistic Scene Generation with LiDAR Diffusion Models，利用激光雷达扩散模型生成逼真场景。

2024-04-25

1140

生图超级外挂！贾佳亚团队提出VLM模型Mini-Gemini，堪比GPT4+DALLE3王炸组合

开源编码模型数据网络

更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力，还能结合图像推理和生成，香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Gemini堪称绝绝子，相当于开源社区的GPT4+DALLE3的王炸组合！

2024-04-18

930

CVPR 2024 ｜文本或图像提示精准编辑3D场景，美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF

模型渲染计算机视觉可视化论文

美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF，同时支持文本描述和参考图像作为3D场景的编辑提示，该研究成果已被CVPR 2024接收。

2024-04-18

1570

西湖大学&浙江大学提出 Cobra，基于状态空间语言模型扩展的多模态大语言模型，更大规模、更轻量级

效率性能基础模型网络

本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference，由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。

2024-03-27

1950

神奇！AI扩图&改图还能这么玩？

工具量化模型算法优化

最近，靠着出其不意的扩图效果，“AI扩图”功能凭借搞笑的补全结果频频出圈，火爆全网。网友们踊跃尝试，180度的大反转也让网友们直呼离谱，话题热度高居不。

2024-03-26

1320

点击加载更多

社区活动

AI代码助手快速上手训练营

鹅厂大牛带你玩转AI智能结对编程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态