Blog and Notebook

2025

【每周一个数据集】EgoTracks

3 minute read

Published:

第一人称视角长期跟踪数据集,EgoTracks,源于Ego4D数据集,并提出一个基线算法:EgoSTARK。

2024

第一视角/第一人称数据集

14 minute read

Published:

数据集对于算法模型的重要性不需要更多的赘述。我整理了如下的第一视角数据集,并提供了具体的对应主页位置以及部分下载链接位置,方便读者浏览查阅。

国内下载Ego4D数据集

1 minute read

Published:

第一人称视角数据集Ego4D的下载对于国人来说不友好,那么我们除了通过VPN挂载北美相关节点获取到的大容量流量下载之外,是否还有其他方式?这里作者亲身实测给出相关技术要领。

短时间内快速认识和掌握向量乘积运算

2 minute read

Published:

在PyTorch中,向量和矩阵之间的不同乘积操作非常关键,尤其是在进行深度学习模型构建和数学运算时。下面,我将详细解释您提到的几种乘积类型,并提供具体的代码示例和使用场景。

目标跟踪各大派别的划分

1 minute read

Published:

在目标跟踪领域,随着计算机视觉技术的飞速发展,尤其是深度学习的兴起,跟踪算法经历了从传统方法到深度学习方法的深刻变革。以下是对目标跟踪算法按照不同派系和种类进行划分的详细综述,涵盖了从最早的算法到最新的研究成果。

【浅显易懂系列】DETR详细解释,一看就懂也!

2 minute read

Published:

DETR(Detection Transformer)是一种基于Transformer的目标检测模型,它通过端到端的训练来直接预测目标的位置和类别。下面,我将选取DETR模型中的核心部分,使用PyTorch进行逐行解释,并注释其维度。

【浅显易懂系列】BA光束法平差法

less than 1 minute read

Published:

Boudle Adjustment,BA 是一种在摄影测量和计算机视觉中广泛使用的技术,主要用于从多视角图像中优化相机的位姿(位置和姿态)以及三维点的坐标。以下是对BA光束法平差的详细介绍,结合数学公式和通俗事例进行阐述。

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

3 minute read

Published:

视频语言预训练(VLP)由于其可以推广到各种视觉和语言任务中的能力而变得十分重要。然而,现有的第一视角VLP框架利用单独的视频和语言编码器,并且仅在微调期间学习特定于任务的跨模态信息,从而限制了统一系统的开发。在这项工作中,作者提出了第二代第一视角视频语言预训练(EgoVLPv2)模型,这是对上一代的重大改进,通过将跨模态融合直接纳入视频和语言主干。EgoVLPv2在预训练期间学习强视频-文本表示,并重用跨模态注意力模块,以灵活高效的方式支持不同的下游任务,降低微调成本。此外,相较于堆叠额外的融合特定的层的操作,作者提出的融合骨干网络策略是更轻量级和计算更加高效的。大量实验证明了EgoVLPv2的有效性,通过在所有下游任务的基线算法上实现了一致的最先进的性能。

PyTorch 高频使用代码

17 minute read

Published:

PyTorch常用代码段合集,涵盖基本配置、张量处理、模型定义与操作、数据处理、模型训练与测试等5个方面,还给出了多个值得注意的Tips,内容非常全面。

三维空间坐标转换关系

3 minute read

Published:

以下内容包含了2D坐标与3D坐标系之间的转换以及关于相机场的基础知识,理解这部分内容可以更快入门SLAM相关、多视角合成、三维重构等内容。