Blog and Notebook

2025

【浅显易懂系列】3D高斯完整入门

13 minute read

Published: May 31, 2025

一个教程全部读懂3D高斯

Agisoft metashape 重建点云可视化

less than 1 minute read

Published: February 07, 2025

Metashape 将三维重建算法封装成易于使用的工具。

Agisoft metashape 重建点云可视化

less than 1 minute read

Published: February 07, 2025

Metashape 将三维重建算法封装成易于使用的工具。

【每周一个数据集】EgoTracks

3 minute read

Published: January 04, 2025

第一人称视角长期跟踪数据集，EgoTracks，源于Ego4D数据集，并提出一个基线算法：EgoSTARK。

2024

第一视角/第一人称数据集

14 minute read

Published: October 10, 2024

数据集对于算法模型的重要性不需要更多的赘述。我整理了如下的第一视角数据集，并提供了具体的对应主页位置以及部分下载链接位置，方便读者浏览查阅。

国内下载Ego4D数据集

1 minute read

Published: September 13, 2024

第一人称视角数据集Ego4D的下载对于国人来说不友好，那么我们除了通过VPN挂载北美相关节点获取到的大容量流量下载之外，是否还有其他方式？这里作者亲身实测给出相关技术要领。

短时间内快速认识和掌握向量乘积运算

2 minute read

Published: September 11, 2024

在PyTorch中，向量和矩阵之间的不同乘积操作非常关键，尤其是在进行深度学习模型构建和数学运算时。下面，我将详细解释您提到的几种乘积类型，并提供具体的代码示例和使用场景。

目标跟踪各大派别的划分

1 minute read

Published: September 10, 2024

在目标跟踪领域，随着计算机视觉技术的飞速发展，尤其是深度学习的兴起，跟踪算法经历了从传统方法到深度学习方法的深刻变革。以下是对目标跟踪算法按照不同派系和种类进行划分的详细综述，涵盖了从最早的算法到最新的研究成果。

【一日速成编程系列】用Pytorch操作图像

5 minute read

Published: September 06, 2024

通过下面的事例，让你分分钟入门Pytorch操作图像进行计算机视觉领域的入门

【一日速成编程系列】几行代码学会Pytorch

13 minute read

Published: September 05, 2024

顾名思义，几行代码的意思就是凝练浓缩重要高频率代码，快速掌握PyTorch

【浅显易懂系列】DETR详细解释，一看就懂也！

2 minute read

Published: September 01, 2024

DETR（Detection Transformer）是一种基于Transformer的目标检测模型，它通过端到端的训练来直接预测目标的位置和类别。下面，我将选取DETR模型中的核心部分，使用PyTorch进行逐行解释，并注释其维度。

【浅显易懂系列】Anchor和Proposal区别，一看就懂也！

less than 1 minute read

Published: August 30, 2024

目标检测中有很多重要的概念，学CV的应该都清楚而且要明晰：Anchor和Proposal

【浅显易懂系列】BA光束法平差法

less than 1 minute read

Published: August 25, 2024

Boudle Adjustment,BA 是一种在摄影测量和计算机视觉中广泛使用的技术，主要用于从多视角图像中优化相机的位姿（位置和姿态）以及三维点的坐标。以下是对BA光束法平差的详细介绍，结合数学公式和通俗事例进行阐述。

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

3 minute read

Published: August 25, 2024

视频语言预训练（VLP）由于其可以推广到各种视觉和语言任务中的能力而变得十分重要。然而，现有的第一视角VLP框架利用单独的视频和语言编码器，并且仅在微调期间学习特定于任务的跨模态信息，从而限制了统一系统的开发。在这项工作中，作者提出了第二代第一视角视频语言预训练（EgoVLPv2）模型，这是对上一代的重大改进，通过将跨模态融合直接纳入视频和语言主干。EgoVLPv2在预训练期间学习强视频-文本表示，并重用跨模态注意力模块，以灵活高效的方式支持不同的下游任务，降低微调成本。此外，相较于堆叠额外的融合特定的层的操作，作者提出的融合骨干网络策略是更轻量级和计算更加高效的。大量实验证明了EgoVLPv2的有效性，通过在所有下游任务的基线算法上实现了一致的最先进的性能。

PyTorch 高频使用代码

17 minute read

Published: July 25, 2024

PyTorch常用代码段合集，涵盖基本配置、张量处理、模型定义与操作、数据处理、模型训练与测试等5个方面，还给出了多个值得注意的Tips，内容非常全面。

三维空间坐标转换关系

3 minute read

Published: June 25, 2024

以下内容包含了2D坐标与3D坐标系之间的转换以及关于相机场的基础知识，理解这部分内容可以更快入门SLAM相关、多视角合成、三维重构等内容。