From 268f92fafc7ca92f3b46ba86bb4eba0b93f47834 Mon Sep 17 00:00:00 2001 From: liuzhi Date: Mon, 24 Jun 2024 18:48:54 +0800 Subject: [PATCH] add comments --- run_code.txt | 66 +++++++++++++++++++--------------------- scene/cameras.py | 14 ++++----- scene/dataset_readers.py | 17 +++-------- scene/gaussian_model.py | 8 ++++- train.py | 11 ++++--- utils/camera_utils.py | 2 +- utils/general_utils.py | 5 +-- utils/graphics_utils.py | 13 ++++---- 8 files changed, 68 insertions(+), 68 deletions(-) diff --git a/run_code.txt b/run_code.txt index d8fc40c..cf39c6a 100644 --- a/run_code.txt +++ b/run_code.txt @@ -4,70 +4,68 @@ python train.py --source_path --model python train.py --source_path ../../Dataset/3DGS_Dataset/linggongtang --model_path output/linggongtang --data_device 'cpu' --eval --resolution 1 python train.py --source_path ../../Dataset/3DGS_Dataset/xiangjiadang --model_path output/xiangjiadang --data_device 'cpu' --eval --resolution 1 ---source_path / -s:COLMAP 或合成 Synthetic NeRF data set的源目录的路径。COLMAP类型包含 images/, sparse/0 ---model_path / -m:训练模型的存储路径,默认为 output/ ---images / -i:COLMAP 图像的替代子目录,默认为 images ---eval:训练时默认使用全部图片,--eval可以在训练时按照MipNeRF360-style划分 training/test,用于 evaluation +--source_path / -s:数据集输入路径,包含图片文件夹:images, SfM输出文件夹:sparse/0 +--model_path / -m:指定的训练模型存储路径,默认为 output/ +--images / -i:输入路径下存储图片的替代文件夹名,默认为 images +--eval:训练时默认使用全部图片,添加此标志将在训练时按照MipNeRF360-style划分训练集/测试集(每8张选1张作为测试集),以用于 evaluation --resolution / -r:指定训练前加载图像的分辨率。如果是 1, 2, 4 or 8 则使用原始分辨率的 1/2, 1/4 or 1/8。 对于所有其他值,会将图像宽度调整到给定数字,同时保持图像宽高比; - 如果未设置并且输入图像宽度超过 1.6K 像素,则输入将宽度自动缩放到 1.6k + 如果未设置且输入图像宽度超过 1.6k 个像素,则输入将宽度自动缩放到 1.6k ---data_device:指定源图像数据在训练时的放置位置,默认使用cuda,如果在大型/高分辨率数据集上进行训练,建议使用cpu,减少显存占用,但训练速度会变慢 +--data_device:指定源图像数据在训练时的放置位置,默认使用cuda,如果在大型/高分辨率数据集上进行训练,建议使用cpu,减少显存占用 --white_background / -w:添加此标志以使用白色背景而不是黑色(默认),用于评估 NeRF Synthetic dataset --sh_degree:球谐函数的阶数(不大于 3),默认为 3 ---convert_SHs_python:添加此标志以使用 PyTorch 而不是论文提出的pipeline计算 SH系数 的forward and backward ---convert_cov3D_python:添加此标志以使用 PyTorch 而不是论文提出的pipeline计算 3D协方差 的forward and backward +--convert_SHs_python:添加此标志以使用PyTorch而不是论文提出的pipeline计算 SH系数的forward和backward,默认为False +--convert_cov3D_python:添加此标志以使用PyTorch而不是论文提出的pipeline计算 3D协方差的forward和backward,默认为False ---debug:如果遇到错误,请启用调试模式。如果光栅化器失败,dump则会创建一个文件,您可以在问题中将其转发给我们,以便我们查看。 +--debug:如果遇到错误,请启用调试模式。如果光栅化器失败,dump则会创建一个文件,默认为False --debug_from:调试速度慢。可以指定从哪一迭代(>= 0)开始 ---iterations:训练的总迭代次数,默认为 30_000 - --ip:启动 GUI 服务器的 IP,默认为 127.0.0.1 --port:GUI 服务器的端口,默认为 6009 ---test_iterations:训练脚本在测试集上计算 L1 和 PSNR 的分隔迭代次数,默认为 7000, 30000 ---save_iterations:训练脚本保存高斯模型的分隔迭代次数,默认为 7000, 30000 ---checkpoint_iterations:存储checkpoint的分隔迭代次数,以后续继续新联,保存在model directory中 ---start_checkpoint:保存的checkpoint的路径,以继续训练 +--iterations:训练的总迭代次数,默认为 30_000 +--test_iterations:训练脚本在测试集上计算 L1 和 PSNR 的迭代次数,默认为 7000, 30000 +--save_iterations:训练脚本保存高斯模型的迭代次数,默认为 7000, 30000 +--checkpoint_iterations:存储checkpoint的迭代次数,以后续继续训练,保存在model_path中 +--start_checkpoint:继续训练时要加载的checkpoint的路径 --quiet:此标志用于不写入任何文本到标准输出管道 ---feature_lr:球谐函数的学习率,默认为 0.0025 ---opacity_lr:不透明度的学习率,默认为 0.05 ---scaling_lr:尺度的学习率,默认为 0.005 ---rotation_lr:旋转四元数的学习率,默认为 0.001 - ---position_lr_max_steps:位置学习率从初始值到最终值的步数(从 0 开始),默认为 30_000 --position_lr_init:位置学习率的初始值,默认为 0.00016 --position_lr_final:位置学习率的最终值,默认为 0.0000016 --position_lr_delay_mult:位置学习率的乘数,默认为 0.01 +--position_lr_max_steps:位置学习率从初始值到最终值的步数(从 0 开始),默认为 30_000 ---densify_from_iter:densification开始的迭代次数,默认为 500 ---densify_until_iter:densification结束的迭代次数,默认为 15_000 +--feature_lr:球谐函数的学习率,默认为 0.0025 +--opacity_lr:不透明度的学习率,默认为 0.05 +--scaling_lr:缩放尺度的学习率,默认为 0.005 +--rotation_lr:旋转四元数的学习率,默认为 0.001 + +--densify_from_iter:densification增稠开始的迭代次数,默认为 500 +--densify_until_iter:densification增稠结束的迭代次数,默认为 15_000 --densify_grad_threshold:决定是否应基于 2D 位置梯度对点进行densification的限制,默认为0.0002 ---densification_interval:densify的频率,默认为 100(每迭代100次进行1次) +--densification_interval:增稠的频率,默认为 100(每迭代100次进行1次) --opacity_reset_interval:重置不透明度的频率,默认为 3_000 ---lambda_dssim:SSIM 对总损失的影响,从 0 到 1,默认为0.2 - ---percent_dense:点必须超过场景范围的百分比才能强制致密, (0--1),默认为0.01 +--lambda_dssim:SSIM在总损失的权重,从 0 到 1,默认为0.2 +--percent_dense:点必须超过场景范围的百分比才能强制增稠, (0--1),默认为0.01 #-------------------------------------------------------------------------- Evluation: # Generate renderings python render.py -m ---model_path / -m:为其创建renderings的以训练模型的路径 ---skip_train:跳过渲染training set ---skip_test:跳过渲染test set +--model_path / -m:训练模型输出路径, 在其子文件夹下生成训练或测试视角的渲染图,同train中 +--skip_train:跳过渲染训练视角 +--skip_test:跳过渲染测试视角 --quiet:不写入任何文本到标准输出管道 -以下参数会从用于训练的model path中自动读取。但可覆写它们 ---source_path / -s:COLMAP 或合成 Synthetic NeRF data set的源目录的路径。 ---images / -i:COLMAP 图像的替代子目录,默认为 images +以下参数会从用于训练输出的model_path中自动读取,但可覆写它们 +--source_path / -s +--images / -i --eval --resolution / -r --white_background / -w @@ -78,5 +76,5 @@ python render.py -m # Compute error metrics on renderings python metrics.py -m ---model_paths / -m:应计算metrics的model paths的分隔列表 +--model_paths / -m:保存所有输出结果的文件夹路径,同train中 diff --git a/scene/cameras.py b/scene/cameras.py index abf6e52..26977f0 100644 --- a/scene/cameras.py +++ b/scene/cameras.py @@ -23,8 +23,8 @@ class Camera(nn.Module): self.uid = uid self.colmap_id = colmap_id - self.R = R - self.T = T + self.R = R # 相机到世界的 C2W + self.T = T # 世界到相机的 W2C self.FoVx = FoVx self.FoVy = FoVy self.image_name = image_name @@ -36,7 +36,7 @@ class Camera(nn.Module): print(f"[Warning] Custom device {data_device} failed, fallback to default cuda device" ) self.data_device = torch.device("cuda") - self.original_image = image.clamp(0.0, 1.0).to(self.data_device) + self.original_image = image.clamp(0.0, 1.0).to(self.data_device) # tensor, 归一化的 C H W self.image_width = self.original_image.shape[2] self.image_height = self.original_image.shape[1] @@ -51,10 +51,10 @@ class Camera(nn.Module): self.trans = trans self.scale = scale - self.world_view_transform = torch.tensor(getWorld2View2(R, T, trans, scale)).transpose(0, 1).cuda() - self.projection_matrix = getProjectionMatrix(znear=self.znear, zfar=self.zfar, fovX=self.FoVx, fovY=self.FoVy).transpose(0,1).cuda() - self.full_proj_transform = (self.world_view_transform.unsqueeze(0).bmm(self.projection_matrix.unsqueeze(0))).squeeze(0) - self.camera_center = self.world_view_transform.inverse()[3, :3] + self.world_view_transform = torch.tensor(getWorld2View2(R, T, trans, scale)).transpose(0, 1).cuda() # C2W 相机到世界的变换矩阵 + self.projection_matrix = getProjectionMatrix(znear=self.znear, zfar=self.zfar, fovX=self.FoVx, fovY=self.FoVy).transpose(0,1).cuda() # 生成了一个投影矩阵,用于将视图坐标投影到图像平面 + self.full_proj_transform = (self.world_view_transform.unsqueeze(0).bmm(self.projection_matrix.unsqueeze(0))).squeeze(0) # 使用 bmm(批量矩阵乘法)将世界到视图变换矩阵和投影矩阵相乘,生成完整的投影变换矩阵 + self.camera_center = self.world_view_transform.inverse()[3, :3] # 通过求逆变换矩阵获取相机在世界坐标系中的位置(相机中心) class MiniCam: def __init__(self, width, height, fovy, fovx, znear, zfar, world_view_transform, full_proj_transform): diff --git a/scene/dataset_readers.py b/scene/dataset_readers.py index 56a688b..37d0f26 100644 --- a/scene/dataset_readers.py +++ b/scene/dataset_readers.py @@ -67,7 +67,6 @@ def getNerfppNorm(cam_info): def readColmapCameras(cam_extrinsics, cam_intrinsics, images_folder): ''' - cam_extrinsics: 存储每张图片相机的外参类Imgae 的字典 cam_intrinsics: 存储每张图片相机的内参类Camera 的字典 images_folder: 保存原图的文件夹路径 @@ -90,11 +89,11 @@ def readColmapCameras(cam_extrinsics, cam_intrinsics, images_folder): uid = intr.id # 相机的唯一标识符 - R = np.transpose(qvec2rotmat(extr.qvec)) # 将旋转四元数 转为 旋转矩阵 R,并转置 - T = np.array(extr.tvec) # 平移向量 + R = np.transpose(qvec2rotmat(extr.qvec)) # W2C的四元数转为 R,transpose后 ==> C2W的R + T = np.array(extr.tvec) # W2C的T # 根据相机内参模型计算 视场角(FoV) - if intr.model=="SIMPLE_PINHOLE": + if intr.model=="SIMPLE_PINHOLE" or intr.model=="SIMPLE_RADIAL": # 如果是简单针孔模型,只有一个焦距参数 focal_length_x = intr.params[0] FovY = focal2fov(focal_length_x, height) # 计算垂直方向的视场角 @@ -105,11 +104,6 @@ def readColmapCameras(cam_extrinsics, cam_intrinsics, images_folder): focal_length_y = intr.params[1] FovY = focal2fov(focal_length_y, height) # 使用fy计算垂直视场角 FovX = focal2fov(focal_length_x, width) # 使用fx计算水平视场角 - elif intr.model=="SIMPLE_RADIAL": - # 如果是针孔模型,有两个焦距参数 - focal_length_x = intr.params[0] - FovY = focal2fov(focal_length_x, height) # 使用fy计算垂直视场角 - FovX = focal2fov(focal_length_x, width) # 使用fx计算水平视场角 else: # 如果不是以上两种模型,抛出错误 assert False, "Colmap camera model not handled: only undistorted datasets (PINHOLE or SIMPLE_PINHOLE cameras) supported!" @@ -119,7 +113,7 @@ def readColmapCameras(cam_extrinsics, cam_intrinsics, images_folder): if not os.path.exists(image_path): continue - image = Image.open(image_path) + image = Image.open(image_path) # PIL.Image读取的为RGB格式,OpenCV读取的为BGR格式 # 创建相机信息类CameraInfo对象 (包含旋转矩阵、平移向量、视场角、图像数据、图片路径、图片名、宽度、高度),并添加到列表cam_infos中 cam_info = CameraInfo(uid=uid, R=R, T=T, FovY=FovY, FovX=FovX, image=image, @@ -160,8 +154,7 @@ def storePly(path, xyz, rgb): def readColmapSceneInfo(path, images, eval, llffhold=8): ''' - 加载COLMAP的结果中的二进制相机外参文件imags.bin 和 内参文件cameras.bin - + 加载COLMAP的结果中的二进制相机外参文件imags.bin 和 内参文件cameras.bin path: GaussianModel中的源文件路径 images: 'images' eval: 是否为eval模式 diff --git a/scene/gaussian_model.py b/scene/gaussian_model.py index 3e31289..b92e539 100644 --- a/scene/gaussian_model.py +++ b/scene/gaussian_model.py @@ -139,7 +139,7 @@ class GaussianModel: def create_from_pcd(self, pcd : BasicPointCloud, spatial_lr_scale : float): """ - 从稀疏点云数据 初始化模型参数 + 从稀疏点云数据pcd 初始化模型参数 pcd: 稀疏点云,包含点的位置和颜色 spatial_lr_scale: 空间学习率缩放因子,影响 位置坐标参数的学习率 """ @@ -465,6 +465,12 @@ class GaussianModel: self.densification_postfix(new_xyz, new_features_dc, new_features_rest, new_opacities, new_scaling, new_rotation) def densify_and_prune(self, max_grad, min_opacity, extent, max_screen_size): + """ + max_grad 决定是否应基于 2D 位置梯度对点进行densification的限制,默认为0.0002 + min_opacity 0.005 + extent + max_screen_size 初始为None,3000代后,即后续重置不透明度,则为20 + """ grads = self.xyz_gradient_accum / self.denom # 计算平均梯度 grads[grads.isnan()] = 0.0 diff --git a/train.py b/train.py index 2b83f2f..a9c22fd 100644 --- a/train.py +++ b/train.py @@ -141,16 +141,17 @@ def training(dataset, opt, pipe, testing_iterations, saving_iterations, checkpoi print("\n[ITER {}] Saving Gaussians".format(iteration)) scene.save(iteration) - # Densification,在指定迭代区间内,对3D高斯模型进行增密和修剪 + # < 15000代,则对3D高斯模型进行增密和修剪,Densification if iteration < opt.densify_until_iter: # Keep track of max radii in image-space for pruning gaussians.max_radii2D[visibility_filter] = torch.max(gaussians.max_radii2D[visibility_filter], radii[visibility_filter]) gaussians.add_densification_stats(viewspace_point_tensor, visibility_filter) - + # > 500 且 每100代增稠,则进行 增稠和剪枝 if iteration > opt.densify_from_iter and iteration % opt.densification_interval == 0: - size_threshold = 20 if iteration > opt.opacity_reset_interval else None + size_threshold = 20 if iteration > opt.opacity_reset_interval else None # 初始为None,3000代后,即后续重置不透明度,则为20 gaussians.densify_and_prune(opt.densify_grad_threshold, 0.005, scene.cameras_extent, size_threshold) - + + # 每3000代 或 (白背景 且 为第500代),则重置不透明度 if iteration % opt.opacity_reset_interval == 0 or (dataset.white_background and iteration == opt.densify_from_iter): gaussians.reset_opacity() @@ -159,7 +160,7 @@ def training(dataset, opt, pipe, testing_iterations, saving_iterations, checkpoi gaussians.optimizer.step() gaussians.optimizer.zero_grad(set_to_none = True) - # 定期保存checkpoint + # 第checkpoint_iterations 代时,保存相应代数的网络模型checkpoint if (iteration in checkpoint_iterations): print("\n[ITER {}] Saving Checkpoint".format(iteration)) torch.save((gaussians.capture(), iteration), scene.model_path + "/chkpnt" + str(iteration) + ".pth") diff --git a/utils/camera_utils.py b/utils/camera_utils.py index 2451104..783dced 100644 --- a/utils/camera_utils.py +++ b/utils/camera_utils.py @@ -38,7 +38,7 @@ def loadCam(args, id, cam_info, resolution_scale): scale = float(global_down) * float(resolution_scale) resolution = (int(orig_w / scale), int(orig_h / scale)) - resized_image_rgb = PILtoTorch(cam_info.image, resolution) + resized_image_rgb = PILtoTorch(cam_info.image, resolution) # 调整图片比例,归一化,并转换通道为torch上的 (C, H, W) gt_image = resized_image_rgb[:3, ...] loaded_mask = None diff --git a/utils/general_utils.py b/utils/general_utils.py index 9d7fc10..87ad557 100644 --- a/utils/general_utils.py +++ b/utils/general_utils.py @@ -20,10 +20,11 @@ def inverse_sigmoid(x): def PILtoTorch(pil_image, resolution): resized_image_PIL = pil_image.resize(resolution) - resized_image = torch.from_numpy(np.array(resized_image_PIL)) / 255.0 + resized_image = torch.from_numpy(np.array(resized_image_PIL)) / 255.0 # 归一化 if len(resized_image.shape) == 3: - return resized_image.permute(2, 0, 1) + return resized_image.permute(2, 0, 1) # 转换为 3 H W else: + # 若为H W,则添加一个通道维度为 H W 1,再转换为 1 H W return resized_image.unsqueeze(dim=-1).permute(2, 0, 1) def get_expon_lr_func( diff --git a/utils/graphics_utils.py b/utils/graphics_utils.py index 68a8e6f..b271901 100644 --- a/utils/graphics_utils.py +++ b/utils/graphics_utils.py @@ -37,15 +37,16 @@ def getWorld2View(R, t): def getWorld2View2(R, t, translate=np.array([.0, .0, .0]), scale=1.0): Rt = np.zeros((4, 4)) - Rt[:3, :3] = R.transpose() - Rt[:3, 3] = t + Rt[:3, :3] = R.transpose() # W2C的 R + Rt[:3, 3] = t # W2C的 t Rt[3, 3] = 1.0 - + # C2W的变换矩阵 C2W = np.linalg.inv(Rt) - cam_center = C2W[:3, 3] + cam_center = C2W[:3, 3] # C2W的 t,即相机在世界坐标系中的坐标位置 cam_center = (cam_center + translate) * scale - C2W[:3, 3] = cam_center - Rt = np.linalg.inv(C2W) + C2W[:3, 3] = cam_center # 加上平移后的 C2W的变换矩阵 + + Rt = np.linalg.inv(C2W) # W2C的变换矩阵 return np.float32(Rt) def getProjectionMatrix(znear, zfar, fovX, fovY):