Tian2025COSMICGalaxyCluster
Brief
#
Intro
#
- 这里 claim 机器学习方法比预设物理模型的 cluster finder 更加完备,尤其是并合中、高红移、低质量的 cluster
- 寻找 BCG 的方法是 XGBoost,richness estimation 用的是 ResNet
- 训练数据是 SDSS
Data
#
- SDSS 的一个 cluster catalog 是 WHL15 (WH for Wen & Han)
- 使用 photo-z 方法
- length 是 158k,红移 0.05-0.08
- 对成员星系进行 1Mpc 的半径筛选、红移的筛选以及亮度筛选
- 这个 catalog 本身提供了每个 cluster 的 richness 信息
- BCG 的训练集包括数量 1-1 的正样本和负样本,8-2 的训练、测试比例
- 将每个 BCG 周围的成员星系分布转化为 Smoothed Optical Map, SOM,用一个高斯核将离散的亮度分布转化为连续的亮度分布
- 扣除 local bkg,还要考虑红移因子
- 同样构建随机选择的负样本
Method
#
- 识别 BCG 用的是 XGBoost,基于梯度提升决策树?
- 输入特征包括亮度、颜色、半径、红移
- 二元分类器的评估指标一般是 ROC 和 AUC
- 对于丰度计算(从 SOM 到一个数字)使用 ResNet-34 作为骨干网络,实际上是迁移学习
- 进行了一些输入和输出的修改
- 用 MSE 作为 loss function,使用随机梯度下降法
Results
#
- 在 200 deg2 的独立天区中运行算法,和已知的 cluster catalog 都匹配很好
- 竟然是和 redMaPPer 的匹配最成功,而且 richness 和 redMaPPer 也有很好的线性关系
- cross match 的距离限制是 1.5 倍 r500,还是非常宽松的
- 新发现的 cluster 大多数是高红移或者低丰度的
Thoughts
#
- 其实更像 Han & Wen 的工作,只关注 cluster 是否找到,宇宙学信息比较少
- 而且相当于只是把 WHL 进行了扩展,最终的 completeness/purity 都取决于 WH catalog 的质量
- 从分立的亮度分布到 SOM 会不会恰好把有关丰度的信息给消除掉?
- 感觉用 ResNet 这种提取特征的模型来计算 richness 有一点小题大做
- 先找 BCG 再测量 richness 的步骤分解还有讨论的余地
Supplement
#
- ImageNet 是一个图像分类数据集/挑战
- ResNet 在 2015 年由何恺明提出
- 核心的思想是神经网络学习 x->x 是很困难的,不要花能力在这件事情上,而是直接学习 x->H (x)-x
- 解决了层数增加带来的退化问题,使得深层网络的构建成为可能
- ResNet-34 的数字代表的是神经网络的层的数量,其他层数还包括 18、50、101、152