Koester2007MaxBCGRedSequenceGalaxy

  • maxBCG paper,是 redMaPPer 的更早版本
  • 这里的 richness 在之后可以作为 cluster mass proxy
  • companion paper Koester 2007: 用 maxBCG 从 SDSS 中发现了 13823 个 cluster,研究了算法的表现,还研究了光学 cluster 和 X-ray cluster 的关系

Comment #

  • 光学相比 X-ray 在 cluster 研究上的优势
    • 数据便宜、能够找到更暗的 cluster、有副产品产出
  • 算法的基础:cluster 成员星系具有一定的特征
    • 空间和颜色上聚集
    • 在给定的红移上是最亮的星系
    • 具有一个 BCG
  • 具体的算法
    • 首先是要对于每一个星系计算其作为 BCG 的概率
    • 这里的概率要拆分成多个部分,分别研究
      • 位置分布:NFW profile 的二维投影
      • 颜色分布:周围的星系是否具有基本一致的颜色?
      • BCG: 这个星系是否具有 BCG 独特的性质?
  • 总的来说就是考察一个星系作为 BCG 的全方面的概率因素,整合到 likelihood 里面,然后对 likelihood 进行排序得到 cluster catalog
    • cluster richness 由对周围满足一定条件的星系进行计数得到
  • 其实这里相当于把 red sequence 当成了一个单一颜色的序列,也就是一个红移对应一个红的颜色,这样可以得到星系在视线方向上的距离信息

Abs #

  • cluster 具有宇宙学的意义
  • cluster 被识别为 an overdensity of bright, uniformly red galaxies
    • BCG 在这种探测方法中也占据很重要的地位
  • 研究了 BCG 在 mock galaxy catalog 上的表现
    • 可以恢复出 halo abundance function, 以及得到 cluster richness 和 halo property 的关系
    • 可能有时候会 over merge 视线方向上的其他结构,导致 red sequence galaxy 的数量被高估 <20%

1 Intro #

  • cluster 是 DM halo 的观测对应,所以对于宇宙学具有重要的意义
    • cluster 中暗物质含量超过 85%
    • 普通物质中的大部分以 hot intracluster medium 形式存在
      • 这种气体供给恒星的燃烧,还会发出 X-ray 以及产生 SZ effect
  • 探测 cluster 的方法包括 X-ray, 光学和 SZ effect
  • 研究宇宙学不仅需要 cluster finding, 更重要的是研究 observables 和 cluster mass 的关系,以及这个关系的 scatter
  • 光学方法的优势在于高红移、高信噪比;但是会受到投影效应的影响
    • X-ray 不会受到投影的影响,但是探测范围有限,只能看到高亮度/低红移的 cluster
    • 光学数据是更便宜的
    • 光学数据能够测量具有更低 abundance 的系统,也就是降低 abundance function 的下限
      • 有利于加强宇宙学的限制
      • 可以缓解 scatter
    • 光学数据除了得到和宇宙学有关的 richness 之外还有额外的数据产出,比如星系 membership, 速度信息,光度函数等
  • 通过光学数据得到 cluster catalog 是可能的,关键在于减少 projection effect
  • red sequence 的方法最早提出于 Gladders&Yee 2000
    • 之后还有两项推广的工作
  • cluster finding algorithm 是重要的
    • 算法最好能尽量简单、客观、自动化,并且可以提供 cluster 的其他物理信息
  • 算法的基础是:cluster 中的星系倾向于表现出 early 形态以及比较红的颜色(这一段其实在下面 sec2 有更详细的描述)
    • 红色星系的比例随着 halo mass/luminosity 的增长而升高,并且随着到 cluster 中心的距离增加而降低
      • 也就是说,cluster 的演化倾向于将其中的星系变为红色和 early-type 的形态
  • we present maxBCG, an optical cluster finding algorithm
    • 原理:在特定红移下,cluster 成员一般是最亮的星系,并且在颜色和空间上具有聚集性质(clustered)
    • 由以上性质可以选择出 richness 比较高的 cluster 并且确定其中心
    • 对于 richness 较低的星系,则需要依靠已知的 red sequence 对 potential cluster 进行筛选
  • volume-limited 意思是在给定体积内寻找某一亮度阈值以上的样本,和 flux-limited 相对

另一篇 paper 中给出了 maxBCG 在 SDSS 上的运行结果

2 Algorithm #

2.1 Outline #

cluster 具有三个主要特征

  • 成员星系分布具有明显的 clustering, 在二维平面中以 1/r 的方式衰减
  • 最明亮的星系在 CMD 中位于 red sequence (E/S0 ridgeline) 之上,具有非常一致的颜色,并且是给定红移下最亮、最红的星系
    • 由于显著的 4000A break 特征,这些星系的颜色和红移是紧密关联的,可以从颜色推算红移
      • 4000A break
        • 主要是因为恒星的大气吸收以及没有温度达到 400nm 的高温恒星
        • 另一种说法:line-blanketing
        • 对应于比较冷的恒星
      • Balmer break 出现在 3645A,对应 n=2 和自由态之间的跃迁
        • 在 10000K 的 A star 中最明显
  • 一般具有唯一的中心最亮星系(BCG),和星系分布中心重合,可以用于确定 cluster 的存在、位置和红移

将以上的 feature 整合到一个 likelihood 里面,然后评判每一个星系是否可能是每个红移上的 BCG(需要一个 galaxy catalog 作为输入)

  • 对于一个星系,寻找其 likelihood 最大的红移值
  • 将星系的最大 likelihood 进行排序
  • likelihood 最大的星系成为第一个 cluster center, 排除周围一定空间范围内的星系作为 BCG 的可能性
  • 以上过程称为 percolation, 最后得到了一个 cluster catalog, 其中包含中心星系和红移信息
    • 对周围星系作距离、颜色和光度的截断,将周围星系的数目作为 cluster 丰富度 $N_\mathrm{gal}$ 的估计值
    • 另一个估计值是 $N_\mathrm{gal}^\mathrm{R200}$,采用可变的 aperture

2.2 Likelihood #

由两部分组成,$\mathcal{L}\mathrm{BCG}$ 衡量单个星系作为 BCG 的可能性,$\mathcal{L}\mathrm{R}$ 衡量周围环境和 red sequence 匹配的程度(R for ridgeline)

目的之一是为了找到最合适的红移

2.3 Ridgeline likelihood #

对应上面的 $\mathcal{L}_\mathrm{R}$

Ridgeline likelihood 分解为空间和颜色的 filter

Spatial filter #

cluster 周围的 DM halo 和星系的分布都可以用 NFW 来近似

$$ \rho(r) = \delta_{c} \rho_{c} \frac{1}{(r/r_{s})(1+r/r_{s})^{2}} $$

其中 $r_s=R_\mathrm{200}/c$ 是 scale radius. 将这个分布投影到二维上得到

$$ \Sigma ( x ) = \frac { 2 \rho _ { s } r _ { s } } { x ^ { 2 } - 1 } f ( x ) $$

由这个 filter 对到中心不同距离的星系赋予不同的权重,这样可以增大真正满足这样分布的星系的 likelihood (有点类似图像处理里面卷积一个和 psf 同样大小的 kernel)

~~在 This work 中设置固定的 $r_s$ 为 150kpc~~

Color filter #

对于 cluster 的研究表明存在一个 universal 的 red sequence, 对于低红移和高红移的 cluster 都成立

  • 这些 red sequence 星系是 cluster 中最亮的星系,主要由 E 和 S0 (透镜) 组成,这是 E/S0 ridgeline 名称的来源
  • 形成这样的 sequence 的原因是星系基本由年老的恒星组成,也就是最近很长时间以来都没有 SF 活动
  • 关于 red sequence 的 review 可以参考 G&Yee 2000 的文章
  • cluster 之外(比如 group)也存在类似的 rs
    • field spiral 星系可以过渡到 rs 星系,这一过程可以由以下步骤实现
      • spiral 星系发生碰撞产生椭圆星系
      • 椭圆星系由于 ram pressure 等原因失去 hot gas, 进而使得 SF 停止
    • 以上 picture 得到了最近的 simulation 的补充,AGN feedback 对此也有贡献
    • 可能在 group 中没有非常明显,但是 rs 这个概念仍然是存在的

This work 根据 SDSS g-r 和 r-i 进行颜色的 cut, 依赖于已知的 rs 给出的颜色-红移关系

  • 首先根据 SDSS 的数据定义一个 red sequence (CMD 上的一条 line), 并且测量其 width
    • 投影得到颜色的 marginal distribution, 基本满足 Gaussian 分布, scatter 大约是 0.05 水平
    • line scatter (width) 基本是 intrinsic 的
    • 这里似乎忽略了 rs 的 small tilt?(通过上面的 projection)也就是不考虑颜色相对于亮度的依赖关系?
  • normalization function 具有 Gaussian 形式,将 being tested galaxy 的颜色和给定红移上的平均颜色进行对比
    • Gaussian function 的方差来源于两个 error 的平方和:galaxy 本身的测量误差以及 rs 的 intrinsic error (0.05 level)
    • 如果星系满足理论的红移-颜色关系的话,这个 Gaussian 会达到最大值,这是一个推测星系红移的方法
      • 对于星系测量误差较低,或者 cluster red sequence 比较明显的情况,推测的红移会非常精确
    • 好处是将星系的颜色 error 也纳入了考虑中,一些测光误差较大的星系提供比较有限的信息
  • 不需要完美的 color-redshift 关系,但是一个准确的关系是有帮助的
    • 4000A break 使得 g-r 成为一个对于 red sequence 星系来说有效的红移 indicator, 所以得到精确的红移是完全可能的
    • 光度红移?
  • 在 maxBCG 中,颜色-红移关系是通过已知颜色和红移的 SDSS LRG 作为模板来得到的(数据来源于 Eisenstein 2001)
    • 原因是 LRG 样本中包含很多 cluster galaxy (因为 cluster galaxy 一般也是比较明亮、比较红的)
    • 但是 LRG 的这种关系仅在 z>0.15 有效
      • 可能因为 LRG 的选择在低红移下不那么 robust
      • 对于 z<0.15 this work 使用了一些另外的方法筛选 SDSS 光谱星系
    • 用颜色-红移关系来寻找 cluster galaxy, 然后用这些样本反过来校准颜色-红移关系

下面是一定红移范围内的颜色-红移关系及其 scatter(dot 应该是用作 template 的 LRG? 两条虚线分别对应纯粹 passive 星系和纯粹 star-forming 星系的颜色-红移关系,实线是拟合得到的 function?)

总之这一步的目的就是得到 Gaussian 分布中的 $x(z)$,忽略颜色对星系光度的依赖关系

Koester2007MaxBCGRedSequenceGalaxy_1.png

关于颜色-红移关系的确定有很多问题:

  • 这里的实线是怎么拟合的?
  • 似乎还有一个确定 cluster galaxy 之后再回去重新优化颜色-红移关系的步骤?
  • 这里的点似乎是 cluster member, 而不是 LRG? 但是又是具有光谱数据的 member

Constructing $\mathcal{L}_\mathrm{R}$ #

这里的过程是 Postman et al. (1996) 的简单复述(可以去看 Postman 的 sec4)

$$ \mathcal{L}_R \sim \frac{1}{\sigma} \exp \left\{ \frac{\left[ b(c) + \Lambda_N M(r,c) - D(r,c) \right]^2}{\sigma^2} \right\} $$
  • $M(r,c)$ 是关于位置参数 $r$ 和颜色 $c$ 的分布模型,用作 filter 以匹配实际满足这个分布的 cluster center, 前面的 $\Lambda$ 是 cluster richness
    • $M=\Sigma(r /r_\mathrm{s}) G_\mathrm{g-r}G_\mathrm{r-i}$
    • 这里 $\Sigma$ 代表的是 NFW profile 投影到二维上的分布,后面是两个关于颜色的 Gaussian 分布
    • 这里的 $r$ 说明是成员星系而不是 BCG?
    • 将 Poisson 分布近似为 Gaussian
  • $b(c)$ 是 background
    • number count 被背景主导,所以 $\sigma^2\approx b(c)$
  • 这里的 $D(r,c)$ 是某种形式的基准,或者说是某一个 Gaussian 的均值
    • 以上 $M(r,c)$ 是理论的分布(model),而这里的 $D$ 可能来源于实际数据
    • 是实际数据中每一个星系的 likelihood 计算?

对于一个给定的 cluster 中心,需要对周围区域进行积分

$$ \ln \mathcal{L}_R \propto \int \frac{\Sigma(r/r_s) G_{g-r} G_{r-i}}{b(c)} d^2 r \, dm \, dc $$

(也许这里的数学推导可以跳过?因为确实用不到,只需要了解算法的步骤就可以;具体的算法需要去看 Postman 1996 的文章)

将似然函数应用到一个星系为中心、周围有很多 potential member galaxy 的模式中,上面的积分就转化为求和

$$ S(\theta) = \sum_{k=1}^{N_g} \Sigma(r_k(\theta)) G_{g-r}(c_k) G_{r-i}(c_k) $$

(最后这个函数就是最直觉的形式~~,所以推导根本没用~~)

这里的问题:

  • $D$ 是什么?是如何从实际数据中构造的?
  • 什么时候加入了星等 m 这一个变量?
  • 为什么是 Poisson?
  • 应该是 $-\ln \sigma$?

总之就是结论很简单,但是过程没有清楚

最后这个 likelihood 综合考虑了一个星系周围邻居的位置分布以及颜色分布,如果位置分布类似

2.4 BCG likelihood #

BCG #

BCG for brightest cluster galaxy

likelihood 的第二个因子 $\mathcal{L}_\mathrm{BCG}$ 应当独立于周围环境进行计算

  • cluster 一般都有一个 BCG
    • 也称为 cD, central Dominant
    • 其亮度变化服从 $r^{-1 /4}$ 的规律
    • 亮度可以达到 10Lsun
    • 属于 cluster 中一类独特的 galaxy population
      • 位于 red sequence 的最亮端
  • 可以利用 BCG 的独特性质寻找这类星系
  • Koester 2007 的包含 99 个 cluster 的目录中 BCG 的性质如下
    • 其中 79 个具有明确的 BCG
    • 大部分颜色位于 red sequence 颜色范围的 0.1 以内
    • BCG 大部分和 cluster X-ray 中心重合
  • 需要一个 BCG catalog 以确定 BCG 的共同性质
    • 在明亮的 LRG 样本中挑选出 BCG(人工手段)
    • 进行颜色和红移空间的线性回归
    • 用这些 LRG 作为模板搜寻 BCG, 然后构建更加精确的 BCG catalog
    • 得到了 BCG 的亮度和红移的关系,用二次函数进行拟合
    • 而 BCG 颜色随红移的变化关系可以直接参考 red sequence 的结果

最后的 likelihood 是

$$ \mathcal{L}_R(z) = G_{g-r}^{\mathrm{BCG}}(z) G_{r-i}^{\mathrm{BCG}}(z) \exp \left( -\frac{(m - m_i)^2}{\sigma_c} \right) $$

后面的因子是星等组分,衡量星系有多大概率满足给定红移上 BCG 的亮度条件。

2.45 小结 #

likelihood 中的全部因子衡量的是下面几件事情:

(对于给定的一个星系和某个红移 z)

  • 这个星系的颜色和亮度是否满足作为这个红移上的 BCG 的要求
  • 周围星系是否满足位置的集聚性质
  • 周围星系是否满足给定红移上的颜色条件

2.5 输入的星系目录 #

(这段唯一的信息就是确定 $L_\star$ 的细节)

  • 首先把 catalog 根据红移分解为不同的 slice,然后进行基于颜色和星等的初步筛选
    • input catalog 中星系的红移是已知的?
    • 对星等的筛选标准为 $a(z)+M_\star$
      • 其中 $a(z)$ 包括了全部 distance, k-correction, evolution 的影响
    • 星等筛选可以满足 volume limited 的要求?
    • 最后选择了 0.4 $L_\star$ 作为最小的光度值,记作 $L_\min$
    • 还进行了 simulation 确定 k-correction 的影响
  • 筛选 BCG 的时候,不会将比 tested galaxy 更亮的星系当作成员星系,因为 BCG 一般是最亮

3 Evaluating likelihood #

一些准则

  • 作为 potential BCG, 一个星系必须位于 red sequence 颜色的 $3\sigma$ 误差之内,并且亮度超过 $L_\min$
    • 这个限制将 tested galaxy 置于某段 $\pm0.05$ 的红移范围内
  • 作为 neighbor galaxy, 必须在 BCG 周围 $3h^{-1}$ Mpc 以内
  • neighbor galaxy 也需要满足以上的颜色和光度条件,并且比 BCG 更暗
  • 以上的颜色误差 $\sigma$ 来源于星系测光的误差以及 red sequence 本征误差两方面

图 4 和图 5 展示了一个例子,由 likelihood 基本可以确定星系最可能的红移

具体的方法是

  • 对于每个星系都可以进行这样的过程,得到每一个潜在 BCG 的最有可能的红移、周围 neighbor 的数量、最大的 likelihood 等信息
  • 按照 likelihood 进行排列,将最大的定为 BCG,然后将红移和距离比较靠近的星系都标记为 cluster member
    • 这个过程称为 percolation
    • 被 flag 的星系不再作为可能的 BCG
  • 抛弃少于 10 个星系的 cluster
    • red sequence 不好定义
    • 其中的 BCG 可能和大 cluster 的 BCG 性质略有不同

4 maxBCG selection function #

算法的测试:变量包括红移、richness

这里首先用了 Monte Carlo 方法:

  • 将 SDSS 星系目录随机打乱、重新分配颜色、改变位置,用于模拟存在的干扰
  • 然后加入真正的几个 Abell 星系团,位于不同的红移

理想情况是 maxBCG 将这几个 cluster 都找出来,并且可以给出正确的红移;但是这里测试集和训练集都来自 SDSS 不会有问题吗?

测试结果 #

完备性随着 galaxy number 升高而升高,普遍高于 90

更先进的方法:mock Galaxy catalog #

讲了一大堆为什么使用 mock 数据的原因

4.2 介绍了 richness 和 cluster mass 的关联