电子表格也迎来了我方的 ChatGPT 时刻开云kaiyun。
就在这两天,一个名为TabPFN的表格责罚模子登上 Nature,随后在数据科学领域激发烧烈琢磨。

据论文先容,TabPFN 专为袖珍表格而生,在数据集样本量不跨越 10,000时性能达到新 SOTA。
具体而言,它在平均 2.8 秒内就能赢得比之前通盘身手更好的后果。
甚而即便其他身手领有长达 4 小时的"整顿"时辰,也如故比不外。

更主要的是,它所接受的预覆按神经网罗身手绝对闭幕了传统 ML(如梯度升迁树)在表格领域的统治地位。


当前 TabPFN 开箱即用,无需故意覆按即可快速解读任何表格。
开箱即用的表格责罚模子
在 Nature 的另一篇著作中,传统表格机器学习的局限性被说起。
比如针对以下常见应用场景:
假如你计算着一家病院,念念要判断哪些患者病情恶化风险最高,以便医护东谈主员能优先料理,你不错创建一个电子表格,每行对应一位患者,列则纪录年级、血氧水对等联系属性,终末一列标注患者入院时间是否病情恶化。接着,用这些数据拟合数学模子,就能预估新入院患者的病情恶化风险。
在这个例子里,传统表格机器学习运用数据表进行臆想,这时常需要针对每个任务缔造和覆按定制模子。
而来自德国弗莱堡大学 ML 实验室等机构的规划东谈主员,所推出的 TabPFN 作念到了无需故意覆按即可责罚轻易表格。

况兼据作家们宣称,本次发布的TabPFN v2比拟两年前的初代版块有了很大升级。
其时的 TabPFN v1 被觉得"可能会绝对转换数据科学",而当今:
咱们离这一标的又更进了一步。

详细而言,v2 版块革新了分类才气,并延长了功能以接济转头任务,其在转头任务上的性能也优于经过万古辰调优的基线模子。

此外,它复原生接济缺失值和异常值等,使其在责罚各式数据集时皆能保抓高效和准确。


合座而言,TabPFN v2 适用于责罚不跨越 10,000 样本和 500 特征的中小边界数据集。
底下咱们来看 TabPFN 模子完满的覆按和应用经由。
先说数据集采样。为了让模子未必应酬各式本色情况,规划东谈主员生成了大皆合成数据。
第一步,他们对一些要害参数(如数据点、特征、节点等数目)进行采样,然后在中间部分构建狡计图和图结构以责罚数据,最毕生成具有不同散布和特征的数据集。
需要强调的是,为幸免基础模子常见问题,中间部分是基于结构因果模子(SCMs)来生成合成覆按数据集。
精真金不怕火说,通过采样超参数构建因果图,传播运挽回数据并应用多种狡计映射和后责罚工夫,不错创建大皆具有不同结构和特征的合成数据集,从而使模子能学习责罚本色数据问题的政策。

接下来进行模子预覆按,他们为表格结构适配了新的架构。
比如 TabPFN 模子为每个单位格分拨独处的暗示,这意味着每个单位格的信息皆能被单独责罚和热心。
况兼还接受双向提防力机制进一步增强了模子对表格数据的领略才气。
一方面,通过 1D 特征提防力机制,归拢特征列的单位格之间不错相互关联和传递信息,使模子未必捕捉到不相同本在归拢特征上的变化规章和关系。
另一方面,1D 样本提防力机制让不相同本行的单位格进行信推辞互,从而识别出不相同本之间的合座相反和相似性。
这种双向提防力机制保证了不管样本和特征的次第若何转换,模子皆能自若地索乞降运用其中的信息,从而提高了模子的自若性和泛化才气。

况兼后续还进一步优化了模子覆按和推理经由。
比如为了减少叠加狡计,当模子进行测试样本推理时,允许径直运用之前保存的覆按气象,幸免了对覆按样本的叠加狡计。因为覆按阶段的表格数据皆是单独责罚和学习的,照旧有所保存。
同期,模子还通过接受半精度狡计、激活检查点等身手,进一步减少了内存占用。
终末,在模子本色瞻望生成阶段。由于借助高下体裁习(ICL)机制,模子无需针对每个新数据集进行大皆的再行覆按,从而不错径直应用于各式未始见过的实验宇宙数据集了。
表格责罚新 SOTA
在定性实验中,与线性转头、多层感知器(MLP)、CatBoost 等比拟,它未必对多种不同的函数类型进行有用建模。(橙色暗示覆按数据,蓝色暗示瞻望)

而在另一方面,在 AutoML Benchmark 和 OpenML - CTR23 等粗莽使用且具有代表性的数据集上进行评估时,TabPFN 比 Random Forest、XGBoost 等先进的基线身手赢得了更多 SOTA,涵盖了分类和转头两种主要任务的多个策画。

甚而在本色的 5 场 Kaggle 竞赛中,在覆按样本少于 10,000 的情况下,TabPFN 也皆慑服了 CatBoost。
最终末,TabPFN 还接济针对特定数据集进行微调。

当前联系代码已开源,作家们还发布了一个 API,允许使用他们的 GPU 进行狡计。

感兴趣的同学不错蹲一波了 ~
API 调用:
https://priorlabs.ai/tabpfn-nature/
代码:
https://github.com/PriorLabs/TabPFN
参考衔尾:
[ 1 ] https://www.nature.com/articles/s41586-024-08328-6
[ 2 ] https://www.automl.org/tabpfn-a-transformer-that-solves-small-tabular-classification-problems-in-a-second/
[ 3 ] https://x.com/FrankRHutter/status/1877088937849520336开云kaiyun
