企业如何改善远程协作
|
在比赛中,照搬照抄他人辛苦所得的方案很容易就让人掉入圈套,只为了疯狂追求增加那一点点分数的零头。 Kaggle真的是一场以增长见识、经验为目的竞赛。对于大多数人来说,不管是微调复杂模型,还是为了神经网络仔细琢磨优化器的具体变种,都不值得花费数小时的时间,但正是这种大量的试验和经验才是最最重要的。 只要我们专注于学习和思考,我们就有可能取得很大的进步。这就是高效成功学的核心:利用有限的精力和时间获得最大的学习效果。 Kaggle的排名本身就代表着在数据科学领域学习的巨大成就。然而,除非你已经有很大希望获得奖金(这很不错),那么这个排名仅仅只是一个里程碑,并不能保证为参赛者带来任何工作。 正如Monolith AI的高级数据科学家Gareth Jones在一篇文章中所写的:“最近,我发现至少有两位雇佣我从事现今工作的人完全不知道我在Kaggle的资料,尽管在我的简历还有领英的顶部都有链接。”
“话虽如此,在面试的过程中,我能够详细的讨论各种Kaggle的项目。因此,Kaggle竞赛在这方面肯定是非常有用的。在我现在所从事的工作之前,我的大部分的机器学习和实践经验都是从Kaggle中获得的。我想不论如何得来的经验都弥足珍贵。” 比赛中,一个名为TabNet的模型获得了前所未有的成功。这个模型弥补了神经网络在处理表格数据上的缺陷。因此,我们对其进行了研究并将之纳入了我们的最后一版方案,其中就包括了TabNet的两种变体。但是,要记住,不能把别人的想法作为探索的终点,而是要作为一个跳板。有以下两点原因:
2. 不要过于关注公开的排行榜 Kaggle有一个公开的排行榜系统和一个非公开的排行榜系统。
从最终确定的排行榜中不难发现,公开的排行榜和非公开的排行榜之间有很大的差异,参赛者名次可能会前后移动数百个位次。Kaggle可能是用这种系统来防止作弊。 参赛者在公开的排行榜上的名次更多的只是一个范围,而不是确定的位次。很有可能最终的名次会比公开的排行榜上的名次上下浮动5%。因此,这能很好的估量排名所在的范围,但是离最终的名次还有一定距离。 不要因为公开的排行榜上的分数而灰心丧气(或备受鼓舞)。在比赛中设计方案时一定要记住所给出的测试数据也只是真实的测试数据的一小部分而已。
请铭记这一切都是为了增长见识! (3) 使用大数据 从我处理大量数据集的经验来看,无论使用哪种语言,都无法将真正的“大数据”加载到笔记本电脑的内存中。对于这样的用例,你可能需要利用分布式处理框架,如Dask、Spark、Ray等。在使用单个服务器实例或笔记本电脑时,可以处理的数据量是有限制的。 如果你想把实际的数据处理工作转移到一个计算节点集群中,可能使用GPU实例来进一步加快计算速度,Python刚好有一个庞大的框架生态系统,可以简化这项任务:
如果你需要协调和监视在计算节点集群上发生的数据处理,有几个用Python编写的工作流管理平台,可以加快数据管道的开发和维护,例如Apache Airflow、Prefect或Dagster。
有些抱怨Python的人,其实并没有充分利用它,或者可能没有使用适当的数据结构来解决眼前的问题。总而言之,如果你需要快速处理大量数据,那你可能需要更多的计算资源,而不是更快的编程语言,而且有一些Python库可以轻松地将工作分布到数百个节点上。 (编辑:孝感站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

