1. 极牛网首页
  2. 大数据

大盘点:8月Github上7个值得关注的数据科学项目

大盘点:8月Github上7个值得关注的数据科学项目

为机器学习的又一大步做好准备?实验数据集、流行数据科学库和框架的使用是一个良好的开端,但是如果你想在竞争中脱颖而出,你必须突破并让自己与众不同。

最好的方法是使用数据科学领域的最新技术来完成这个项目。你想成为计算机视觉专家吗?然后学习最先进的目标检测算法。如果你想在自然语言处理(NLP)方面有所成就,那就学习Transformer模型的各种特性和分支。

关键是要时刻准备并愿意学习最新的数据科学和技术。数据科学是发展最快的领域之一。作为数据科学家,我们也需要继续学习和成长。

本文向您展示了2019年8月在GitHub上创建的7个数据科学项目。作者选择的项目范围很广,涉及从机器学习到强化学习的许多领域。

本文将这些数据科学项目分为三类:

@机器学习项目深度学习项目编程项目pyforest——导入所有Python数据科学库@

我非常喜欢这个Python库。正如标题中提到的,所有常用的数据科学库都可以通过pyforest库导入。看看我从图书馆的Github仓库提取的例子:

大盘点:8月Github上7个值得关注的数据科学项目

兴奋?Pyforest目前包括熊猫、NumPy、matplotlib等数据科学库。

只需调用pip install pyforest将库安装到机器上,所有流行的Python数据科学库都可以在一行代码中导入。

太棒了!你肯定会像作者一样喜欢使用它的过程。

HungaBunga-使用sklearn库构建机器学习模型的另一种方法

如何从构建的机器学习模型中选择最合适的一种?如何确保正确的超参数发挥作用?这些是数据科学家需要回答的关键问题。

与大多数其他数据库相比,HungaBunga项目使用户能够更快地找到答案。它将使用所有可能的超级参数来运行sklearn库中的所有模型(是的,全部!),然后通过交叉验证对模型进行排序。

大盘点:8月Github上7个值得关注的数据科学项目

以下是导入所有模型(包括分类模型和回归模型)的方式:

请看下面这篇文章,它全面讨论了监督机器学习算法:

深度学习项目

DeepMind的行为套件(BSSuite)用于强化学习。

大盘点:8月Github上7个值得关注的数据科学项目

最近,Deepmind多年来的巨额亏损已经成为新闻。然而,必须承认,该公司在强化学习研究方面仍然遥遥领先。他们在这一领域投入了大量的人力和物力,认为强化学习是人工智能的未来。

这是他们最新的开源产品—— b套件。该项目结合了许多旨在理解强化学习对象核心性能的实验结果。

作者喜欢这个研究领域,因为它必定会努力实现两个目标(每个Github仓库一个):

这个Github仓库详细解释了如何使用bsuite。

读者一定听说过BERT。基于Transformer架构,它是自然语言处理领域最流行的框架,应用越来越广泛。

但是注意:运行它可能需要大量资源。那么数据科学家如何在他们自己的机器上运行BERT呢?此外,使用蒸馏伯特!

大盘点:8月Github上7个值得关注的数据科学项目

Distilated BErt是Distilated-BErt的昵称,由PyTorch转换框架团队开发。这是一个基于BERT架构的小型廉价变压器模型。开发团队说蒸馏伯特比伯特快60%,而性能与伯特相差不到5%。

这个Github仓库讲述了DistilBERT和Python代码是如何协同工作的。您可以点击下面的链接,了解更多关于PyTorch-Transformers框架及其在python中的使用。

ShuffleNet系列——移动设备高效卷积神经网络

以下是一个计算机视觉项目!洗牌网(ShuffleNet)是一种计算效率高的卷积神经网络架构,适用于计算能力有限的移动设备。

大盘点:8月Github上7个值得关注的数据科学项目

这个Github仓库包含以下ShuffleNet模型(是的,不止一个):

洗牌机:为移动设备设计卷积神经网络洗牌机2:样本神经结构的研究提供了一个非常有效、实用的建议;DetNAS:目标检测技术支持研究@

RAdam-提高学习率的方差

到目前为止,在不到两周内发布的RaDaM项目已经被超过1200颗恒星评估过。这证明这个仓库非常强大!

RAdam的开发者在他的论文(https://arxiv.org/pdf/1908.03265.pdf)中指出,深度学习技术的收敛问题是由于模型训练早期的自适应学习率差异较大。

RAdam是亚当的新版本,可以纠正适应性学习率的变化。该版本在普通亚当优化器的基础上进行了实际改进,并改进了方差问题。

在处理不同的学习率时,RAdam的表现与亚当和SGD相比如下(X轴代表训练轮数):

大盘点:8月Github上7个值得关注的数据科学项目

一定要参考以下机器学习优化指南(包括亚当):

机器学习中的梯度下降算法(和变量类型)简介

ggtext-增强型ggplot2文本渲染

这个项目对社区中所有R语言用户都非常实用,尤其是那些经常使用ggplot2包的人(几乎每个人)。

大盘点:8月Github上7个值得关注的数据科学项目

Ggt text包使用户能够在生成的图像上呈现丰富的文本。以下是一些可以通过ggtext完成的操作:

大盘点:8月Github上7个值得关注的数据科学项目

这个GitHub仓库包含一些直观的示例,读者可以在自己的机器上重复这些示例。

Ggtext目前无法通过CRAN调用。用户需要通过以下说明从GitHub下载并安装它。

极牛网精选文章《大盘点:8月Github上7个值得关注的数据科学项目》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://jikenb.com/3709.html

发表评论

登录后才能评论