SQL是必学的吗？数据科学家的技能树该怎么点？数据树该一间屋子10个人

2024-06-01 05:08:21 [百科] 来源：避面尹邢网

SQL是数据树该必学的吗？数据科学家的技能树该怎么点？

作者：读芯术 2020-12-03 17:00:00大数据作为一名数据科学家，你使用什么方法?科学你还有其它方法吗?数据科学家必须要会使用SQL吗?本文将讨论SQL在数据科学中的作用，以及结构化查询语言(SQL)的家的技替代方法。

本文转载自公众号“读芯术”(ID：AI_Discovery)。数据树该

一间屋子10个人，科学可能其中5位数据科学家都表示需要结构化查询语言(SQL)才能工作，家的技另一半人则表示还有其他方法可以处理数据。数据树该

SQL是必学的吗？数据科学家的技能树该怎么点？数据树该一间屋子10个人

作为一名数据科学家，科学你使用什么方法?家的技你还有其它方法吗?数据科学家必须要会使用SQL吗?本文将讨论SQL在数据科学中的作用，以及结构化查询语言(SQL)的数据树该替代方法。

SQL是必学的吗？数据科学家的技能树该怎么点？数据树该一间屋子10个人

[[355527]]

SQL是必学的吗？数据科学家的技能树该怎么点？数据树该一间屋子10个人

SQL

是科学否需要了解SQL具体取决于个人所属公司和数据科学团队。有些团队有数位数据工程师和数据分析师以及机器学习工程师，家的技而有些团队则只有一位数据科学家。数据树该所以数据科学家是科学否需要了解SQL，你心中自有答案。家的技

但是，讨论一下是否需要了解SOL的原因，以及不需要SOL的时机是颇为有趣且十分重要，讨论这个问题也有助于即将入职的数据科学家了解工作期望。以下是我使用SQL的原因：

使用SQL查询表格以获得有用的数据集
保持自主感(尽管也需要帮助)
在现有的SQL查询中随时发现和创建新功能

尽管数据科学可以看作是只专注于Python和R以及复杂机器学习算法的工作，但如果不充分利用SQL的优势，一个团队可能很难执行数据科学运算进程。不过，有时SQL并不是必需的，这取决于个人在数据科学领域的具体角色。

如果能从数据工程师或数据分析师那里获得一些帮助，便可以参考其他替代方法。此外，当SQL查询功能完全不符合专业时也不需要SQL，因为此时专注点在于数据科学模型开发，类似于在已获取的数据上相互测试各种机器学习算法。

替代方法

从数据分析师或数据工程师处获取数据集后，对数据集的下一步改进就是创建新功能要素，而不只是直接从数据表中获取字段。例如，如果数据集中有10个字段，则可以开发几个全新指标作为字段，而不是通过计算第1列和第2列来直接创建新的第11列。除了SQL以外，另一个比较容易进行此计算的工具是pandas。充分理由显示，数据分析师和数据科学家已广泛使用该库。

使用pandas，能够快速执行复杂计算，并且只需一行代码。有时很难使用SQL计算数据，因为它在视觉上呈多行布局(仅为个人看法)。

以下是一些常用的pandas 数据框操作，旨在方便化数据集特征工程运算。

* groupby* items* loc* iloc* iteritems*keys* iterrows* query (this operation is quite similar to SQL quering, Ihighly recommend)* aggregate* corr* mean, median, min, and max* quantile*rank* sum* std* var* append* merge* join* sort_values* isnull* notna*between_time

大量操作都可以应用到pandas 数据框架中。个人最喜欢的操作：