微软发布了用于交互式数据探索和建模的数据科学工具

微软最近发布了两个新的数据科学工具，用于交互式数据探索：建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告（Interactive Data Exploration, Analysis and Reporting，IDEAR）和自动建模和报告（Automated Modeling and Reporting，AMAR）。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题，如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习（Machine Learning，ML）模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索：

IDEAR工具可以用来探索、可视化和分析数据，并提供数据洞察。基于R Studio的Shiny库，IDEAR包含了数据导出和报告生成功能。数据导出功能可以保存相关的R脚本，生成可视化数据并保存到R日志文件中。用户可以运行R日志文件来自动生成数据报告。

IDEAR的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告：

AMAR用超参数扫描来训练机器学习模型，比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定ML模型去运行，指定把哪些数据用于训练和测试，指定参数范围去扫描并且指定选择最佳参数的策略。

由AMAR工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR和AMAR工具在CRAN-R中运行，并能够在GitHub网站上找到。这个库是团队数据科学过程（Team Data Science Process，TDSP）的一部分，上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容，请查看微软Technet博客中的文章，或GitHub网站上的AzureTDSP Utilities。

查看英文原文：Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

本文转自d1net（转载）

时间： 2024-10-24 17:37:34

微软发布了用于交互式数据探索和建模的数据科学工具

微软发布了用于交互式数据探索和建模的数据科学工具的相关文章

数加分析型数据库：让你的数据探索更灵活、准确、快速响应和高并发

大数据到底怎么学：数据科学概论与大数据学习误区

微软发布大数据愿景推动数据分析平民化

超图发布SuperMap GIS 8C(2017) 进一步挖掘空间大数据价值

新华三重磅发布大数据产品，打造大数据产业与生态体系

数据管理：50年的数据探索所带来的商业价值

微软发布新举措，帮助其云用户满足GDPR合规

Bokeh 0.12.6 正式版发布，Python 交互式可视化库

微软发布新虚拟现实技术Holograms和智能眼镜