微软发布了用于交互式数据探索和建模的数据科学工具

微软最近发布了两个新的数据科学工具,用于交互式数据探索:建模和报告。这些数据科学工具被称为交互式数据探索、分析和报告(Interactive Data Exploration, Analysis and Reporting,IDEAR)和自动建模和报告(Automated Modeling and Reporting,AMAR)。数据科学团队可以通过这些数据科学工具在他们的项目中完成一些具体任务。

数据科学团队花了大量的时间写代码来回答数据相关的问题,如数据模式、丢失的数据元素、个体变量的分布和变换、在数据中特定的聚类模式以及机器学习(Machine Learning,ML)模型的性能等。这两个工具可以用来在数据科学的生命周期中将这些常见的任务自动化。其目标是在组织内的不同项目之间保持数据科学的一致性和完整性。

交互式数据探索:

IDEAR工具可以用来探索、可视化和分析数据,并提供数据洞察。基于R Studio的Shiny库,IDEAR包含了数据导出和报告生成功能。数据导出功能可以保存相关的R脚本,生成可视化数据并保存到R日志文件中。用户可以运行R日志文件来自动生成数据报告。

IDEAR的其他功能包括自动变量类型检测、变量排名和目标泄漏识别、可视化高维数据等。

自动建模和报告:

AMAR用超参数扫描来训练机器学习模型,比较模型的准确性并评估变量的重要性。在一个参数输入文件中我们指定ML模型去运行,指定把哪些数据用于训练和测试,指定参数范围去扫描并且指定选择最佳参数的策略。

由AMAR工具生成的模型报告包含模型信息、模型评价和比较以及特征排名。

IDEAR和AMAR工具在CRAN-R中运行,并能够在GitHub网站上找到。这个库是团队数据科学过程(Team Data Science Process,TDSP)的一部分,上个月在微软的机器学习和数据科学峰会上被推出。

如果你有兴趣学习更多关于这些数据科学工具的内容,请查看微软Technet博客中的文章,或GitHub网站上的AzureTDSP Utilities。

查看英文原文:Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling

本文转自d1net(转载)

时间: 2024-07-31 04:08:58

微软发布了用于交互式数据探索和建模的数据科学工具的相关文章

数加分析型数据库:让你的数据探索更灵活、准确、快速响应和高并发

在大数据时代,大家越来越注重数据探索的灵活性.准确性.快速响应和高并发.为此,阿里云数加团队在结合多年应用经验的基础上,推出了分析型数据库. 什么是分析型数据库? 分析型数据库(Analytic DB,原名ADS),是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,能让用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索.分析型数据库对海量数据的自由计算和极速响应能力,能让用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说

微软发布大数据愿景 推动数据分析平民化

当其他厂商还更多地将注意力放在"如何利用大数据进行产业转型和企业创新"时,微软已经开始展示如何利用正确的技术和工具,让每位普通大众都能从大数据中直观获取洞察. 10月18日,微软全球高级副总裁.大中华区董事长兼首席执行官贺乐斌在"大数据媒体日"上对记者表示,"与其他公司处理大数据的方式不同,微软主张从发现数据.分析数据和对数据进行可视化的处理这三种方式来思考大数据的使用.微软大数据愿景是,希望基于标准化的产品,使所有人都能够在任何时间任何地点利用数据,并更

超图发布SuperMap GIS 8C(2017) 进一步挖掘空间大数据价值

室内地图不算稀奇,但是如果在路线规划时连直梯和扶梯都能考虑到呢?地理大数据不稀奇,但是如果不仅支持Hadoop,还支持Spark实现地理大数据的分析呢? 10月25日,超图发布了SuperMap GIS 8C(2017)产品,该产品结合IT新兴技术及GIS应用新需求,在多个方面做出了创新,其具备的六大特性更是抓人眼球. 超图董事长钟耳顺表示,SuperMap GIS 8C(2017)版是超图200多名基础平台研发人员经过一年多时间的研发的结果,除提升了原有的云计算和三维GIS能力之外,还提供了地

新华三重磅发布大数据产品,打造大数据产业与生态体系

近日,紫光旗下新华三集团(以下简称新华三)在郑州举办了大数据产品发布会.在这场题为"数据引擎的力量"的发布会上,新华三向与会嘉宾详细汇总了在大数据领域的创新与成果,同时对新华三大数据发展战略作了进一步解读,并正式发布了包含8大引擎在内的新华三大数据产品DataEngine.此次活动是新华三郑州大数据公司成立以来第一次整体亮相,也吹响了新华三加速进军大数据领域的"号角". 新华三集团总裁兼首席执行官于英涛现场致词指出,公司致力于打造大数据产业与生态体系 大数据是新华三

数据管理:50年的数据探索所带来的商业价值

在过去几十年来,数据管理和商业智能已然成为了企业价值创造的核心.那么,就不妨来阅读一下本文所介绍的Computer Weekly是如何跟踪数据管理所为企业组织带来的相关承诺和磨难吧. 在过去的半个世纪中,数据管理已经成为大部分IT商业价值的助产师. 在大约二十年前的1996年11月7日,当Nicholas Enticknap撰文以纪念 Computer Weekly创刊30周年时,他写道:"20世纪90年代以来,IT为企业所提供的竞争优势越来越明显,而这也导致了数据挖掘和数据仓库应用程序的兴起.

微软发布新举措,帮助其云用户满足GDPR合规

还有不到一年的时间,欧盟的<一般数据保护条例>(简称GDPR)即将正式生效.为此,微软发布新的措施,帮助其云用户确保GDPR合规性. 除了跟踪敏感信息和撤销对这些数据的访问的工具外,微软还将提供针对Office 365的数据管理工具:Microsoft Tech Community隐私论坛,用于共享信息以及讨论GDPR和其他隐私话题,同时微软还承诺分享微软隐私专家的最佳做法. GDPR旨在保护欧盟居民的个人信息,这些信息可能在由世界各地的组织收集.存储和处理.对未能正确保护这些信息的企业,面临

Bokeh 0.12.6 正式版发布,Python 交互式可视化库

经过 7 个 开发测试版本和 5 个候选版本后,Bokeh 0.12.6 正式版终于发布了.该版本增加了一些重要功能并修复了几个 bug ,亮点包括: SVG 和 PNG 图像支持 Headless 和 programmatic 导出 用于显示错误估量的 annotations Band 和 Whisker 用于图像和其他"多"字形的 Fine-grained sub-element 悬停点击测试扩展到段和所有标记 修复 DataTables 的排序和选择 布局系统大面积清理和重构 改

微软发布新虚拟现实技术Holograms和智能眼镜

微软 Kinect 技术参与人 Alex Kipman 介绍了微软新一代虚拟现实技术 Holograms. 按照视频演示,Holograms 借助头戴设备的帮助,让用户以实际环境作为载体,实时处理.获取虚拟信息:在墙上获取消息.查找联系人,在地上.家具间玩游戏.在客厅墙上直接进行 Skype 视频通话.观看球赛.事实上,用户甚至不需要任何信息载体,所有数据都直接通过头戴设备呈现在用户眼前. 这张图是真正再现了<少数派报告>中的场景. 据 Alex Kipman 介绍,所有 Windows 10