《大数据、小数据、无数据:网络世界的数据学术》一 2.2 定义与术语

2.2 定义与术语

学术文献、政策声明和大众媒体中到处都充斥着对数据的讨论,它们都尝试定义业内术语。罗森博格(Rosenberg 2013)指出,即使是在科学史和认识论历史中,人们也只是在无意间提及数据(Blair 2010;Daston 1988;Poovey 1998;Porter 1995)。其他在科学领域中讨论事实(fact)、表示(representation)、记录册(inscription)和出版(publication)等含义的基础性作品也很少关注数据本身(Bowker 2005;Latour and Woolgar 1986;Latour 1987,1988,1993)。自然科学和社会科学把事实、数字、文字、符号和其他实体等看作数据。虽然人文学科的学者们也经常用到这些数据,但他们很少提及数据一词。随着人文学科对数字化信息采集的依赖不断增强,学者们从其他领域引入越来越多的工具,并针对数字化对象开发出更多领域内的分析方法,他们对数据的认识也越来越清晰(Borgman 2009)。
数据是信息的表现形式,信息的概念范围比数据更广,也更难定义。认识论和本体论围绕“信息”展开大量讨论,同时也有很多致力于阐述信息和知识的书问世(Blair 2010;Brown and Duguid 2000;Burke 2000,2012;Day 2001;Ingwersen and Jarvelin 2005;Liu 2004;Meadows 2001;Svenonius 2000)。巴克兰德(Buckland 1991)把信息看作加工过程、知识或客观事物。唐纳德·肯斯(Donald Case 2002,2012)收集了几十个信息的定义,并把这些定义按照处理不确定性、物质性、结构与加工过程、意图性以及真理性的方式进行分类。乔森纳·弗纳(Jonathan Furner 2004a)认为确定信息定义时,应该考虑一致性、简洁性以及通用性三个方面的标准。他后来把广泛应用的信息概念分为三类,即符号学、社会认知学和认识论(Furner 2010)。
仅数据本身的定义都需要用一本书来阐明。如果只是为了实现学术交流背景下的数据分析,那么适当降低方法的通用性也可以满足要求。这种概述性视角仅适用于为了探索在学术社区中如何创建、使用和理解数据的异同点而制定的相关定义、理论和概念。

2.2.1 按例定义

数据往往通过举例方式进行定义,例如事实、数字、文字和符号等(National Research Council 1999)。列出例子清单不是真正的定义,因为这种方式无法建立清晰的概念边界(即概念中包含什么、不包含什么)。彼得·福克斯和瑞·海瑞斯(Peter Fox,Ray Harris 2013,10)的定义方式就很典型。他们提出,“数据至少包括数字化观察、科学监测、传感器数据、元数据、模型输出、情景数据、定性数据或观察的行为数据、可视化数据以及出于行政或商业目的而采集的统计数据。数据往往被看作研究过程的输入。”
保罗·尤利尔和丹尼尔·科恩(Paul Uhlir,Daniel Cohen 2011)在数据政策背景下,使用“按例定义”方式给出的数据定义中包括更多属性:
本文中使用的“数据”一词包含范围很广。除了文献的数字化表示(包括文本、声音、静态影像、动态影像、模型、游戏以及仿真等)之外,也包括在计算机硬件和软件辅助下可以利用的数据和数据库形式,如以光谱数据、基因序列数据以及电子显微镜数据等为代表的多类实验室数据,同时包括遥感数据、地理空间数据以及社会经济学数据等观测型数据,以及由人或机器产生或编译的其他数据形式。
尤利尔和科恩的定义认识到数据可以由人或者机器创造,同时也明确了数据、计算机、模型和软件之间的关系。但是,即使是最好的例子清单也只能作为在何人、何故、何时情境下进行数据定义的基础。
乔治·路易斯·博尔赫斯(Jorge Luis Borges)针对“按例定义”的缺陷提出最具韵味的评论。1942年,他在虚构的中国百科全书《天朝仁学广览》中以“按例定义”的方式对所有动物进行了分类:(a)归皇帝所有的动物,(b)涂上香料的动物,(c)驯良的动物,(d)乳猪,(e)塞壬海妖,(f)传说故事中的动物,(g)流浪狗,(h)包括在本分类法中的动物,(i)发疯的动物,(j)不可计数的动物,(k)用极细驼毛画出来的动物,(l)其他类型的动物,(m)刚刚打破水壶的动物,(n)远远望去像苍蝇的动物。博尔赫斯这种把分类对象巧妙串起来的分类机制影响了傅科(Foucault 1994)、拉考夫(Lakoff 1987)和其他许多哲学家和学者的思想。

2.2.2 操作定义

最具体的数据定义往往存在于操作环境中。负责管理大量数据集的机构应当明确其处理对象的定义以及如何处理这些对象,但是这些定义很少能在数据和非数据之间划出清晰界限。
《开放档案信息系统参考模型》(Reference Model for an Open Archival Information System,OAIS)提出了著名的数据归档原则(Consultative Committee for Space Data Systems 2012)。这份关于操作规程建议的共识文件起源于空间科学社区,后来成为自然科学和社会科学数据归档工作的指导性原则。OAIS参考模型把数据看作诸如数据集、数据单元、数据格式、数据库、数据对象以及数据实体等的变体,并使用例子对其进行概述性定义。
数据:按照适合交流、解释和加工的形式化方式进行的可重新解释的信息表示。如比特序列、数据表、页面中的文字、讲话录音和月球岩石标本等都是数据(Consultative Committee for Space Data Systems 2012,1-10)。
OAIS模型认为数据和信息的区别如下:
信息:任意一种可以交换的知识。数据则是信息在交换过程中的表现形式。比如,一串二进制数字(数据)通过对应的描述信息被解释为一串以摄氏度为单位的代表温度观测结果的数字(信息)(Consultative Committee for Space Data Systems 2012,1-12)。
DDI(Data Documentation Initiative)是管理不同生命周期数据的一套元数据标准(Data Documentation Initiative 2012)。虽然广泛应用于社会科学和需要数据描述的其他领域,但DDI并没有对数据本身进行定义。其元数据采用XML格式,DDI用户认为可以看作数据的所有数字化对象都可以采用这种格式进行表示。
美国校际政治及社会研究联盟(Inter-University Consortium for Political and Social Research,ICPSR)是开发DDI的合作单位之一。作为国际领先的数据中心,ICPSR从20世纪60年代起就已经开始进行社会科学研究类数据的归档工作。其允许数据贡献者自行定义他们眼中的数据。ICPSR为潜在储户提供的说明书中包括如下内容:
除定量数据外,ICPSR也接收定性研究类数据(包括手抄本、视听媒体等)以进行保存和传播。ICPSR致力于以数字化形式保存数据,并且鼓励研究者以网站、地理空间数据、生物医学数据以及数字化视频等新兴格式保存研究类数据(Inter-University Consortium for Political and Social Research 2012,4)。
综上,即使是这种采集和监护大量数据的研究机构都没能对其接收什么和不接收什么进行勉强精确的定义。数据仍然是个模糊的概念,但这使得归档工作能够应用在刚出现的新型数据上。

2.2.3 分类定义

在操作环境和一般研究环境中,数据往往按照使用方式进行分类。比如,数据归档可以按照加工程度实现数据分类。科学政策分析师可以把数据按照起源、价值以及其他因素进行分类。
加工程度。美国国家航空和宇宙航行局(National Aeronautics and Space Administration,NASA)在对地观测系统数据信息系统(EOS DIS)中定义的数据处理层级是最离散的数据分类方式之一。如图2-1所示,具有相同起源的数据可以按照加工程度进行分类(NASA抯 Earth Observing System Data and Information System 2013)。
为了便于操作,我们有必要对数据进行适当分类。EOS DIS中最原始的数据产品处于第0级,即“完全使用仪器进行解析的原始数据”。第0级数据产品并不是由仪器直接产生的信号,其清理工作已经完全排除通信构件的影响。下一层数据产品是第1A级,也是具有全解析度的数据,并且增加了时间、仪器参数以及其他信息的元数据。为满足仪器容量要求,第1B级将上一级数据产品进一步划分到传感器单元。第2、3和4级数据经过进一步加工,引入了更多元数据。这些元数据一方面对具有标准时空网格的数据产品加以约束,另一方面把数据融合到模型中。如图2-1所示,所有仪器都至少有第1级数据产品,大部分仪器具有第2级或第3级数据产品,而某些仪器具有加工到第4级的数据产品。
与NASA类似,仪器产生的数据有个共同点,即其处理程度会受诸如仪器容量和数据可能用途等多种因素影响。大部分科学家都想要第4级数据以便和其他现象的模型进行对比。就仪器和任务而言,该级数据产品具有最强可比性。有的科学家想要第0级甚至可能想要那些没有去除通信构件信息的更原始的数据,因为他们想按照自己的方法进行数据清理。如果科学家计划进行理论测试,那么他们希望能对异常点、标度、输入缺失值、解释天气和技术异常的方式等进行自定义。如果是探索完全未知的模式,如寻找外星智慧生命(Search for ExTraterrestrial Intelligence,SETI),那么他们则希望能够获得尽可能原始和全面的信号集(Anderson et al. 2002;Sullivan et al. 1997)。

为方便未来使用,往往需要进行数据监护和维护,而数据处理层级对其有重要影响。每一层级的数据都可能需要进行管理,特别是不可复制的观测型数据,如NASA任务计划中的数据。如果数据仅以最低处理层级进行存储,那么将其转换为更高层级数据使用的处理算法和文档也需要进行存储。在物理、化学和生物的许多领域,大部分原始仪器数据都因为数据量过大而无法保存。所以,其数据监护对象重点是能够代表项目研究成果的大部分已加工数据。用于清理、校正和归约观察型数据的软件流水线模型随着仪器、计算技术和研究问题的发展、错误的发现和分析方法的改进而不断更新。仪器产生的数据流可能经过多次加工,从而进行多次数据发布。因此,版本控制是管理大规模观察型数据档案的重要部分。
数据起源与保存价值。虽然NASA的数据处理等级是面向具体系统的开发产物,但这种分类方法广泛应用于其他操作环境。在科学政策背景下,通用分类方法的需求不断增长。由美国国家科学委员会(National Science Board,NSB)发布的分类标准旨在同时适用于自然科学、社会科学以及技术涉及的数据。虽然人文学科、艺术、医药和健康不在NSB的管辖范围之内,但是NSB发布的数据分类标准也尝试满足这些领域的要求。数据起源可能会影响具体操作的相关决策,如何种数据值得保存以及这些数据的监护工作应当持续多长时间(National Science Board 2005)。
观察型数据是NSB三大类数据中的第一种,这类数据通常是观察者在使用仪器的情况下意识到、注意到或者记录到的事实或出现的现象。自然科学的观察对象包括天气、植物和动物等,而观察方式则包括卫星、传感器网络或者笔记本中的笔等。社会科学领域的观察对象包括经济指标和访谈等,观察方式通常有企业发布的自评报告、在线访谈和民族志等。其中任何一种观察方式都可能和具体地点、时间或者同时和多个地点、多个时间有关(比如横向研究与纵向研究等)。由于重复性最低,所以观察型数据被认为是最需要保存的重要数据。
计算型数据是执行计算模型、仿真或工作流程的结果。虽然计算型数据在物理学和生命科学中最为常见,但在社会科学和人文学科中也可以发现它们的身影。物理学家对宇宙进行建模,经济学家对人和市场的互动进行建模,古典学者则对古城和遗址进行建模。为了在日后重用计算模型,我们需要撰写大量关于硬件、软件、输入数据以及中间过程的文档。我们有时保存模型的输入,有时保存模型的输出,有时仅保存模型再次运行时必不可少的算法。
实验型数据是第三类。学术研究中需要通过条件控制等方法进行实验以检验或构建假设以及发现或检测新规则,而实验型数据正是这些实验的结果。实验型数据的例子很多,如化学研究中湿法实验的结果,物理实验中线性碰撞机的输出结果,通过实验室方法或者田野调查方法基于控制变量的心理学实验结果等。如果实验本身很容易重复,那么相对于保存实验数据而言,直接重复实验获得数据可能更方便。如果实验要求的条件很难重现,那么对应的实验数据也需要被保存下来。
“长期数据”报告强调这三类数据隐含的政策意义,即每种数据对监护都有不同要求。同时,报告也对三种不同起源的数据进行了层级划分。数据可以以“原始形式”收集,但也可以通过一系列过程进行精炼。以多种形式保存数据在很多情况下都可能显得很必要(National Science Board 2005,19-20)。报告指出三种数据类别之间并不存在严格界限。比如,观察型数据可以用在实验和计算模型中,而实验和模型结果也可以用于改进观察型数据的采集方法。爱德华兹(Edwards 2010)对观察型数据和模型之间的相互作用进行了研究,记录了气候领域百年来的研究过程,数据在百年历程中逐渐具有了移动性。
很多记录类型都和观察型数据、实验型数据和计算型数据有关,如历史文献、田野资料及手写笔记等。虽然我们在法律、档案管理、数据处理以及日常语言等领域中广泛使用记录(record)一词,但它却是一个很少被定义的基础术语。由《牛津英语词典》可知,名词形式的记录指对事实的认证或论证,也隐含见证、论据或论证之意。在词组“on record”或“of record”中,record主要指知识或信息被保存的事实或条件。记录的这一含义可以追溯到14世纪,由此可见,它是一个古老术语。
因为记录可以包含那些不能被明显划入前三种分类(即观察型数据、实验型数据和计算型数据)及其输出结果中的数据,所以将其作为数据起源的第四种分类具有重要意义。任何现象或人类活动的记录都可以作为研究类数据,具体包括:记录政府、企业、公众和私人活动的文件,书籍和其他文本,档案材料,以音频、视频、玻璃板、莎草纸、楔形文字和竹子等形式记录的文件等。权威记录与观察型数据类似,同样具有不可复制性,因而具有更高的保存价值。
数据集。对数字化数据集进行分类的困难程度也反映了数据起源及其对相应学术社区的价值。NSB报告中构建的数据集三种功能类别标准应用十分广泛(Cragin and Shankar 2006;National Science Board 2005)。这三种类别按照形式化程度从低到高进行排列,分别是研究型数据集、资源或社区型数据集以及参考型数据集。同种数据可能同时属于多种数据集,但其在不同类别中代表不同含义。我们还可以对数据集进行更为细致的分类,如物理与数字化数据集、数字与数字化记录数据集、抽样与全集数据集、静态图像与可搜索表示数据集以及可搜索字符串与强化内容数据集等。第7章将在人文学科背景下对这些具有细微区别的分类进行讨论。
NSB三种数据集中的第一种是研究型数据集,即一个或多个研究项目的结果。这些数据的加工程度和监护程度都很低,甚至可能一点都不符合学术社区的数据格式或结构标准(如果有的话)。这种数据集通常由一个研究团队开发,且数据集成果仅由该研究团队享有。项目结束后,可能不会保存这些数据集成果。这种数据集的例子在学术活动中大量存在,如“雪面流量问题”、某种酵母菌的基因组以及其他面向小社区的特定而重要的数据集等(National Science Board 2005,appendix D)。
具有持续需求的研究型数据集便是资源或社区型数据集。这种数据集可能会采用已有标准或构建新标准以形成社区内部标准。资源型数据型集可能会受到一些直接资助,但不承诺在社区或资助机构的优先权外依旧维护它们。这种数据集的例子小到用于存储特定疟疾寄生虫基因的恶性疟原虫数据库(PlasmoDB),大到由美国国家科学基金会和其他22个国际合作伙伴共同支持的“大洋钻探计划”(Ocean Drilling Program)。
第三种数据集类型是参考型数据集,指服务于大型科研社区、遵循健壮性标准且需要永久维护的数据集。这种数据集成本预算大,学术社区具有多样性和分布广的特点,并且有已构建的管理结构,主要在国际范围内对必要社区资源进行大量采集,如蛋白质数据库、SIMBAD天文数据库以及ICPSR数据集中的参考数据集(Protein Data Bank 2011;Genova 2013;National Science Board 2005;Inter-University Consortium for Political and Social Research 2013)。
评估各社区在数据贡献和共享次数方面的参与程度时,这三种数据集的用处很大。社区数据系统是由南森·保斯(Nathan Bos)及其同事定义的七种合作系统之一(Bos et al. 2007;Olson,Zimmerman,and Bos 2008)。

2.2.4 概念区分

无论以上各类别之间有多明显的差异,从某种程度上来讲,这些分类都有点武断。每一种类别及其名字都是标准和命名方式的决策结果。即便如温度、高度、地理空间位置等这些最具体的度量都是人为定义的。同理,英尺和英寸、米和克以及摄氏温度和华氏温度等度量体系反映了几个世纪以来人们不断协商的结果。度量衡的基本常数由国际标准组织不断修订(Busch 2013;Lampland and Star 2009;Lide and Wood 2012;Meadows 2001)。
同时,度量衡也有很多不同精确程度的应用。度量微粒子重量采用的度量衡比杂货店采用的度量衡更精确。政府测量饮用水的水质标准与冲浪者测量海水是否适合游泳的水质标准差距很大。身高在医生办公室和体育比赛中的测量也具有不同精度。除此之外,还有更多因素会影响研究和学术活动中的数据分类问题。
自然科学和社会科学。虽然NASA出于操作目的在原始数据和已处理数据之间划定了清晰界限,但正如其他人所指出的那样(Bowker 2005,2013;Gitelman 2013),“原始”是一种相对概念。调查研究的起点决定了何为“原始”。对于那些把多个NASA任务中第4级数据产品结合起来的科学家而言,这些第4级数据就可能是他们开始研究的原始数据。相对而言,另一个极端则是回溯数据起源直到仪器首次检测到信号的状态。设计和研究仪器,是为了能在一定条件下检测到特定现象。那些设计和研究过程中的决策也反过来决定了仪器能够检测到的现象。确定数据最原始形式的问题可能最终归结于认识论中“寻找何种知识”的选择问题。
对那些以调查和访谈形式采集观察型数据的社会科学家而言,原始数据可能是被访者或采访者填写的表单。而这些表单中往往含有不完整或难以理解的答案。如果被访者似乎误解量度顺序或者输入了不可能的出生年份,那么这时的数据也包含错误。把应当具有明显相似回答的答案进行对比或把变量映射到数值范围可以检测这种错误。某些情况下,有的被访者出于混淆视听或恶作剧的目的,可能会随机回答问题。
清理这种数据既是一种科学,也是一门艺术。它需要大量方法学和统计学专业知识(Babbie 2013;Shadish,Cook,and Campbell 2002)。已清理的数据是进行分析从而得出研究结论的基础。关于处理缺失数据、估算缺失值、去除异常值、变量转换以及进行其他常见数据清理和分析步骤的决策都可以用最简单的方式进行记录。这些决策对实验结果、实验解释、实验数据重用性以及实验本身的可重现性都有重大影响(Blocker and Meng 2013;Meng 2011)。
人文学科。数据在人文学科中的含义特别模糊(Borgman 2009;Unsworth et al. 2006)。人文学科中第一手资料和第二手资料的区别类似于自然科学和社会科学中原始数据和已加工数据之间的差异。一般而言,第一手资料主要来源于原始文档或客观对象,如历史手稿或雕塑;而第二手资料则是通过分析或加工第一手资料中的实体而得到的。第三手资料是个很少用到的术语,指类似于目录和索引的汇编作品。这三个术语在人文学科和图书档案学的实际使用中有很大不同(University of Maryland University Libraries 2013)。正如第7章所探讨的那样,第一手资料可以代表丢失的原件,同时也可以对其进行编辑形成汇编作品以提高原件可读性。
人文学科中的许多历史研究都致力于确定几百年前的书、论述以及其他重要文档之间的关系。因为随着时间的推移,经过不断传抄、解释、翻译,甚至在不同文化背景之间传播,它们彼此之间的关系已经不再明确。第一手资料可能在很早之前就已经丢失、损坏或变质。第二手资料在第一手资料的基础上进行发散,形成一系列未知的改编版。同时,这些第二手资料也可能被进一步分割,然后出于各种目的按照多种方式进行组合。第一手资料的定义取决于具体应用场景和研究出发点。一个学者的第二手资料可能会是另一个学者的第一手资料。
人文学科中的数据具有不确定性,在知识表示中如何处理这种不确定性是人文学科数据的重要特征(Kouw,Van den Heuvel,and Scharnhorst 2013)。不确定性以认识论、统计学、方法论以及社会文化等形式出现(Petersen 2012)。比如,历史记录中的模糊性和异构性都会导致不确定性。人文学科学者在使用那些为其他调查形式开发的技术(如统计工具或地理信息系统)时,就会陷入是使方法适应工具还是使工具适用方法的困境。新工具带来新的知识表示和解释。大到领域、小到学者,整个学术界都在估计不确定性的最大容忍度以及探究活动中“真理”的构成要素。选择合适的研究方法和数据表示都可以在一定程度上降低不确定性。

时间: 2024-08-03 21:35:30

《大数据、小数据、无数据:网络世界的数据学术》一 2.2 定义与术语的相关文章

eb iew传送数据-安卓开发WebView 向网络端发送数据

问题描述 安卓开发WebView 向网络端发送数据 现在需要用到WebView组件,问题的详细情况是这样的:安卓端需要向网络端发送一条数据(比如用户名),网络端需要用这个用户名来加载特定的内容(不同用户名所需要加载的网页内容不同),并将内容显示在WebView上面,请问WebView如何向网络端发送这条数据? 解决方案 1.页面加载当做参数,你就当WebView是个浏览器2.后台httpurlconnection等方式与服务器端交互. 解决方案二: 你请求一个url,url中带上参数,后台根据参

中国网络广告市场数据与互动营销发展的意义

中国网络http://www.aliyun.com/zixun/aggregation/17578.html">广告市场数据与互动营销发展趋向调查由DCCI互联网数据中心发起,中国互联网协会指导,在全国范围内面向不同类型互联网媒介企业.网络广告主.广告代理公司.网站监测及广告监测机构,联合各方专家.联合各个机构.充分采集并聚合各个方面的数据,形成<中国网络广告市场数据与互动营销发展趋向研究报告>. 中国网络广告调查为中国互联网调查的重点调查方向之一,后者是中国国内规模最大的互联

android-请教一个Android的从网络上获取数据的问题

问题描述 请教一个Android的从网络上获取数据的问题 Android 从网络上获取数据 跟安卓系统有关系吗,,,,用Android5.0以上的系统的手机请求到的数据跟5.0以下系统的手机请求到的数据不一样.(get请求) Android5,0以上的系统请求到的数据:{ "wegInstLt": [ { "billTypeCode": "0", "channelId": 530, "channelKind"

Mellanox:一切以数据为中心 重构网络世界

前不久,作为一家世界领先的高性能计算.数据中心端到端互连方案提供商,Mellanox (中文名称:迈络思)在京举办了一场"云启AI" Mellanox高速以太网沟通会.在会上,Mellanox正式推出拥有全球最佳可扩展能力的200G和400G开放式以太网交换机解决方案--Spectrum-2. 数据赋能,智网为先 据了解Spectrum-2创造了数据中心可扩展性的新记录,比市场上主流产品高出10倍以上,能效可达1. 3倍,从而降低数据中心的运营成本.此外,Spectrum-2的可编程能

大数据背景下知识产权侵权行为网络异化与解决思路 —— 以著作权间接侵权为视角

一.大数据对知识产权的影响 (一)大数据对于知识产权的促进作用 互联网的发展壮大为智力成果的传播提供了一个全新的方式,即网络传播方式.相对于传统传播方式,网络传播方式几乎为零成本,因此,网络技术的出现,不但改变了人类的生活方式和社会经济发展模式,而且对当代各国的法律制度提出了挑战.正是在这个意义上,人们赋予知识产权制度以鲜明的时代技术特征,将其称为"网络知识产权".[1]所以,知识产权客体的无形性与网络空间的虚拟性具有一种天然的契合性,这种天然的契合性对于知识产权的发展有极大的促进作用

调查显示大数据与云计算令企业网络不堪重负

中介交易 SEO诊断 淘宝客 云主机 技术大厅 腾讯科技讯(小贝)北京时间10月16日消息,据国外媒体报道,如今,企业网络承受的压力越来越大.企业想要增加新的服务,支持新的设备.这就需要运行更多的数据,连接更多的员工.另外,企业网络还要运行良好,无论在何种情况下.现在,全世界约有50亿部连网设备,数十亿用户都希望自己所加入的网络能够运行良好. 为了弄清楚企业网络是否已经达到某种节点,美国网络通讯设备公司Juniper与市场调研公司Forrester共同对150位企业高级IT主管进行了调查,以此来

“大”为“小”用--腾讯的大数据应用之道

时至今日,人们依然被大数据的概念牵着鼻子走,人人都在谈大数据,但并不是人人都能清晰地梳理企业在什么时候,哪些地方用到大数据. 在这一点上,腾讯对大数据的认识是正确的,"在建立大数据系统的时候,我们从来没有想过在做一个大数据项目,我们都是在解决实际的问题."腾讯云总裁陈磊如是说. 从解决实际问题出发,不论是需要作出重大决策还是改变小小的设计,腾讯在利用大数据的时候有其自身的优势,那就是腾讯拥有海量的数据.业界有一种声音是 忽略大数据的"大",关注数据本身的价值,而在腾

大数据-关于c#winform无数据库处理6万数据量的困惑

问题描述 关于c#winform无数据库处理6万数据量的困惑 有一个需求,6万条的txt文本中有八列,第一列为id其余为介绍列,id列需要检测是否重复,系统提供用户导出重复内容,提供删除重复项功能.要求减少其他第三方软件的安装,包括数据库.经过几次尝试,数据操作时间很长经常卡死.增加access数据库依然如此.请高手指点. 解决方案 你可以在循环中插入Application.DoEvents(); 这样就不会卡死了. 也可以放在工作线程中. 解决方案二: 6万记录不是很多,现在机器内存可以处理,

struct-求帮忙看看错在哪里,把输进去的数据从大到小排序

问题描述 求帮忙看看错在哪里,把输进去的数据从大到小排序 #include #include typedef struct student { char name[20]; int score; }STU; void sort(STU *aStu, int n) { int i,j; int temp; for(j=0;j { for(i=0;i { if(aStu[i].score>aStu[i+1].score) { temp=aStu[i].score; aStu[i].score=aSt