在数据库初始化过程中,管理员需要面对的一个现实问题就是如何把大容量的数据导入到数据库系统 中。在SQL Server数据库中提供了一些大容量数据导入导出的工具供数据库管理员实用。如管理员可以通 过bcp实用工具,实现大容量导出数据和大容量导入数据并生成格式化文件。如可以利用bulk insert语句 将大容量数据直接从数据文件导入数据库表或者未分区的视图中去等等。
虽然在SQL Server数据库中提供了这些实用工具。不过管理员在实际工作中,仍然需要谨慎对待这项 工作。具体的来说,在大容量数据导入导出的过程中,需要注意如下几方面的内容。
一、尽量采用系统提供的工具来倒入导出大容量的数据
以上笔者提到的几款实用工具,他们有一个共同的特点,即在导入的过程中会对大容量的数据进行一 定的优化。如会规范一些数据的格式、节省导入导出的时间等等。但是利用这些工具的话,跟其他普通的 数据导入导出工具有一个差异,就是大容量导入操作不支持逗号分隔符文件中导入数据,也就是常说的文 本文件。虽然此时管理员也可以通过其他的工具来导入文件文件格式的大容量数据,但是通常情况下笔者 不建议这么做。因为其他的工具不支持导入过程中的优化功能。为此笔者建议先用其他工具,如ACCESS等 中间工具先把文本文件中的数据转化为普通的表格形式,然后再利用上面这些工具导入到系统中。这虽然 会增加一定的工作量,但是却可以保证大容量数据的质量。为此,笔者在实际工作中,如果用户遇到这种 问题笔者是强烈建议他们要采用系统提供的工具来导入导出大容量数据。
另外,利用格式化文件来提高大容量数据的规范化,也是一个不错的选择。上面提到的几款大容量导 入导出工具都支持使用专门的格式化文件来存储原始数据文件中每个字段的格式信息。格式化文件还可以 包含相应的数据库表的有关信息。格式化文件可以用于提供从数据库实例大容量导出数据和向其中大容量 导入数据时所需的所有格式信息。通俗的讲,格式化文件提供了一种解释导入期间数据文件中数据的格式 以及设置导出期间数据文件中数据格式的灵活方式。这种灵活性使得解释数据时无需编写专用代码,也无 需为满足数据库或外部应用程序的特殊需要而重新设置数据的格式。如果灵活利用格式化文件,那么用户 可以直接按需要的格式导出或者导入大容量数据,而不用事后再进行额外的格式调整。
二、选择合适的数据库日志操作模式
正如大家所知道的,用户在数据库中做的任何变化,都会记录在相关的日志中。导入导出大容量数据 也不例外。可是由于大容量数据比较大,会占用比较大的事务日志功能。为此笔者建议,在用户导入大容 量数据之前,最好选择合适的数据库日志操作模式。笔者的做法是,如果用户需要导入大容量数据,那么 最好选择大容量日志恢复模式。等到导入工作完成之后,再恢复到原先的模式。
这主要是因为在大容量日志模式下,对于大容量数据导入工作中说,支持力度相对来说比较好。与其 他日志恢复模式相比(如完全恢复模式),大容量日志恢复模式只对大容量操作进行最小记录。为此大容量 日志操作恢复模式保护大容量操作不受硬件故障的危害,提供比较好的性能并且占用日志的空间也是最小 的。所以,使用大容量日志恢复有助于防止事务日志出现空间不足的情况,因为大容量日志恢复不会插入 日志行。这个大容量日志操作模式,非常适用于使用完整恢复模式的数据库。对无索引表执行大容量操作 时,大容量日志恢复模式非常有用。
不过大容量日志操作模式也具有一定的风险。如大容量日志恢复模式会增加这些大容量复制操作丢失 数据的风险。因为大容量日志操作模式将会阻止数据库系统捕获对每个事务逐一所做的更改。如果日志备 份包含大容量日志操作,则无法还原到该日志备份中的时点,而只能还原整个日志备份。另外在大容量日 志恢复模式下,如果日志备份覆盖了任何大容量操作,则日志备份将包含由大容量操作所更改的日志记录 和数据页。这对于捕获大容量日志操作的结果至关重要。合并的数据区可使日志备份变得非常庞大。再者 ,备份日志需要访问包含大容量日志事务的数据文件。如果无法访问任何受影响的数据库文件,则事务日 志将无法备份,并且在此日志中提交的所有操作都会丢失。所以大容量日志备份模式并不是安全的日志模 式。