数据存储
读取大量的数据集合
的数据存储
函数创建一个数据存储,它是一个存储过大而无法装入内存的数据集合的存储库。数据存储允许您将存储在磁盘、远程位置或数据库上的多个文件中的数据作为单个实体读取和处理。如果数据太大,无法装入内存,则可以管理增量导入数据,创建高
数组来处理数据,或使用数据存储作为输入mapreduce
以便进一步处理。有关更多信息,请参见从数据存储开始.
功能
类
主题
- 从数据存储开始
数据存储是用于读取单个文件或文件或数据集合的对象。
- 选择“文件格式”或“应用程序”的数据存储
根据数据或应用程序的文件格式选择正确的数据存储。
- 阅读和分析大型表格文本文件
此示例演示如何为包含表格数据的大型文本文件创建数据存储,然后每次读取一个块或每次读取一个文件并处理数据。
- 读取和分析图像文件
这个例子展示了如何为一组图像创建一个数据存储,读取图像文件,并找到具有最大平均色相、饱和度和亮度(HSV)的图像。
- 读取和分析具有键值数据的mat文件
的输出的mat文件中,此示例显示如何为键值对数据创建数据存储
mapreduce
. - 读取和分析Hadoop序列文件
此示例展示如何为包含键值数据的Sequence文件创建数据存储。
- 使用远程数据
在Amazon S3™、Azure中使用远程数据®Blob Storage,或HDFS™。
- 为不同机器或集群上的处理设置数据存储
在您的机器上设置一个可以在另一台机器或集群上加载和处理的数据存储。
- 开发自定义数据存储
为您的自定义或专有数据创建一个完全自定义的数据存储。
- 为DICOM数据开发自定义数据存储
这个例子展示了如何开发支持写入操作的自定义数据存储。
- 自定义数据存储的测试指南
在实现自定义数据存储之后,按照这个测试过程来验证自定义数据存储。