发布日期:2025-04-21 10:33 点击次数:157
媒介:数据工程师是从传统软件工程师向东说念主工智能标的转型的最好切入点之一。数据工程师的职责时常是为东说念主工智能神志相聚和准备高质地的磨练数据集,包括从互联网上得到公开数据、或自行相聚、清洗、整理数据集。尽管看似浅易,但数据工程师的职责至关蹙迫,因为数据质地径直影响模子的性能,数据准备不当可能导致模子建设失败。本文接下来的几个末节将主要教师在谷歌的TensorFlow平台上如何使用自带数据集、第三方公开数据集以及自界说的数据集来相沿模子磨练。
在本文的前几节中,咱们实质上依然使用了多种数据集来磨练模子,从Keras自带的Fashion MNIST数据集,到需要下载并预处分的图像数据集如“Horses or Humans”和“Dogs vs. Cats”。咱们可能依然清醒到,得到磨练模子的数据有好多不同的活动。
联系词,许多宇宙数据集条件咱们在联想模子架构之前,先掌持各式特定限度的妙技。TensorFlow Datasets (TFDS)的盘算即是简化数据的得到方式,使数据更易于使用,因为扫数得到数据的预处分身手和将数据升沉为TensorFlow友好阵势的操作齐已为咱们准备好。
在第1和第2篇中,咱们依然看到了Keras处分Fashion MNIST数据集的这种理念。追思一下,其时咱们只需这么作念就不错得到数据:
data = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = data.load_data()
TFDS基于这种理念,极地面延长了可用数据集的数目和种种性。可用数据集的列表正在不断增长,涵盖以下类别:
• 音频:包括语音和音乐数据
• 图像:从“Horses or Humans”这么的基础学习数据集到如糖尿病视网膜病变检测等高档盘问数据集
• 盘算检测:包括COCO、Open Images等
• 结构化数据:包括“泰坦尼克号幸存者”、亚马逊驳倒等
• 撮要生成:包括CNN和Daily Mail新闻、科学论文、wikiHow等
• 文本:包括IMDb驳倒、当然谈话问题等
• 翻译:包括各式翻译磨练数据集
• 视频:包括“Moving MNIST”、“星际争霸”等
请提防,TensorFlow Datasets是零丁于TensorFlow的装配包,因此在运行任何示例之前务必先装配它!要是咱们使用的是Google Colab,它依然预装了。
本章将先容TFDS过甚如何大大简化磨练经过。咱们将探索其底层的TFRecord结构,这一结构不错在不同类型的基础数据间提供一致性。咱们还将了解如何使用TFDS的索求-鬈曲-加载(ETL)模式,以高效地处分宽阔数据来磨练模子。
初始使用TFDS
让咱们通过一些浅易的例子来望望如何使用TFDS,以展示它如何为咱们提供数据的圭臬接口,不管数据类型如何。
要是你需要装配它,不错通过以下pip敕令完成:
pip install tensorflow-datasets
装配完成后,你不错通过tfds.load走访一个数据集,只需传入所需数据集的称呼。举例,要是你念念使用Fashion MNIST数据集,不错使用以下代码:
import tensorflow as tf
import tensorflow_datasets as tfds
mnist_data = tfds.load("fashion_mnist")
for item in mnist_data:
print(item)
务必查验从tfds.load敕令复返的数据类型——打印item的输出将是数据聚拢自己可用的不同分割。在这个例子中,它是一个包含两个字符串“test”和“train”的字典。这些是可用的分割。
要是你念念将这些分割加载到包含实质数据的数据聚拢,只需在tfds.load敕令中指定所需的分割,举例:
mnist_train = tfds.load(name="fashion_mnist", split="train")
assert isinstance(mnist_train, tf.data.Dataset)
print(type(mnist_train))
在这种情况下,你会看到输出是一个DatasetAdapter,你不错遍历它来查验数据。这个适配器的一个刚正是不错径直调用take(1)来得到第一札纪录。让咱们来查验一下数据的方法:
for item in mnist_train.take(1):
print(type(item))
print(item.keys())
第一个print的输出会显现每札纪录中的item类型是一个字典。当咱们打印其键时,不错看到在此图像数据聚拢,类型是“image”和“label”。是以,要是咱们念念查验数据聚拢的某个值,不错这么作念:
for item in mnist_train.take(1):
print(type(item))
print(item.keys())
print(item['image'])
print(item['label'])
你会看到“image”的输出是一个28 × 28的数组(在一个tf.Tensor中),取值范畴是0–255,示意像素强度。“label”会输出为tf.Tensor(2, shape=(), dchk=1&type=int64),辅导该图像在数据聚拢属于类别2。
在加载数据集时,还不错使用with_info参数来得到数据集的联系信息,举例:
mnist_test, info = tfds.load(name="fashion_mnist", with_info=True)
print(info)
打印info会提供数据集内容的详备信息。举例,关于Fashion MNIST,你会看到如下输出:
tfds.core.DatasetInfo(
name='fashion_mnist',
version=3.0.0,
description='Fashion-MNIST是一个包含Zalando商品图像的数据集,包含6万个磨练样本和1万个测试样本。每个样本是一个28x28的灰度图像,与10个类别中的某个标签联系联。',
homepage='https://github.com/zalandoresearch/fashion-mnist',
features=FeaturesDict({
'image': Image(shape=(28, 28, 1), dchk=1&type=tf.uint8),
'label': ClassLabel(shape=(), dchk=1&type=tf.int64, num_classes=10),
}),
total_num_examples=70000,
splits={
'test': 10000,
'train': 60000,
},
supervised_keys=('image', 'label'),
citation="""@article{DBLP:journals/corr/abs-1708-07747,
author = {Han Xiao and
Kashif Rasul and
Roland Vollgraf},
title = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms},
journal = {CoRR},
volume = {abs/1708.07747},
year = {2017},
url = {http://arxiv.org/abs/1708.07747},
archivePrefix = {arXiv},
eprint = {1708.07747},
timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},
bibsource = {dblp computer science bibliography, https://dblp.org}
""",
redistribution_info=,
)
在这里,你不错看到数据集的详备信息,比如前边演示过的分割和数据聚拢的特征,还有非凡的信息如援用、相貌和数据集版块。
本节主要为TFDS的使用作念了一个初学先容,接下来的两章将详备讲明如安在实质场景中使用它。TFDS是TensorFlow Datasets的简称。TensorFlow Datasets是一个有利为东说念主工智能和机器学习模子建设提供相沿的库,内含多种预处分好的数据集九游体育app官网,便捷用户径直在TensorFlow中使用,免去了编写复杂的数据导入和预处分代码的身手。
Powered by 九游体育官网 九游娱乐「NineGameSports」官方网站 @2013-2022 RSS地图 HTML地图