TFRecord文件是TensorFlow原生支持的数据格式,适合用来作为训练所需的数据的存储容器。配合Dataset API可以极大的提升数据I/O速度,简化代码。

TensorFlow官方提供了一份TFRecord文件的使用教程。TFRecord看起来复杂,实际上使用起来可以归纳为几个要点:

  1. 将需要存储的数据按照格式转换为 tf.train.Feature。
  2. 将多个Feature组装为一个Python字典,再转换为tf.train.Example。
  3. 将 tf.train.Example 序列化(SerializeToString),使用 TFRecordWriter 写入文件。

例如下方的示例代码,演示了如何将一张图片与label写成TFRecord文件。


  1. https://www.tensorflow.org/tutorials/load_data/tf_records
  2. Cover photo: Lee Campbell on Unsplash