很多情况下加载图片并非只要图片,还会有对应的文本,比如在图片分类的时候,每张图片都对应一个类别。这种情况我们需要在图片所在文件夹中加入一个metadata.jsonl的文件,来指定每个图片对应的类别,格式如下,注意file_name字段必须要有,其他字段可自行命名 {
本地或远程的数据集,存储类型为csv,json,txt或parquet文件都可以加载: 1.2.1 CSV #多个 CSV 文件: dataset = load_dataset('csv', data_files=['my_file_1.csv', 'my_file_2.csv', 'my_file_3.csv']) #将训练和测试拆分映射到特定的 CSV 文件: dataset = load_dataset('csv', data_files={'...
1.加载数据集 huggingface支持以下4种数据格式的数据集,只需要在load的时候设定格式就好了,这已经非常全面了,基本上覆盖了大部分数据格式; 1.1 加载本地数据集 本地数据集会先load,然后放到.cache文件夹下面去,示例代码如下: from datasets import load_dataset squad_it_dataset = load_dataset("json", data_file...