Translate

What is huggingface?

1. 一个开源的AI社区,提供模型,数据集,一些工具等

2. Spaces 应用:通过网页端展示自己模型的输入输出和别的交互

3. Gradio:给任意python函数加上UI页面的库,用于页面展示

4. 几个重要的库:Transformer / Datasets / Evaluate / Accelerate / Optimum / Diffusers ...

    Datasets:

            安装:pip install datasets

            导入:from datasets import load_dataset

            使用:dataset = load_dataset('imdb')

            查看数据集大小:print(len(dataset['train']))

                                    print(len(dataset['test']))

            第一次使用数据集的时候,如果数据集还未下载,会自动下载并保存在

                    ~/.cache/huggingface/datasets

            如果想控制下载的目录:dataset = load_dataset('imdb', cache_dir="./imdb")

            * huggingface 下载的图像数据集的格式 并不是.jpg的可视化格式

    
    Accelerate: 一个帮助模型加速的库

            是 Hugging Face 开源的一个方便将 PyTorch 模型迁移到 GPU/multi-GPUs/TPU/fp16/bf16 模式下训练的小巧工具
            只需要增加几行代码就可以在任何分布式配置中运行相同的PyTorch代码

            安装:pip install git+https://github.com/huggingface/accelerate

            配置:accelerate config

            检查配置是否正常:accelerate env


             * 以下为简单的配置方法,Accelerate将自动利用可用gpu的最大数量,并设置混合精度模式

                            python -c "from accelerate.utils import write_basic_config;                                            write_basic_config(mixed_precision='fp16')"


            用accelerate 执行脚本:accelerate launch {my_script.py}

            





    ref: https://huggingface.co/datasets/HuggingFace-CN-community/translation/blob/main/eat_accelerate_in_30_minites.md
        https://juejin.cn/post/7232091653065015355






No comments:

Post a Comment