microsoft/Megatron-DeepSpeed のフォークです。. Contribute to llm-jp/Megatron-DeepSpeed development by creating an account on GitHub.
python train.py \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --learning_rate 1e-5 \ --warmup_ratio 0.1 \ --lr_scheduler_type cosine \ --data_files data/example.jsonl \ --model_name_or_path llm-jp/llm-jp-1.3b-v1.0 \ --output_dir results/ ...
llm-jp/Megatron-LM llm-jp/Megatron-LMPublic NotificationsYou must be signed in to change notification settings Fork1 Star6 nii-geniac 17Branches0Tags Code README License Megatron-LM & Megatron-Core GPU optimized techniques for training transformer models at-scale...
version: llm-jp-evalのバージョン情報. basemodel_name: 評価実験を行なった言語モデルの情報. model_type: 評価実験を行なった言語モデルのカテゴリー情報. instruction_tuning_method_by_llm-jp: llm-jpでチューニングを行なった際,その手法の情報. ...
Delete .github/ISSUE_TEMPLATE/config.yml Aug 5, 2024 README.md Update README.md Jul 24, 2024 Repository files navigation README pretrain tasks このリポジトリでは、事前学習に関するタスクをWG横断的に Issues で管理します。 Projects からは操作せず、可視化のためにのみ利用します。 各issue...
Actions: llm-jp/llm-jp-evalActions All workflows Generate requirements.txt Lint Test Management Caches Attestations Lint lint.yml 502 workflow runs Event Status Branch Actor do not need to assign eos/pad_token_id mandatorily
Issues: llm-jp/llm-jp-sftLabels 9 Milestones 0 New issue 2 Open 11 Closed Author Label Projects Milestones Assignee Sort Issues list data/example.jsonl の形式 #38 opened Feb 6, 2024 by SakikoYahata Inquiry Regarding the Release Date of the Dataset #27 opened Dec 9, 2023 by Dumo...
"offline_dir": "/model/takumi/working/temp4/llm-jp-eval/offline_inference/vllm/outputs/llm-jp--llm-jp-1.3b-v1.0_vllm_20240713_190142", にようにconfig/offline_dirにパスとして非明示的にgeneratorが埋め込まれているだけなので、config/generator属性を追加して明示的に推論ライブラリを残せ...
GitHub Copilot Enterprise-grade AI features Premium Support Enterprise-grade 24/7 support Pricing Search or jump to... Search code, repositories, users, issues, pull requests... Provide feedback We read every piece of feedback, and take your input very seriously. Include my email address...
llm-jp-asr Whisperのデコーダをllm-jp/llm-jp-1.3b-v1.0に置き換えた音声認識モデルを学習させるためのサンプルコードです。 【音声認識コンペ】文学作品の音声を 文字起こししよう!📘🎧で使用するために作成したコードですので、必要に応じてコードは書き換えてください。