yuanzhoulvpi2017/zero_nlp issues and pull requests

#205 - 关于llava数据

Issue - State: closed - Opened by zpc2002zpc about 1 month ago

#204 - To those who meet "AssertionError: no_sync context manager is incompatible with gradient partitioning logic of ZeRO stage 2"

Issue - State: closed - Opened by Nyquist24 about 1 month ago

#203 - Train_Llava

Issue - State: closed - Opened by xupengfei-dr 2 months ago - 4 comments
Labels: llava

#202 - 关于模型评估，Train_LLaVA

Issue - State: open - Opened by Wfyikczy 3 months ago - 2 comments

#201 - code03_build_model_show.ipynb

Issue - State: closed - Opened by Wfyikczy 3 months ago - 7 comments

#200 - Train_LLaVA

Issue - State: open - Opened by Wfyikczy 3 months ago - 8 comments

#199 - Train_llava。缺少preprocessor_config.json. 文件。

Issue - State: closed - Opened by weiaicunzai 4 months ago - 3 comments

#198 - 我发现有个issue 也是类似的错误：

Issue - State: closed - Opened by weiaicunzai 4 months ago

#197 - train_llava推理结果有问题。

Issue - State: closed - Opened by weiaicunzai 4 months ago - 7 comments

#196 - train_llava关于保存权重文件的问题

Issue - State: closed - Opened by weiaicunzai 4 months ago - 1 comment

#195 - 关于训练LLava的问题

Issue - State: closed - Opened by weiaicunzai 4 months ago - 1 comment

#194 - train_llava 如何实现第一阶段预训练和第二阶段微调

Issue - State: closed - Opened by weiaicunzai 4 months ago - 2 comments

#193 - train_llava数据集构建的问题

Issue - State: open - Opened by weiaicunzai 4 months ago - 1 comment

#192 - train_llava 关于数据集构建的问题

Issue - State: closed - Opened by weiaicunzai 4 months ago - 2 comments
Labels: llava

#191 - train_llava 构建模型失败

Issue - State: closed - Opened by weiaicunzai 4 months ago - 3 comments
Labels: llava

#190 - 关于llava 预处理左对齐还是右对齐

Issue - State: open - Opened by powermano 4 months ago - 6 comments
Labels: llava

#189 - 关于train_llava中processor的疑问。

Issue - State: closed - Opened by weiaicunzai 4 months ago - 1 comment
Labels: llava

#188 - 关于train_llava代码的TrainLLavaModelCollator的疑问

Issue - State: closed - Opened by weiaicunzai 4 months ago - 1 comment
Labels: llava

#187 - train_llava 报错ValueError: Cannot use chat template functions because tokenizer.chat_template is not set and no template argument was passed!

Issue - State: closed - Opened by weiaicunzai 4 months ago - 2 comments
Labels: llava

#186 - train_llava数据填充是否有问题？

Issue - State: closed - Opened by AI-Study-Han 4 months ago - 1 comment

#185 - train_llava 训练好以后出现空格

Issue - State: open - Opened by wrsnice 4 months ago - 2 comments
Labels: good first issue, llava

#184 - train_llava保存processor的时候出现错误

Issue - State: open - Opened by 1ittlesnow 5 months ago
Labels: llava

#183 - 请问train_llava如何使用更大的model

Issue - State: closed - Opened by 66246764 6 months ago

#182 - llava sft mask labels

Issue - State: open - Opened by TuuSiwei 7 months ago
Labels: llava

#177 - Llava在重新读取预处理器的时候报错

Issue - State: open - Opened by zyren123 8 months ago - 5 comments
Labels: llava

#176 - llava run error in jupyter

Issue - State: open - Opened by liu19876666 8 months ago - 3 comments
Labels: llava

#173 - 关于流水线并行的一个问题

Issue - State: open - Opened by Cheung-Z 9 months ago - 2 comments

#100 - code02_训练模型全部流程.ipynb运行问题

Issue - State: closed - Opened by situjunhao almost 2 years ago

#99 - 单机多卡是基于哪个版本的，P-Tuning 还是lora，为什么模型又换成THUDM/chatglm-6b，而不是yuanzhoulvpi/chatglm6b-dddd

Issue - State: closed - Opened by YSLLYW almost 2 years ago - 1 comment
Labels: invalid

#98 - 大佬，微调完成后，要想基于微调后的版本，继续微调，你们一般是怎么弄的？

Issue - State: closed - Opened by cywjava almost 2 years ago - 4 comments

#97 - 大佬，帮忙看看这个错误。

Issue - State: open - Opened by cywjava almost 2 years ago - 1 comment

#96 - 多卡并行训练并没有提升速度反而变慢了些，这是为什么

Issue - State: closed - Opened by heheyzc almost 2 years ago - 9 comments

#95 - get_masks_and_position_ids 问题请教

Issue - State: open - Opened by chenjw505 almost 2 years ago

#94 - infer【bug】RuntimeError

Issue - State: open - Opened by putdoor almost 2 years ago - 1 comment

#93 - gpt预训练

Issue - State: closed - Opened by Clearloveplus7 almost 2 years ago - 2 comments

#92 - 模型并行训练的问题

Issue - State: open - Opened by aihaidong almost 2 years ago - 2 comments
Labels: chatglm

#91 - 进行多卡训练的时候，device_map_dict应该如何进行编号设置

Issue - State: open - Opened by 168liuliu168 almost 2 years ago - 4 comments

#90 - 请问4.1版Chatglm6b_ModelParallel训练loss下降学不到东西bug修复了嘛

Issue - State: open - Opened by guoswang almost 2 years ago - 2 comments

#89 - 我的模型文件从dddd版本里下的，Chatglm6b_ModelParallel这个文件夹下，只修改了cuda的配置，训练还是遇到了问题。

Issue - State: open - Opened by Rorschaaaach almost 2 years ago - 8 comments

#88 - 训练epoch的设置和效果问题

Issue - State: open - Opened by GreatWildFire almost 2 years ago - 4 comments

#87 - 模型并行，数据没有并行？

Issue - State: closed - Opened by GUORUIWANG almost 2 years ago - 2 comments
Labels: invalid

#86 - 单机多卡训练chat_glm 有误

Issue - State: open - Opened by cxj01 almost 2 years ago - 6 comments

#85 - [BUG]训练脚本报错

Issue - State: closed - Opened by aihaidong almost 2 years ago - 6 comments

#84 - 合并Lora权重后的模型不生成回答了

Issue - State: closed - Opened by heccxixi almost 2 years ago
Labels: invalid

#83 - 量化后的模型没法分层

Issue - State: closed - Opened by aihaidong almost 2 years ago - 1 comment

#82 - 模型并行问题

Issue - State: open - Opened by juemifuji almost 2 years ago - 4 comments

#81 - 改名

Issue - State: closed - Opened by yangliuIOC almost 2 years ago

#80 - 三个输入都有错误探讨

Issue - State: open - Opened by onePlusOne111 almost 2 years ago - 1 comment

#79 - EOP TOKEN ID

Issue - State: closed - Opened by yangliuIOC almost 2 years ago - 2 comments

#78 - 显存

Issue - State: closed - Opened by yangliuIOC almost 2 years ago - 4 comments

#77 - 多卡并行的训练方法只用1张卡测试，max_seq_len 1024, batch_size 1还是会内存不够，用的3090~~~

Issue - State: closed - Opened by Rorschaaaach almost 2 years ago - 3 comments

#76 - 怎么让它不知道的就不要乱说。

Issue - State: closed - Opened by cywjava almost 2 years ago

#75 - main_parallel.py 报错 print_dataset_example这里报错 preprocess_function_train错了

Issue - State: closed - Opened by hangzeli08 almost 2 years ago - 1 comment

#74 - chatglm不可以自动层并行吗？

Issue - State: closed - Opened by kevinuserdd almost 2 years ago - 3 comments

#73 - Chatglm6b_ModelParallel_ptuning 编译错误

Issue - State: closed - Opened by online2311 almost 2 years ago - 1 comment

#72 - 执行sh脚本报错IndexError: Out of range: piece id is out of range.

Issue - State: closed - Opened by janglichao almost 2 years ago - 1 comment

#71 - Lora导致推理时长增加70%

Issue - State: open - Opened by airsYuan almost 2 years ago - 4 comments
Labels: help wanted

#70 - 关于modeling_chatglm.py

Issue - State: open - Opened by ckqsars almost 2 years ago

#69 - 训练后的模型infer的时候报输入形状错误 RuntimeError: Tensors must have same number of dimensions: got 4 and 2

Issue - State: open - Opened by xxyp almost 2 years ago - 4 comments

#68 - 作者你好，改名字只成功了一半

Issue - State: open - Opened by YYGe01 almost 2 years ago - 9 comments

#67 - 'ChatGLM Tokenizer' object has no attribute 'eos_token_id'

Issue - State: closed - Opened by OneStepAndTwoSteps almost 2 years ago - 8 comments

#66 - infer的速度很慢

Issue - State: open - Opened by OneStepAndTwoSteps almost 2 years ago - 1 comment

#65 - 有人训练“你是谁”成功了吗？

Issue - State: closed - Opened by BLAIR-wy almost 2 years ago - 5 comments

#64 - 关掉Lora微调大模型，模型并行训练报错：Expected all tensors to be on the same device, but found at least two devices, cuda:3 and cuda:0!

Issue - State: open - Opened by huangcaiyun almost 2 years ago - 7 comments

#63 - 训练时，我想关掉fp16

Issue - State: closed - Opened by cywjava almost 2 years ago - 2 comments

#62 - 使用lora 微调后，调用生成报错 RuntimeError: expected scalar type Half but found Float

Issue - State: closed - Opened by cywjava almost 2 years ago - 3 comments

#61 - 报错: RuntimeError: Internal: [MASK] is already defined.

Issue - State: closed - Opened by EssentialCuber almost 2 years ago - 4 comments

#60 - 原封不动下载的代码和数据，在已经成功运行官方版本的环境里出错

Issue - State: closed - Opened by xianglei3 almost 2 years ago - 2 comments

#59 - 使用lora 微调后，怎么所有的checkpoint 的大小都是一样的？

Issue - State: closed - Opened by cywjava almost 2 years ago - 1 comment

#58 - wandb这里卡住了，怎么解决

Issue - State: open - Opened by rucideyi almost 2 years ago - 2 comments

#57 - 最新版的多卡并行

Issue - State: closed - Opened by cywjava almost 2 years ago - 3 comments

#56 - 只训练大模型，并行出错

Issue - State: open - Opened by safehumeng almost 2 years ago - 7 comments

#55 - 训练后的模型不能像chatglm-6B中生成的模型一样被加载成为接口。报输入形状错误。

Issue - State: closed - Opened by natureLanguageQing almost 2 years ago - 1 comment

#54 - 训练时数据是不是需要处理下？

Issue - State: open - Opened by yzho0907 almost 2 years ago

#53 - ValueError: Unrecognized configuration class

Issue - State: open - Opened by littlerookie almost 2 years ago - 3 comments

#52 - instruction, input, output都代表什么意思，有相关的文档么？

Issue - State: open - Opened by bh4ffu almost 2 years ago - 1 comment

#51 - Mytrainer.py有15个错误，没有引入相关的包

Issue - State: open - Opened by luieswww almost 2 years ago - 2 comments

#50 - `use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...报这个信息，保存不了模型文件

Issue - State: closed - Opened by Chenzongchao almost 2 years ago - 1 comment

#49 - `use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...

Issue - State: closed - Opened by Chenzongchao almost 2 years ago - 1 comment

#48 - 如何给ChatGLM-6B增加特定领域的知识，然后根据这些知识来问答

Issue - State: closed - Opened by Mr-IT007 almost 2 years ago - 4 comments

#47 - 可以增量训练么？

Issue - State: closed - Opened by bh4ffu almost 2 years ago - 3 comments

#46 - 模型对预训练数据集拟合效果很差

Issue - State: open - Opened by yanchaoguo almost 2 years ago - 6 comments

#45 - 我用了BELLE的0.5M语料训练

Issue - State: open - Opened by 1079863482 almost 2 years ago - 4 comments

#44 - 多卡并行训练报错

Issue - State: closed - Opened by cywjava almost 2 years ago - 5 comments

#43 - 'ChatGLMForConditionalGeneration' object has no attribute 'model_parallel' 大佬这个是因为没开多卡吗

Issue - State: closed - Opened by Chenzongchao almost 2 years ago - 2 comments

#42 - 训练的epoch数

Issue - State: open - Opened by xiaoweiweixiao almost 2 years ago - 2 comments

#41 - 使用训练后的模型报错

Issue - State: closed - Opened by bh4ffu almost 2 years ago - 5 comments

#40 - closed

Issue - State: closed - Opened by xiaosimao almost 2 years ago

#39 - 大佬修改名称有什么经验呢

Issue - State: closed - Opened by Chenzongchao almost 2 years ago - 4 comments

#38 - 训练后没有效果，我换了data2里面的内容后，又报如下错误。。

Issue - State: open - Opened by cywjava almost 2 years ago - 10 comments

#37 - 微调后怎么启动一个api server供外部调用？

Issue - State: closed - Opened by bh4ffu almost 2 years ago - 2 comments

#36 - 微调后的checkpoint 能保存为原来的bin格式的文件吗？

Issue - State: closed - Opened by cywjava almost 2 years ago - 1 comment

#35 - 交友贴

Issue - State: open - Opened by PKQ1688 almost 2 years ago - 3 comments

#34 - 双卡3090微调aplace，有没有人遇到这个问题

Issue - State: closed - Opened by 1079863482 almost 2 years ago - 6 comments

#33 - 哪位跑通的大哥把conda环境配置发一下作为参考？

Issue - State: open - Opened by xiaoweiweixiao almost 2 years ago - 6 comments

#32 - 作者您好，希望您解答一下我的问题，谢谢

Issue - State: closed - Opened by zhangzai666 almost 2 years ago - 8 comments

#31 - 跑 code02_训练模型全部流程.ipynb 时报错 ModuleNotFoundError: No module named 'datasets'

Issue - State: closed - Opened by zhaodice almost 2 years ago - 1 comment

#30 - 参考最新的微调alpaca数据集报错

Issue - State: closed - Opened by zhangzai666 almost 2 years ago - 2 comments

#29 - RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

Issue - State: closed - Opened by 1006076811 almost 2 years ago - 6 comments

#28 - 多卡微调报错呢

Issue - State: closed - Opened by cywjava almost 2 years ago - 19 comments

GitHub / yuanzhoulvpi2017/zero_nlp issues and pull requests