tsinghuaai/cpm-1-finetune issues and pull requests

#58 - 模型加载问题

Issue - State: closed - Opened by xealml over 1 year ago

#58 - 模型加载问题

Issue - State: closed - Opened by xealml over 1 year ago

#57 - 模型加载问题

Issue - State: open - Opened by 447428054 over 1 year ago - 4 comments

#57 - 模型加载问题

Issue - State: open - Opened by 447428054 over 1 year ago - 4 comments

#56 - 使用fp16如何加载训练之后保存的模型动量呢

Issue - State: open - Opened by xealml over 1 year ago - 2 comments

#56 - 使用fp16如何加载训练之后保存的模型动量呢

Issue - State: open - Opened by xealml over 1 year ago - 2 comments

#55 - 请问使用2张卡保存的模型有2个，最终使用时使用哪个

Issue - State: closed - Opened by xealml over 1 year ago

#55 - 请问使用2张卡保存的模型有2个，最终使用时使用哪个

Issue - State: closed - Opened by xealml over 1 year ago

#54 - 训好的模型如何转化成huggingface的模型格式呢

Issue - State: open - Opened by Tron1994 almost 2 years ago

#54 - 训好的模型如何转化成huggingface的模型格式呢

Issue - State: open - Opened by Tron1994 almost 2 years ago

#53 - 如何检查模型是否加载成功？

Issue - State: closed - Opened by Tron1994 almost 2 years ago - 5 comments

#53 - 如何检查模型是否加载成功？

Issue - State: closed - Opened by Tron1994 almost 2 years ago - 5 comments

#52 - AttributeError: 'tuple' object has no attribute 'is_cuda'

Issue - State: open - Opened by Tron1994 almost 2 years ago - 6 comments

#52 - AttributeError: 'tuple' object has no attribute 'is_cuda'

Issue - State: open - Opened by Tron1994 almost 2 years ago - 6 comments

#51 - 请问CPM-1预训练的时候是训练1024个token吗

Issue - State: closed - Opened by orlando1986 almost 2 years ago - 1 comment

#51 - 请问CPM-1预训练的时候是训练1024个token吗

Issue - State: closed - Opened by orlando1986 almost 2 years ago - 1 comment

#50 - cpm-large 的预训练动量是否会开源呢？

Issue - State: closed - Opened by yayaQAQ about 2 years ago - 2 comments

#50 - cpm-large 的预训练动量是否会开源呢？

Issue - State: closed - Opened by yayaQAQ about 2 years ago - 2 comments

#49 - 这个框架支持pipeline并行吗？

Issue - State: closed - Opened by yayaQAQ about 2 years ago - 1 comment

#49 - 这个框架支持pipeline并行吗？

Issue - State: closed - Opened by yayaQAQ about 2 years ago - 1 comment

#48 - embedding average计算中，词向量使用的是哪个呢？如何进行分词的呢？STC_test中ground truth存在中英文的情况，这种情况如何进行分词呢？

Issue - State: open - Opened by allyouneeds almost 3 years ago

#48 - embedding average计算中，词向量使用的是哪个呢？如何进行分词的呢？STC_test中ground truth存在中英文的情况，这种情况如何进行分词呢？

Issue - State: open - Opened by allyouneeds almost 3 years ago

#47 - 跑CPM-large对显存要求是多少，我用一张24G的3090跑不出来

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago - 2 comments

#47 - 跑CPM-large对显存要求是多少，我用一张24G的3090跑不出来

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago - 2 comments

#46 - 关于模型问题

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago

#46 - 关于模型问题

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago

#45 - stc数据集测试时embedding average 精度的计算方式。是否会release 相关代码？

Issue - State: open - Opened by allyouneeds almost 3 years ago - 1 comment

#45 - stc数据集测试时embedding average 精度的计算方式。是否会release 相关代码？

Issue - State: open - Opened by allyouneeds almost 3 years ago - 1 comment

#44 - 请教

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago

#44 - 请教

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago

#43 - 模型问题

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago - 1 comment

#43 - 模型问题

Issue - State: closed - Opened by Chunhui-Zou almost 3 years ago - 1 comment

#42 - 能直接加载huggingface中的CPM-Distill模型吗

Issue - State: closed - Opened by zhoucz97 almost 3 years ago - 1 comment

#42 - 能直接加载huggingface中的CPM-Distill模型吗

Issue - State: closed - Opened by zhoucz97 almost 3 years ago - 1 comment

#41 - 使用系统推荐的docker发生RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED问题

Issue - State: closed - Opened by forrestbing about 3 years ago - 2 comments

#41 - 使用系统推荐的docker发生RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED问题

Issue - State: closed - Opened by forrestbing about 3 years ago - 2 comments

#40 - STC数据集finetune时报错

Issue - State: closed - Opened by David-Li0406 about 3 years ago - 1 comment

#40 - STC数据集finetune时报错

Issue - State: closed - Opened by David-Li0406 about 3 years ago - 1 comment

#39 - zero-shot测试：TypeError: list indices must be integers or slices, not str

Issue - State: closed - Opened by kevin65050113 about 3 years ago - 2 comments

#39 - zero-shot测试：TypeError: list indices must be integers or slices, not str

Issue - State: closed - Opened by kevin65050113 about 3 years ago - 2 comments

#38 - fix dev loss nan problem

Pull Request - State: open - Opened by acst1223 about 3 years ago - 1 comment

#38 - fix dev loss nan problem

Pull Request - State: open - Opened by acst1223 about 3 years ago - 1 comment

#37 - 字典token的扩展

Issue - State: closed - Opened by Hansen06 about 3 years ago - 1 comment

#37 - 字典token的扩展

Issue - State: closed - Opened by Hansen06 about 3 years ago - 1 comment

#36 - RuntimeError: cuda runtime error (10)

Issue - State: closed - Opened by drxmy over 3 years ago - 1 comment

#36 - RuntimeError: cuda runtime error (10)

Issue - State: closed - Opened by drxmy over 3 years ago - 1 comment

#35 - 关于Zero-shot 和 Finetune 模式下 Acc 计算问题

Issue - State: closed - Opened by lulu51230 over 3 years ago - 1 comment

#35 - 关于Zero-shot 和 Finetune 模式下 Acc 计算问题

Issue - State: closed - Opened by lulu51230 over 3 years ago - 1 comment

#34 - 多卡finetune时的Bug

Issue - State: closed - Opened by xiaofei05 over 3 years ago - 3 comments

#34 - 多卡finetune时的Bug

Issue - State: closed - Opened by xiaofei05 over 3 years ago - 3 comments

#33 - 微调结果

Issue - State: closed - Opened by zhenhao-huang over 3 years ago

#33 - 微调结果

Issue - State: closed - Opened by zhenhao-huang over 3 years ago

#32 - 下载的模型问题

Issue - State: closed - Opened by makai281 over 3 years ago - 1 comment

#32 - 下载的模型问题

Issue - State: closed - Opened by makai281 over 3 years ago - 1 comment

#31 - 关于微调超长文本和生成结果的问题

Issue - State: closed - Opened by zhenhao-huang over 3 years ago - 2 comments

#31 - 关于微调超长文本和生成结果的问题

Issue - State: closed - Opened by zhenhao-huang over 3 years ago - 2 comments

#30 - How to load the checkpoint if I am not using deepspeed?

Issue - State: closed - Opened by Walid-Ahmed over 3 years ago - 1 comment

#30 - How to load the checkpoint if I am not using deepspeed?

Issue - State: closed - Opened by Walid-Ahmed over 3 years ago - 1 comment

#29 - [question] cand_ids变量的来源？

Issue - State: closed - Opened by starkhu over 3 years ago - 4 comments

#29 - [question] cand_ids变量的来源？

Issue - State: closed - Opened by starkhu over 3 years ago - 4 comments

#28 - [deepspeed] fp16 dynamic loss scale overflow!

Issue - State: closed - Opened by 520jefferson over 3 years ago - 2 comments

#28 - [deepspeed] fp16 dynamic loss scale overflow!

Issue - State: closed - Opened by 520jefferson over 3 years ago - 2 comments

#27 - RuntimeWarning: overflow encountered in exp

Issue - State: closed - Opened by 520jefferson over 3 years ago - 2 comments

#27 - RuntimeWarning: overflow encountered in exp

Issue - State: closed - Opened by 520jefferson over 3 years ago - 2 comments

#26 - TypeError: 'NoneType' object is not subscriptable

Issue - State: closed - Opened by yiyele over 3 years ago - 4 comments

#26 - TypeError: 'NoneType' object is not subscriptable

Issue - State: closed - Opened by yiyele over 3 years ago - 4 comments

#25 - 多卡多机，building model时间很长

Issue - State: closed - Opened by demomagic over 3 years ago - 2 comments

#25 - 多卡多机，building model时间很长

Issue - State: closed - Opened by demomagic over 3 years ago - 2 comments

#24 - 使用基于STC数据集修改的代码跑问题生成

Issue - State: closed - Opened by LaVineChan over 3 years ago - 3 comments

#24 - 使用基于STC数据集修改的代码跑问题生成

Issue - State: closed - Opened by LaVineChan over 3 years ago - 3 comments

#23 - RuntimeError: CUDA error: initialization error

Issue - State: closed - Opened by holalula over 3 years ago - 2 comments

#23 - RuntimeError: CUDA error: initialization error

Issue - State: closed - Opened by holalula over 3 years ago - 2 comments

#22 - 关于finetune_lm损失函数的问题

Issue - State: closed - Opened by mali19064 over 3 years ago - 1 comment

#22 - 关于finetune_lm损失函数的问题

Issue - State: closed - Opened by mali19064 over 3 years ago - 1 comment

#21 - CHID数据集 finetune_chid_large_fp32.sh报错

Issue - State: closed - Opened by YinWei123 over 3 years ago - 3 comments

#21 - CHID数据集 finetune_chid_large_fp32.sh报错

Issue - State: closed - Opened by YinWei123 over 3 years ago - 3 comments

#20 - 用fp32精度微调文本生成模型不收敛

Issue - State: closed - Opened by zmingshi over 3 years ago - 6 comments

#20 - 用fp32精度微调文本生成模型不收敛

Issue - State: closed - Opened by zmingshi over 3 years ago - 6 comments

#19 - finetune_chid.py里面193~195行关于scores = torch.stack(tensor_list, 0).view(-1, 15000) 的含义？

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 8 comments

#19 - finetune_chid.py里面193~195行关于scores = torch.stack(tensor_list, 0).view(-1, 15000) 的含义？

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 8 comments

#18 - 关于文本生成模板的合理性

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 24 comments

#18 - 关于文本生成模板的合理性

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 24 comments

#17 - 执行change_mp.py文件将模型由2块分成4块后，使用4块GPU加载分成4块的模型，报错

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 12 comments

#17 - 执行change_mp.py文件将模型由2块分成4块后，使用4块GPU加载分成4块的模型，报错

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 12 comments

#16 - 用fp32精度微调生成的模型过大

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 8 comments

#16 - 用fp32精度微调生成的模型过大

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 8 comments

#15 - 文本转id问题

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 3 comments

#15 - 文本转id问题

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 3 comments

#14 - 请问这个可以在单GPU上运行吗

Issue - State: closed - Opened by unbuilt almost 4 years ago - 1 comment

#14 - 请问这个可以在单GPU上运行吗

Issue - State: closed - Opened by unbuilt almost 4 years ago - 1 comment

#13 - 将模型切成4份后，第0个进程load错误

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 5 comments

#13 - 将模型切成4份后，第0个进程load错误

Issue - State: closed - Opened by lulu51230 almost 4 years ago - 5 comments

#12 - 在加载CPM模型(26亿参数)的情况下，修改微调参数减小显存占用

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 16 comments

#12 - 在加载CPM模型(26亿参数)的情况下，修改微调参数减小显存占用

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 16 comments

#11 - 在ChID数据集上微调CPM-large模型准确率远低于论文结果

Issue - State: closed - Opened by keezen almost 4 years ago - 10 comments

#11 - 在ChID数据集上微调CPM-large模型准确率远低于论文结果

Issue - State: closed - Opened by keezen almost 4 years ago - 10 comments

#10 - python 3.6.8，torch 1.7.1+cu110，cuda 11.1环境下微调chid数据报错，显卡是3090

Issue - State: closed - Opened by zhenhao-huang almost 4 years ago - 9 comments

#9 - 在ChID数据集运行scripts/finetune_chid_large.sh报错

Issue - State: closed - Opened by keezen almost 4 years ago - 1 comment

#9 - 在ChID数据集运行scripts/finetune_chid_large.sh报错

Issue - State: closed - Opened by keezen almost 4 years ago - 1 comment

#8 - 请问为什么微调代码里面没有model.zero_grad呢？难道不需要清空梯度吗？

Issue - State: closed - Opened by keezen almost 4 years ago - 2 comments

GitHub / tsinghuaai/cpm-1-finetune issues and pull requests