记录一个Nan bug
最近在训练模型,需要加载新的datasets时,同时需要修改相应的model config;
在加载data以后开始训练,在一个epoch中,每当迭代几个或者十几个interation后,就会出现nan数据,定位到是model中conv1d()和conv2d()传出的数据会为nan;
查找了很久很久,排除了data loader问题、torch版本问题、lr问题以后,最后发现,是bs设置过大导致的这问题;
在此记录。
最近在训练模型,需要加载新的datasets时,同时需要修改相应的model config;
在加载data以后开始训练,在一个epoch中,每当迭代几个或者十几个interation后,就会出现nan数据,定位到是model中conv1d()和conv2d()传出的数据会为nan;
查找了很久很久,排除了data loader问题、torch版本问题、lr问题以后,最后发现,是bs设置过大导致的这问题;
在此记录。