记录一个Nan bug

最近在训练模型,需要加载新的datasets时,同时需要修改相应的model config;

在加载data以后开始训练,在一个epoch中,每当迭代几个或者十几个interation后,就会出现nan数据,定位到是model中conv1d()和conv2d()传出的数据会为nan;

查找了很久很久,排除了data loader问题、torch版本问题、lr问题以后,最后发现,是bs设置过大导致的这问题;

在此记录。