Device Plugin e2e for homogeneous/heterogeneous with single/mixed strategy

sriram-30 · sajmera-pensando · commit 42692bd60d92 · 2025-03-26T18:49:17.000Z
diff --git a/tests/e2e/cluster_test.go b/tests/e2e/cluster_test.go
@@ -1051,7 +1051,7 @@ func (s *E2ESuite) TestWorkloadRequestedGPUs(c *C) {
 	s.verifyDeviceConfigStatus(devCfg, c)
 	s.verifyNodeGPULabel(devCfg, c)
 
-	ret, err := utils.GetAMDGPUCount(ctx, s.clientSet)
+	ret, err := utils.GetAMDGPUCount(ctx, s.clientSet, "gpu")
 	if err != nil {
 		logger.Errorf("error: %v", err)
 	}
@@ -1078,7 +1078,7 @@ func (s *E2ESuite) TestWorkloadRequestedGPUs(c *C) {
 	err = utils.DeployRocmPods(context.TODO(), s.clientSet, res)
 	assert.NoError(c, err, "failed to deploy pods")
 	s.verifyROCMPOD(true, c)
-	err = utils.VerifyROCMPODResourceCount(ctx, s.clientSet, gpuReqCount)
+	err = utils.VerifyROCMPODResourceCount(ctx, s.clientSet, gpuReqCount, "gpu")
 	assert.NoError(c, err, fmt.Sprintf("%v", err))
 
 	// delete
@@ -1092,6 +1092,244 @@ func (s *E2ESuite) TestWorkloadRequestedGPUs(c *C) {
 	assert.NoError(c, err, "failed to reboot nodes")
 }
 
+func (s *E2ESuite) TestWorkloadRequestedGPUsHomogeneousSingle(c *C) {
+	if s.simEnable {
+		c.Skip("Skipping for non amd gpu testbed")
+	}
+	if !dcmImageDefined {
+		c.Skip("skip DCM test because E2E_DCM_IMAGE is not defined")
+	}
+
+	s.configMapHelper(c)
+
+	logger.Infof("Add node label after pod comes up")
+	time.Sleep(30 * time.Second)
+
+	nodes := utils.GetAMDGpuWorker(s.clientSet, s.openshift)
+	nodeNames := make([]string, 0)
+	for _, node := range nodes {
+		nodeNames = append(nodeNames, node.Name)
+	}
+	for _, nodeName := range nodeNames {
+		s.addRemoveNodeLabels(nodeName, "e2e_profile2")
+	}
+
+	logs := s.getLogs()
+	if strings.Contains(logs, "Partition completed successfully") && (!strings.Contains(logs, "ERROR")) && (s.eventHelper("SuccessfullyPartitioned", "Normal")) {
+		logger.Infof("Successfully tested homogenous default partitioning")
+	} else {
+		logger.Errorf("Failure test homogenous partitioning")
+	}
+	devCfgDcm := s.getDeviceConfigForDCM(c)
+	s.deleteDeviceConfig(devCfgDcm, c)
+
+	time.Sleep(60 * time.Second)
+
+	ctx := context.TODO()
+	logger.Infof("create %v", s.cfgName)
+	devCfg := s.getDeviceConfig(c)
+	driverEnable := false
+	devCfg.Spec.Driver.Enable = &driverEnable
+	s.createDeviceConfig(devCfg, c)
+	s.checkNFDWorkerStatus(s.ns, c, "")
+	s.checkNodeLabellerStatus(s.ns, c, devCfg)
+	s.verifyDeviceConfigStatus(devCfg, c)
+	s.verifyNodeGPULabel(devCfg, c)
+
+	ret, err := utils.GetAMDGPUCount(ctx, s.clientSet, "gpu")
+	if err != nil {
+		logger.Errorf("error: %v", err)
+	}
+	var minGPU int = 10000
+	for _, v := range ret {
+		if v < minGPU {
+			minGPU = v
+		}
+	}
+	assert.Greater(c, minGPU, 0, "did not find any server with amd gpu")
+
+	gpuLimitCount := minGPU
+	gpuReqCount := minGPU
+
+	res := &v1.ResourceRequirements{
+		Limits: v1.ResourceList{
+			"amd.com/gpu": resource.MustParse(fmt.Sprintf("%d", gpuLimitCount)),
+		},
+		Requests: v1.ResourceList{
+			"amd.com/gpu": resource.MustParse(fmt.Sprintf("%d", gpuReqCount)),
+		},
+	}
+
+	err = utils.DeployRocmPods(context.TODO(), s.clientSet, res)
+	assert.NoError(c, err, "failed to deploy pods")
+	err = utils.VerifyROCMPODResourceCount(ctx, s.clientSet, gpuReqCount, "gpu")
+	assert.NoError(c, err, fmt.Sprintf("%v", err))
+
+	// delete
+	s.deleteDeviceConfig(devCfg, c)
+
+	err = utils.DelRocmPods(context.TODO(), s.clientSet)
+	assert.NoError(c, err, "failed to remove rocm pods")
+}
+
+func (s *E2ESuite) TestWorkloadRequestedGPUsHomogeneousMixed(c *C) {
+	if s.simEnable {
+		c.Skip("Skipping for non amd gpu testbed")
+	}
+	if !dcmImageDefined {
+		c.Skip("skip DCM test because E2E_DCM_IMAGE is not defined")
+	}
+
+	s.configMapHelper(c)
+
+	logger.Infof("Add node label after pod comes up")
+	time.Sleep(30 * time.Second)
+
+	nodes := utils.GetAMDGpuWorker(s.clientSet, s.openshift)
+	nodeNames := make([]string, 0)
+	for _, node := range nodes {
+		nodeNames = append(nodeNames, node.Name)
+	}
+	for _, nodeName := range nodeNames {
+		s.addRemoveNodeLabels(nodeName, "e2e_profile2")
+	}
+
+	logs := s.getLogs()
+	if strings.Contains(logs, "Partition completed successfully") && (!strings.Contains(logs, "ERROR")) && (s.eventHelper("SuccessfullyPartitioned", "Normal")) {
+		logger.Infof("Successfully tested homogeneous partitioning")
+	} else {
+		logger.Errorf("Failure test homogeneous partitioning")
+	}
+	devCfgDcm := s.getDeviceConfigForDCM(c)
+	s.deleteDeviceConfig(devCfgDcm, c)
+	time.Sleep(60 * time.Second)
+	ctx := context.TODO()
+	logger.Infof("create %v", s.cfgName)
+	devCfg := s.getDeviceConfig(c)
+	driverEnable := false
+	devCfg.Spec.Driver.Enable = &driverEnable
+	devCfg.Spec.DevicePlugin.DevicePluginArguments = map[string]string{"resource_naming_strategy": "mixed"}
+	s.createDeviceConfig(devCfg, c)
+	s.checkNFDWorkerStatus(s.ns, c, "")
+	s.checkNodeLabellerStatus(s.ns, c, devCfg)
+	s.verifyDeviceConfigStatus(devCfg, c)
+
+	ret, err := utils.GetAMDGPUCount(ctx, s.clientSet, "cpx_nps4")
+	if err != nil {
+		logger.Errorf("error: %v", err)
+	}
+	var minGPU int = 10000
+	for _, v := range ret {
+		if v < minGPU {
+			minGPU = v
+		}
+	}
+	assert.Greater(c, minGPU, 0, "did not find any server with amd gpu")
+
+	gpuLimitCount := minGPU
+	gpuReqCount := minGPU
+
+	res := &v1.ResourceRequirements{
+		Limits: v1.ResourceList{
+			"amd.com/cpx_nps4": resource.MustParse(fmt.Sprintf("%d", gpuLimitCount)),
+		},
+		Requests: v1.ResourceList{
+			"amd.com/cpx_nps4": resource.MustParse(fmt.Sprintf("%d", gpuReqCount)),
+		},
+	}
+
+	err = utils.DeployRocmPods(context.TODO(), s.clientSet, res)
+	assert.NoError(c, err, "failed to deploy pods")
+	err = utils.VerifyROCMPODResourceCount(ctx, s.clientSet, gpuReqCount, "cpx_nps4")
+	assert.NoError(c, err, fmt.Sprintf("%v", err))
+
+	// delete
+	s.deleteDeviceConfig(devCfg, c)
+
+	err = utils.DelRocmPods(context.TODO(), s.clientSet)
+	assert.NoError(c, err, "failed to remove rocm pods")
+
+}
+
+func (s *E2ESuite) TestWorkloadRequestedGPUsHeterogeneousMixed(c *C) {
+	if s.simEnable {
+		c.Skip("Skipping for non amd gpu testbed")
+	}
+	if !dcmImageDefined {
+		c.Skip("skip DCM test because E2E_DCM_IMAGE is not defined")
+	}
+
+	s.configMapHelper(c)
+
+	logger.Infof("Add node label after pod comes up")
+	time.Sleep(30 * time.Second)
+
+	nodes := utils.GetAMDGpuWorker(s.clientSet, s.openshift)
+	nodeNames := make([]string, 0)
+	for _, node := range nodes {
+		nodeNames = append(nodeNames, node.Name)
+	}
+	for _, nodeName := range nodeNames {
+		s.addRemoveNodeLabels(nodeName, "e2e_profile1")
+	}
+
+	logs := s.getLogs()
+	if strings.Contains(logs, "Partition completed successfully") && (!strings.Contains(logs, "ERROR")) && (s.eventHelper("SuccessfullyPartitioned", "Normal")) {
+		logger.Infof("Successfully tested homogeneous partitioning")
+	} else {
+		logger.Errorf("Failure test heterogenous partitioning")
+	}
+	devCfgDcm := s.getDeviceConfigForDCM(c)
+	s.deleteDeviceConfig(devCfgDcm, c)
+	time.Sleep(60 * time.Second)
+
+	ctx := context.TODO()
+	logger.Infof("create %v", s.cfgName)
+	devCfg := s.getDeviceConfig(c)
+	driverEnable := false
+	devCfg.Spec.Driver.Enable = &driverEnable
+	devCfg.Spec.DevicePlugin.DevicePluginArguments = map[string]string{"resource_naming_strategy": "mixed"}
+	s.createDeviceConfig(devCfg, c)
+	s.checkNFDWorkerStatus(s.ns, c, "")
+	s.checkNodeLabellerStatus(s.ns, c, devCfg)
+	s.verifyDeviceConfigStatus(devCfg, c)
+
+	ret, err := utils.GetAMDGPUCount(ctx, s.clientSet, "cpx_nps1")
+	if err != nil {
+		logger.Errorf("error: %v", err)
+	}
+	var minGPU int = 10000
+	for _, v := range ret {
+		if v < minGPU {
+			minGPU = v
+		}
+	}
+	assert.Greater(c, minGPU, 0, "did not find any server with amd gpu")
+
+	gpuLimitCount := minGPU
+	gpuReqCount := minGPU
+
+	res := &v1.ResourceRequirements{
+		Limits: v1.ResourceList{
+			"amd.com/cpx_nps1": resource.MustParse(fmt.Sprintf("%d", gpuLimitCount)),
+		},
+		Requests: v1.ResourceList{
+			"amd.com/cpx_nps1": resource.MustParse(fmt.Sprintf("%d", gpuReqCount)),
+		},
+	}
+
+	err = utils.DeployRocmPods(context.TODO(), s.clientSet, res)
+	assert.NoError(c, err, "failed to deploy pods")
+	err = utils.VerifyROCMPODResourceCount(ctx, s.clientSet, gpuReqCount, "cpx_nps1")
+	assert.NoError(c, err, fmt.Sprintf("%v", err))
+
+	// delete
+	s.deleteDeviceConfig(devCfg, c)
+
+	err = utils.DelRocmPods(context.TODO(), s.clientSet)
+	assert.NoError(c, err, "failed to remove rocm pods")
+}
+
 func (s *E2ESuite) TestKubeRbacProxyClusterIP(c *C) {
 	_, err := s.dClient.DeviceConfigs(s.ns).Get("deviceconfig-kuberbac-clusterip", metav1.GetOptions{})
 	assert.Errorf(c, err, "config deviceconfig-kuberbac-clusterip exists")
diff --git a/tests/e2e/dcm_e2e_test.go b/tests/e2e/dcm_e2e_test.go
@@ -72,7 +72,7 @@ func (s *E2ESuite) addRemoveNodeLabels(nodeName string, selectedProfile string)
 		logger.Infof("Error adding node lbels: %s\n", err.Error())
 		return
 	}
-	time.Sleep(15 * time.Second)
+	time.Sleep(45 * time.Second)
 	// Allow partition to happen
 	err = utils.DeleteNodeLabel(s.clientSet, nodeName, "dcm.amd.com/gpu-config-profile")
 	_ = utils.DeleteNodeLabel(s.clientSet, nodeName, "dcm.amd.com/apply-gpu-config-profile")
@@ -269,6 +269,7 @@ func (s *E2ESuite) createConfigMap() GPUConfigProfiles {
 		{
 			ComputePartition: "CPX",
 			MemoryPartition:  "NPS4",
+			NumGPUsAssigned:  1,
 		},
 	}
 
diff --git a/tests/e2e/testrunner_test.go b/tests/e2e/testrunner_test.go
@@ -200,7 +200,7 @@ func (s *E2ESuite) createTestRunnerConfigmap(valid bool, devCfg *v1alpha1.Device
 }
 
 func (s *E2ESuite) scheduleWorkloadOnNodeWithMaxGPUs(c *C) string {
-	ret, err := utils.GetAMDGPUCount(context.TODO(), s.clientSet)
+	ret, err := utils.GetAMDGPUCount(context.TODO(), s.clientSet, "gpu")
 	if err != nil {
 		logger.Errorf("error: %v", err)
 	}
@@ -228,7 +228,7 @@ func (s *E2ESuite) scheduleWorkloadOnNodeWithMaxGPUs(c *C) string {
 
 	err = utils.DeployRocmPods(context.TODO(), s.clientSet, res)
 	assert.NoError(c, err, "failed to deploy pods")
-	err = utils.VerifyROCMPODResourceCount(context.TODO(), s.clientSet, gpuReqCount)
+	err = utils.VerifyROCMPODResourceCount(context.TODO(), s.clientSet, gpuReqCount, "gpu")
 	assert.NoError(c, err, fmt.Sprintf("%v", err))
 
 	return nodeWithMaxGPU
@@ -730,7 +730,7 @@ func (s *E2ESuite) TestTestRunnerLogsExport(c *C) {
 
 func (s *E2ESuite) getGPUNodeName() (nodeWithMaxGPU string) {
 	var maxPerNodeGPU int = 0
-	ret, err := utils.GetAMDGPUCount(context.TODO(), s.clientSet)
+	ret, err := utils.GetAMDGPUCount(context.TODO(), s.clientSet, "gpu")
 	if err != nil {
 		logger.Printf("Unable to fetch gpu nodes. Error %v", err)
 		return
diff --git a/tests/e2e/utils/utils.go b/tests/e2e/utils/utils.go
@@ -598,14 +598,6 @@ func GetWorkerNodes(cl *kubernetes.Clientset) []*v1.Node {
 func GetAMDGpuWorker(cl *kubernetes.Clientset, isOpenshift bool) []v1.Node {
 	ret := make([]v1.Node, 0)
 	labelSelector := labels.NewSelector()
-	if !isOpenshift {
-		r, _ := labels.NewRequirement(
-			"node-role.kubernetes.io/control-plane",
-			selection.DoesNotExist,
-			nil,
-		)
-		labelSelector = labelSelector.Add(*r)
-	}
 	r, _ := labels.NewRequirement(
 		"feature.node.kubernetes.io/amd-gpu",
 		selection.Equals,
@@ -766,7 +758,7 @@ func DelRocmPodsByNodeNames(ctx context.Context, cl *kubernetes.Clientset,
 
 }
 
-func GetAMDGPUCount(ctx context.Context, cl *kubernetes.Clientset) (map[string]int, error) {
+func GetAMDGPUCount(ctx context.Context, cl *kubernetes.Clientset, resourceType string) (map[string]int, error) {
 
 	ret := make(map[string]int)
 	// Get the list of nodes
@@ -777,7 +769,8 @@ func GetAMDGPUCount(ctx context.Context, cl *kubernetes.Clientset) (map[string]i
 
 	// Iterate over the nodes and count AMD GPUs
 	for _, node := range nodes.Items {
-		if val, ok := node.Status.Capacity["amd.com/gpu"]; ok {
+		resourceKey := v1.ResourceName("amd.com/" + resourceType)
+		if val, ok := node.Status.Capacity[resourceKey]; ok {
 			num, err := strconv.ParseInt(val.String(), 10, 64)
 			if err != nil {
 				log.Infof("error: %v", err)
@@ -790,7 +783,7 @@ func GetAMDGPUCount(ctx context.Context, cl *kubernetes.Clientset) (map[string]i
 }
 
 func VerifyROCMPODResourceCount(ctx context.Context, cl *kubernetes.Clientset,
-	gpuReqCount int) error {
+	gpuReqCount int, resourceType string) error {
 
 	its, err := cl.CoreV1().Pods("").List(ctx,
 		metav1.ListOptions{
@@ -805,7 +798,8 @@ func VerifyROCMPODResourceCount(ctx context.Context, cl *kubernetes.Clientset,
 				continue
 			}
 
-			if gpu, ok := cntr.Resources.Requests["amd.com/gpu"]; ok {
+			resourceKey := v1.ResourceName("amd.com/" + resourceType)
+			if gpu, ok := cntr.Resources.Requests[resourceKey]; ok {
 				gpuAssignedCount := int(gpu.Value())
 				if gpuReqCount < gpuAssignedCount {
 					return fmt.Errorf("gpu requested %d got %d",

Original file line number	Diff line number	Diff line change
`@@ -72,7 +72,7 @@ func (s *E2ESuite) addRemoveNodeLabels(nodeName string, selectedProfile string)`
`72`	`72`	`logger.Infof("Error adding node lbels: %s\n", err.Error())`
`73`	`73`	`return`
`74`	`74`	`}`
`75`		`- time.Sleep(15 * time.Second)`
	`75`	`+ time.Sleep(45 * time.Second)`
`76`	`76`	`// Allow partition to happen`
`77`	`77`	`err = utils.DeleteNodeLabel(s.clientSet, nodeName, "dcm.amd.com/gpu-config-profile")`
`78`	`78`	`_ = utils.DeleteNodeLabel(s.clientSet, nodeName, "dcm.amd.com/apply-gpu-config-profile")`
`@@ -269,6 +269,7 @@ func (s *E2ESuite) createConfigMap() GPUConfigProfiles {`
`269`	`269`	`{`
`270`	`270`	`ComputePartition: "CPX",`
`271`	`271`	`MemoryPartition: "NPS4",`
	`272`	`+ NumGPUsAssigned: 1,`
`272`	`273`	`},`
`273`	`274`	`}`
`274`	`275`