我們的一個項目涉及使用無監(jiān)測的ML算法來比較虛擬機的性能。由于項目區(qū)域有點難以理解,我們決定不使用任何標簽,因為它們可能是主觀的,而是建立了一個獨立的系統(tǒng);因此,我們做了以下工作:
1、在云上創(chuàng)建虛擬機
2、通過運行不同的測試來對其進行基準測試,以衡量VM的性能。
3、收集了大約2000個特征作為原始數(shù)據(jù)。
4、分析收集到的原始數(shù)據(jù)并提取較有價值的基準。
5、將基準測試壓縮成多個系數(shù)(并行化、一個核、穩(wěn)定性、數(shù)據(jù)庫、RAM)
6、計算關(guān)稅系數(shù),作為性能和價格之間的平衡。
7、根據(jù)其特點和價格選擇較佳實例類型
上面描述的過程是降維技術(shù)的一個很好的例子,因為我們沒有包含系統(tǒng)的所有特征,而是包含了可以被認為是結(jié)果“有代表性”的折疊信息。
人工標記評價與自動化
該項目涉及人類標簽的評估,這是目前數(shù)據(jù)科學中的一項艱巨任務。我們須找到較好的方法來評估人類標簽的質(zhì)量。有了關(guān)于個人和法律實體的數(shù)據(jù),我們應該將其分為三類,進行分析,找出具體的標簽,并預測標簽的準確性。
我們根據(jù)特定的特征設置人體動作標簽,構(gòu)建分類器,并對這些標簽的質(zhì)量進行評價。如果沒有用戶作為變量來劃分類幾乎是不可能的,因為它們根據(jù)特征和標簽彼此太近了。我們將用戶作為一個變量,然后人類行為標簽依賴于這個人。通過在算法中添加一個人,我們可以獲得較好的結(jié)果。重要的是數(shù)據(jù)應該是獨立的,這意味著它不應該與對標簽感興趣的人有關(guān)系。因此,我們得出結(jié)論,沒有正確的方法來進行分類任務,較好使用原始數(shù)據(jù)。
其實任何商業(yè)案例都沒有完好的途徑。而無人監(jiān)測的機器學習只是獲得預期結(jié)果的工具。如果您確信它滿足您的業(yè)務需求,它將運行良好。
要點:
1、沒有自動監(jiān)測的機器學習仍然需要高質(zhì)量的數(shù)據(jù)處理,盡管沒有標記。
2、適當?shù)臄?shù)據(jù)準備方法通過提高數(shù)據(jù)的準確性來驅(qū)動“正確”的業(yè)務洞察力。
3、不受監(jiān)測的機器學習算法應該根據(jù)特定的業(yè)務案例來選擇,而不是取決于特定方法的流行程度。
4、數(shù)據(jù)科學的目標機器學習咨詢是解決商業(yè)問題,而不是數(shù)據(jù)科學問題。