第50屆國際著名數(shù)據(jù)庫會議VLDB(Very Large Data Base Conference)于2024年8月26日至30日在中國廣州舉辦。VLDB是數(shù)據(jù)科學(xué)和工程領(lǐng)域最具影響力的國際學(xué)術(shù)會議之一,其聚焦于大規(guī)模數(shù)據(jù)管理,同時也涵蓋了機器學(xué)習(xí)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析、人工智能應(yīng)用等多個前沿領(lǐng)域。華為云可用性工程Lab與華東師范大學(xué)、丹麥奧爾堡大學(xué)聯(lián)合發(fā)表時間序列預(yù)測benchmark論文,聚焦全面公正的時間序列預(yù)測算法評價。該論文獲得了VLDB 2024最佳論文提名。

摘要:
時間序列出現(xiàn)在經(jīng)濟、交通、健康和能源等多個領(lǐng)域,對未來值的預(yù)測具有許多重要應(yīng)用。因此,人們提出了許多預(yù)測方法。為了推動研究領(lǐng)域的發(fā)展,有必要以全面和可靠的方式對這些方法進行研究和比較。為了實現(xiàn)這一目標,我們提出了TFB,這是一個用于時間序列預(yù)測方法的自動化基準。TFB通過解決與數(shù)據(jù)集、比較方法和評估流程相關(guān)的缺陷來推動最新技術(shù)的發(fā)展:1)數(shù)據(jù)領(lǐng)域覆蓋不足,2)對傳統(tǒng)方法的陳規(guī)偏見,3)流程不一致且不靈活。為了獲得更好的數(shù)據(jù)集的領(lǐng)域覆蓋率,我們包括來自10個不同領(lǐng)域的數(shù)據(jù)集:交通、電力、能源、環(huán)境、自然、經(jīng)濟、股票市場、銀行、健康和網(wǎng)絡(luò)。我們還提供了時間序列特征化,以確保所選數(shù)據(jù)集是全面的。為了消除對某些方法的偏見,我們包括了各種方法,包括統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)和深度學(xué)習(xí)方法,并支持多種評估策略和指標,以確保對不同方法進行更全面的評估。為了支持不同方法集成到基準中并實現(xiàn)公平比較,TFB具有靈活和可擴展的流程,消除了偏見。接下來,我們利用TFB對21種單變量時間序列預(yù)測方法在8,068個單變量時間序列上進行了評估,并在25個數(shù)據(jù)集上對14種多變量時間序列預(yù)測方法進行了評估。評估結(jié)果深入分析了預(yù)測方法,使我們能夠更好地選擇適合特定數(shù)據(jù)集和設(shè)置的方法。總體而言,TFB為研究人員提供了開發(fā)新的時間序列預(yù)測方法的手段?;鶞蚀a和數(shù)據(jù)請訪問 https://github.com/decisionintelligence/TFB。
背景:
隨著數(shù)字化進程的不斷推進,時間序列出現(xiàn)在經(jīng)濟、交通、健康、能源和物聯(lián)網(wǎng)等各個領(lǐng)域。隨著針對不同數(shù)據(jù)集和設(shè)置提出越來越多的方法,對方法的公平和全面的評估的需求也日益增加。為了實現(xiàn)這一目標,我們識別并解決了現(xiàn)有評估框架中的三個問題,從而提高了我們的評估能力:
問題1. 數(shù)據(jù)領(lǐng)域覆蓋不足。傳統(tǒng)時序預(yù)測基準數(shù)據(jù)集中數(shù)據(jù)來源領(lǐng)域覆蓋不足。
問題2. 對傳統(tǒng)方法的刻板影響。許多新的基準測試往往忽略了經(jīng)典的預(yù)測算法,如線性回歸預(yù)測,但是實驗證明仍然存在許多場景,其中經(jīng)典的預(yù)測方法效果優(yōu)于SOTA模型。
問題3. 缺乏一致和靈活的流程。不同方法的性能隨著實驗設(shè)置的變化而變化,例如,在訓(xùn)練/驗證/測試數(shù)據(jù)之間的劃分、歸一化方法的選擇和超參數(shù)設(shè)置的選擇。這影響了我們比較不同論文中的結(jié)果。
論文亮點:
- 根據(jù)數(shù)據(jù)集特征分類方法進行全面的數(shù)據(jù)集收集(解決問題1):收集的數(shù)據(jù)集提供了多樣化的特征,涵蓋了來自多個領(lǐng)域和復(fù)雜設(shè)置的時間序列。這有助于確保更加健壯和廣泛的評估。

圖1: TFB較其他基準數(shù)據(jù)集覆蓋的數(shù)據(jù)領(lǐng)域更多

圖2: TFB較其他基準數(shù)據(jù)集對數(shù)據(jù)特征的覆蓋更加完整
- 廣泛覆蓋現(xiàn)有方法并擴展對評估策略和指標的支持(解決問題2):TFB涵蓋了各種方法,包括統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)和深度學(xué)習(xí)方法,配備了各種評估策略和指標。這種豐富性使得能夠更全面地評估各種方法和評估設(shè)置。

圖3:可靈活增加的多種預(yù)測策略

圖4:包括經(jīng)典算法在內(nèi)的豐富對比算法
- 靈活和可擴展的流程(解決問題3):TFB通過其設(shè)計提高了方法比較的公平性。方法使用統(tǒng)一的流程進行評估,采用一致和標準化的評估策略和數(shù)據(jù)集,消除了偏見,使得性能比較更加準確。這使得能夠更公平和有意義地得出關(guān)于方法有效性和效率的結(jié)論。

圖5:TFB評價pipeline
總結(jié):
時間序列預(yù)測技術(shù)在多個領(lǐng)域內(nèi)有著廣泛的應(yīng)用,在云計算中,它常常被用于故障預(yù)測、需求預(yù)測、財經(jīng)預(yù)測等多種場景。而現(xiàn)有的預(yù)測方法種類繁多,難以公平地評價其在不同場景下的性能,進而難以針對特定場景選擇合適的算法。
TFB基準的提出為時間序列預(yù)測方法的評估提供了更可靠、全面和用戶友好的工具。通過覆蓋多個領(lǐng)域的數(shù)據(jù)集、支持多種預(yù)測方法以及提供統(tǒng)一的評估流程,TFB有望推動時間序列預(yù)測領(lǐng)域的進一步發(fā)展,為研究人員提供更好的方法設(shè)計和選擇依據(jù)。
原文鏈接:https://arxiv.org/pdf/2403.20150
代碼倉鏈接:https://github.com/decisionintelligence/TFB