交易所DEX+

ETHFI 狂歡盛典

本重複研究檢視軟體測試人員的意見——例如偏好的技術、感知的複雜度以及自我評估的表現——是否影響他們的本重複研究檢視軟體測試人員的意見——例如偏好的技術、感知的複雜度以及自我評估的表現——是否影響他們的

軟體測試認知與有效性的複製研究

作者：Hackernoon

來源：Hackernoon

2025/12/18 04:00

連結目錄

摘要

1 引言

2 原始研究:研究問題與方法論

3 原始研究:效度威脅

4 原始研究:結果

5 重複研究:研究問題與方法論

6 重複研究:效度威脅

7 重複研究:結果

8 討論

9 相關研究

10 結論與參考文獻

5 重複研究:研究問題與方法論

我們決定進一步探討原始研究的結果,以尋找誤解背後可能的驅動因素。心理學認為人們的感知會受到個人特徵的影響,如態度、個人興趣和期望。因此,我們決定透過進行原始研究[47]的差異化重複來檢視參與者的意見,並擴展其目標如下:

有效性感知的調查擴展為包含程式相關問題。
我們想了解參與者的感知是否可能受其意見影響。更確切地說:他們的偏好(最喜歡的技術)、他們的表現(他們認為自己應用得最好的技術)以及技術或程式複雜度(他們認為最容易應用的技術,或最簡單的待測試程式)。

\ 因此,重複研究重新檢視原始研究中陳述的RQ1(這次參與者的調查也包含有關程式的問題),並提出以下新的研究問題:

– RQ1.6:參與者的感知與參與者回報的缺陷數量是否相關? 我們想評估參與者是否將回報最多缺陷的技術視為最有效的技術。

– RQ2:參與者的意見能否用作測試有效性的預測因子?

– RQ2.1:參與者對技術和程式的意見為何? 我們想了解參與者對技術或程式是否有不同意見。

– RQ2.2:參與者的意見是否能預測其有效性? 我們想評估參與者對技術(或程式)的意見是否能預測哪一個對他們最有效。

– RQ3:參與者的感知與意見之間是否存在關聯?

– RQ3.1:參與者的感知與意見之間是否存在關聯? 我們想評估參與者對技術(或程式)的意見是否與其感知相關。

– RQ3.2:參與者的意見之間是否存在關聯? 我們想評估參與者對技術的某種意見是否與其他意見相關。

\ 為了回答這些問題,我們在下一學年度與同一課程的學生重複原始研究。這次我們有46名學生。對實驗重複所做的變更如下:– 參與者在實驗結束時需完成的問卷擴展為包含新問題。我們想透過意見問題擷取的資訊為:– 參與者在技術上的表現。這個問題是指流程符合性。最佳應用技術是每位參與者認為自己應用得最徹底的技術。對應於OT1:您應用得最好的技術是哪一個?

\ – 參與者偏好。 我們想了解每位參與者最喜歡的技術。即他/她在應用時感到最舒適的技術。對應於OT2:您最喜歡哪一個技術?

– 技術複雜度。 我們想了解每位參與者認為最容易獲得流程符合性的技術。對應於OT3:哪一個技術最容易應用?

\ – 程式可測試性。我們想了解哪一個程式更容易測試。即更容易獲得流程符合性的程式。對應於OP1:哪一個是最簡單的程式?表16總結了調查問題。我們選擇這些問題是因為我們需要提出簡單的問題,讓參與者容易理解,同時具有意義。我們不想用包含大量解釋的複雜問題讓參與者感到困擾。複雜的問卷可能會讓學生不願提交。

\ – 程式錯誤已變更。 原始研究的設計使所有技術都能有效找到所有注入的缺陷。我們選擇所有技術都能偵測到的錯誤,以便公平地比較技術。重複研究的設計涵蓋某些錯誤無法被所有技術偵測到的情況。因此,我們注入一些技術無法有效偵測的錯誤。例如,BT無法偵測到未實作的功能(因為參與者被要求僅從原始碼生成測試案例)。同樣地,

EP無法找到偵測依賴於兩個無效等價類組合的錯誤。因此,在重複研究中,我們在每個程式中注入一些BT可以偵測但EP無法偵測的錯誤,以及一些EP可以偵測但BT無法偵測的錯誤(每個程式植入六個錯誤)。請注意設計是平衡的:我們注入相同數量的BT可以偵測但EP不能偵測的錯誤,以及相反的情況──EP可以偵測但BT不能偵測。這一變更預期會影響EP和BT的有效性,可能會低於原始研究。它不應影響CR的有效性。

– 我們變更程式應用順序以進一步研究成熟度問題。順序現在是:cmdline、ntree、nametbl。此變更不應影響結果。

– 參與者執行自己的測試案例。原始研究中獲得的誤解可能是由於參與者未執行自己的測試案例所致。

– 不再有兩個版本而是一個。錯誤和失敗不是本研究的目標。這有助於簡化實驗。表17顯示對研究所做變更的摘要。

為了測量技術有效性,我們採用與原始研究相同的方式進行。我們不依賴回報的失敗,因為參與者可能:

回報誤報(非真實失敗)。
多次回報相同的失敗(儘管他們被要求不要這樣做)。
遺漏對應於技術已執行但因某些原因未被發現的錯誤的失敗。

我們透過計算每位參與者回報的錯誤/失敗數量來測量新的反應變數(回報的缺陷)。我們以與RQ1.1相同的方式分析RQ2.1,並以類似RQ1.2的方式分析RQ1.6、RQ2.2、RQ3.1和RQ3.2。表18總結了用於回答每個研究問題的統計測試。

6 重複研究:效度威脅

原始研究中列出的效度威脅適用於此重複研究。此外,我們還識別出以下威脅:

6.1 結論效度

處理實施的可靠性。重複實驗由執行原始實驗的相同研究人員進行。這確保了兩組參與者不會以不同方式實施處理。

6.2 內部效度

1. 評估焦慮。使用學生並將其在實驗中的表現與課程成績關聯,可能解釋了參與者認為是其表現而非技術弱點解釋了技術的有效性。

6.3 建構效度

效果建構的操作前解釋不足。由於意見是難以操作化的建構,因此問卷中出現的問題可能不會被參與者按照我們的預期方式解釋。6.4 外部效度
結果的可重現性。此處獲得的結果在多大程度上可重現尚不清楚。因此,需要更多研究的重複。

\ 應遵循的步驟為:

(a) 重複研究,擷取參與者給出答案的原因。

(b) 與具有本研究中使用的學生相同特徵的從業人員進行研究(很少或沒有軟體測試經驗的人)。

(c) 探索並定義哪些類型的經驗可能影響結果(學術、專業、程式設計、測試等)。

(d) 考慮逐漸增加的經驗水準進行新研究。

\ 再次強調,在影響重複研究的所有威脅中,唯一可能影響本研究在工業環境中結果效度的威脅是與推廣到其他受試者類型相關的威脅。

:::info 作者:

Sira Vegas
Patricia Riofr´ıo
Esperanza Marcos
Natalia Juristo

:::

:::info 本論文可在arxiv上取得,採用CC BY-NC-ND 4.0授權。

:::

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。