Поредећи са другим областима психологије, експериментална психологија би се могла описати као релативно јасна и дефинисана дисциплина. Са друге стране, посебно уколико имамо у виду пратећи асортиман процедура и елемената експерименталне психологије као што су: организација испитаника у групе и узорке, експериментална контрола, статистичка анализа, емпиријске и теоријске импликације, можемо доћи до закључка да та дисциплина спада међу најсложеније у свету науке. Релативно једноставна и истовремено егзактна методологија коју користе експериментални психолози могла би се описати кроз три основне алтернативне тежње:
1) Поставити релевантан фактор у контролисаним условима (лабораторији) и мерити његов ефекат на психолошки процес, феномен или акцију испитаника;
2) Формирати групу субјеката са релативно јасно израженим карактеристикама у настојању да се измере њихове психолошке манифестације како би се касније упоређивале са мерама добијеним у контролној групи субјеката и
3) Посматрање феномена у природним условима уз мерење психолошких карактеристика.
Уобичајени почетак истраживачког поступка, који налазимо готово код сваког експерименталног истраживања јесте постављање хипотезе која настаје на основу резултата објављених у оквиру претходних истраживања, било других аутора, било аутора новог експеримента. Кроз специфичну манипулацију условима (варирање експерименталних фактора за које се претпоставља да узрокују промене у понашању), експериментатор успоставља контролу кроз манипулацију варијаблама, спроводи експерименталну процедуру, прикупља и анализира податке и на крају изводи закључке. Разлика између релативно једноставних и компликованих експеримената не састоји се у почетној парадигми већ пре у броју фактора и њиховој контроли. Идеја која стоји у основи свих експерименталних истраживања сводива је на неколико основних принципа: хипотеза – експериментални нацрт—спровођење експерименталне процедуре – прикупљање података—извођење закључака.
Када се наглашава да је логика коју користи експериментална психологија релативно једноставна мисли се на случај када се један фактор (променљива, варијабла) варира, тј. када се њоме манипулише, док се остали фактори посредством у различитој мери доступних техника контроле држе константним. Као што је познато, варијабла којом се манипулише назива се независна, док се ефекат који она изазива на процесе или понашање учесника експеримента назива зависна варијабла. По устаљеном поступку, једна група субјеката добија неку врсту третмана (дејство независне варијабле) док друга, контролна група, не пролази кроз дејство независне варијабле тј. третмана. Иза оваквог поступка стоји идеја о контроли варијабли, кроз манипулацију или кроз држање њиховог дејства константним, како би успостављањем контроле и контраста између група, чиниоци понашања постали видљивији.
Најшире гледано, у оквиру експерименталне психологије разликују се два типа независних варијабли. Први тип срећемо у ситуацијама када експериментатор систематски манипулише варијаблом, мењајући на пример њен интензитет, била то стимулација у неком психофизичком експерименту или калоријска вредност хране, као вид поткрепљивања у експерименту у којем се испитује неки вид учења. Други тип се углавном своди на случајеве када је независна варијабла селективна, тј. на ситуације у којима експериментатор прави избор субјеката који ће бити изложени одређеном експерименталном третману.
Манипулација независном варијаблом може се илустровати кроз пример експеримента који је настојао да одговори на питање да ли се значајнији напредак у савладавању одређених вештина остварује кроз континуирано, концентрисано учење (енгл. massed practice) или се то пре постиже применом тзв. учења у интервалима, расподељеним учењем (енгл. distributed practice). Често коришћен пример и веома цитиран чланак посвећен овом проблему је чланак Лоржа (Lorge, 1930). У овом експерименту примењен је задатак у којем субјект репродукује одређену геометријску форму, али том приликом фигуру, као и своју руку може да види само у обрнутој слици, у огледалу. Постојале су три групе испитаника у оквиру којих је сваки испитаник направио по 20 репродукција. У првој групи, субјекти су направили све репродукције сукцесивно, без прекида. Друга група је после сваке репродукције имала једноминутну паузу, док је трећа група имала паузу од 24 сата после сваке репродукције. Индикатор успеха задатка било је време неопходно за комплетирање фигуре: што је време краће, извођење се сматра бољим. Резултати Лоржовог експеримента су показали да је најбоље постигнуће имала група која је имала 24 сата паузе између репродукција, као и то да је група која је имала једноминутну паузу била боља у поређењу са групом која је континуирано репродуковала задану фигуру. Резултати приказаног експеримента јасно говоре у прилог тези да је за овакав тип учења дистрибуирано учење ефикасније од континуираног.
У описаном примеру наилазимо на независну варијаблу која је по својој природи манипулативна и квантитативна. Реч је о паузи између излагања и репродукције фигуре, коју је експериментатор варирао на два нивоа: један минут и један дан. Зависна варијабла је по својој природи такође квантитативна јер се радило о времену које је било потребно за комплетирање репродукције. Експериментатор је све друге факторе као што су: врста стандардне дражи (фигура коју је требало прецртати) и број репродукција држао константним. Другим речима, сви субјекти су имали исте услове приликом извођења задатка прецртавања обрнуте слике.
У различитим експерименталним истраживањима могуће је срести разноврсне независне варијабле. То може бити ниво осветљења (светло, тамно), ниво буке (низак, средњи, висок) тежина задатка (лак, тежак), лексикалност у задацима лексичке одлуке (псеудоречи и речи) итд. Експериментатори понекада варирају експерименталне услове на тај начин да испитаници у измењеним порецима пролазе кроз различита психолошка стања; присуство насупрот одсуства анксиозности, срећа насупрот несрећи, успешност насупрот неуспешности и сл., што све може представљати манифестацију независне варијабле. Поред тога, независна варијабла може да буде и врста инструкције који експериментатори задају у различитим експерименталним задацима. На пример, инструкција у задацима лексичке одлуке у којима се испитаницима усмерава пажња на природу задатка, упутство у задацима визуелне претраге у којем се указује на то да је неопходно обратити пажњу на одређене карактеристике стимулуса—мете и сл. Слично претходно описаном, тип психолошке интервенције при неком психолошки проблематичном понашању такође може у неком истраживању имати статус независне варијабле. Да закључимо, листа потенцијалних независних варијабли може бити веома дугачка, такорећи бесконачна.
Смислено извођење експеримента захтева да се независна варијабла испољава макар у два облика и на два начина. О тим вредностима независне варијабле, које се називају и нивои, у зависности од природе варијабле одлучује експериментатор. Сваки третман представља по један ниво независне варијабле, па тако два нивоа захтевају два различита третмана и услова, три нивоа захтевају три, итд. На овом месту није згорег нагласити да приликом планирања експеримента не смемо изједначити нивое варијабле са самом варијаблом. Претпоставимо да желимо да испитамо колико дужина учења неког материјала делује на његово запамћивање. У том циљу могли бисмо различите групе испитаника да изложимо истом материјалу у различитим временским интервалима. Прва група би могла да учи 10, друга група 20 минута. Услед различитих разлога, број нивоа ове варијабле могао би да се прошири формирањем још две групе које би училе исти материјал у трајању од 15, односно 25 минута. Без обзира на продужење и модификацију, у овом примеру постоји само једна независна варијабла, време учења, са четири нивоа: 10, 15, 20 и 25 минута.
Оно што сваког истраживача највише интересује јесте да ли се, потом како и на који начин варирање нивоа независне варијабле одражава на психичке процесе који су предмет испитивања. У том циљу мери се вредност друге варијабле коју називамо зависна варијабла. У литератури се за ову варијаблу могу пронаћи следећи термини: мере, ефекти, исходи и резултати. Мноштво синонима указује на то да се ради о различито операционализованом психолошком процесу или феномену који настојимо да објаснимо. Поред добро осмишљене независне и зависне варијабле, неопходно је обезбедити и јасан начин мерења. Јасан начин мерења подразумева одбацивање општих утисака о дејству третмана и дескриптивног описа ефеката који третман остварује на зависну варијаблу, већ је неопходна објективна, по могућству квантитативна мера описа деловања независне варијабле на зависну. Осим прецизности, предност објективног мерења зависне варијабле огледа се и у томе што омогућава шире разумевање доказаних исхода, као и у чињеници да се примењена мера може изнова мерити, тј. да се тако осмишљен експеримент потенцијално може реплицирати.
Занимљив пример добро осмишљеног експеримента представља експеримент Хеса из 1975. године (Hess, 1975). У свом експерименту Хес је проверавао следећу хипотезу: велике зенице чине људско лице атрактивнијим. Како би проверио ову хипотезу, Хес је узорку мушкарца представио фотографије женског лица и замолио их да их рангирају на различитим скалама процене. Фотографије су били обрађене тако да је женско лице на једној фотографији имало мале, док је на другој фотографији исто лице имало велике зенице. Субјекти су имали задатак да се определе која им жена делује више пријемчиво, пријатељски, која им делује шармантније итд. Независна варијабла у овом експерименту била је величина зенице и она је имала два нивоа, две фотографије лица, једну на којој је лице са малом и другу на којој је лице са великим зеницама. Зависна варијабла је била привлачност. Уколико би се ова хипотеза показала тачном, када су у питању мушкарци, опажена привлачност женског лица требало би да корелира са величином зенице, што је Хес и доказао. Десетак година касније, Нидентал и Кантор су показали да оваква правилност није искључиво везана за женски пол, већ да величина зеница и мушка лица чини привлачнијим (Niedenthal & Cantor, 1986).
Свака независна, као и свака зависна варијабла има две врсте дефиниција: концептуалну дефиницију, коју користимо у свакодневном језику и операционалну дефиницију, коју користимо при планирању и извођењу експеримента. Узмимо за пример варијаблу глад која би могла да се дефинише као непријатно стање изазвано недостатком хране праћено нелагодношћу, грчевима, мучнином и специфичним понашањем. Оваква дефиниција је прилично информативна и сликовита, али са аспекта извођења експеримента у којем би се овако дефинисана варијабла глад морала квантификовати, тј. наведена дефиниција, прилично је неупотребљива. Уместо описа манифестације варијабле, у експерименту о утицају глади на количину запамћеног материјала, глад би могла да се дефинише кроз дужину интервала неузимања хране (нпр. интензитет глади – 185 минута). Дакле, када неку варијаблу операционално дефинишемо, ми заправо прецизирамо њено значење унутар експеримента тј. дефинишемо појаву у оквирима опсервабилних операција, процедура и мерења. На тај начин настојимо јасно да нагласимо улогу и значај поступака које користимо приликом мерења одређених аспеката понашања током извођења експеримента, што омогућава будућим истраживачима да применом истих дефиниција и конструката понове или изведу сличан експеримент у будућности. Детаљи о поступку операционализовања варијабли су драгоцени јер се већина психолошких варијабли, као што су памћење, мишљење, учење, не могу спознати непосредно, већ искључиво посредно применом низа операција, посматрања и мерења. Поред плана извођења експеримента, описи операционализације варијабли могу се наћи и у писаним извештајима, чланцима, што омогућава боље разумевање изведеног експеримента.
Операционалне дефиниције се могу поделити у две веће категорије: експерименталне операционалне дефиниције и операционалне дефиниције мерења. Експерименталне операционалне дефиниције прецизно описују шта је било урађено приликом манипулисања експерименталним условима током трајања експеримента. Размотримо пример експерименталног задатка препознавања речи. Током сачињавања извештаја о примењеној експерименталној процедури неопходно је обезбедити детаљан опис услова извођења експеримента, у овом случају, описа стимулуса:, фонт којим су стимулуси исписани, величину слова изражену у екранским пикселима, као и у јединицама визуелног угла који једно слово заузима на оку субјекта, ниво осветљења у експерименталној соби, дистанцу између субјекта и екрана на којем је стимулус био приказан као и време приказивања итд. Опис стимулације у експериментима из визуелне перцепције могао би бити подједнако детаљан, ако не и подробније приказан. Поред наведених појединости, у експерименталном извештају морале би се наћи и информације о величини појединачних објеката унутар целокупног екрана, информације о палети боја, као и мере појединачних обојених површина на екрану монитора на којем су стимулуси изложени.
Зависне варијабле су по правилу дефинисане операционалним дефиницијама мерења. Ове дефиниције описују примењене процедуре за праћење дејства независне варијабле на понашање испитаника. У оквиру њих се могу наћи описи специфичног индикатора испитаниковог понашања, регистрованих одговора и објашњења како су одговори кодирани, односно трансформисани у мере зависне варијабле. Погледајмо пример задатак визуелног претраживања (енгл. visual search task). У одговарајућем делу одељка о методу неопходно је навести нешто попут следећег: „Задатак испитаника био је да притиском на одговарајући тастер уређаја за прикупљање одговора констатује да ли се претходно дефинисани стимулус – мета (црвена дијагонална линија) налази међу осталим стимулусима или не. Уколико се налази, испитаник је требало да притисне леви а уколико се не налази, десни тастер уређаја за бележење одговора. У ситуацијама када би субјект давао погрешне одговоре или уколико би претраживање трајало дуже од 2000 милисекунди, испитаник би био о томе обавештен, а излагање стимулуса би било поновљено. Такве ситуације би се у матрици података избацивале из анализе времена реакције док би се у матрици одговора исто излагање водило као грешка. Стимулуси су излагани на монитору величине 22 инча са фреквенцијом освежавања екрана од 60 Hz.” Оваквом, релативно детаљним описом примењене процедуре, постижемо довољно прецизан опис експерименталних услова који дозвољава читаоцу да се упозна са већином детаља изведеног експеримента, што му даље омогућава да га реплицира или да у неком од својих будућих експеримената примени описану процедуру.
Многе психолошке појаве које су предмет различитих истраживања не могу се другачије пратити него дефинисањем хипотетичких конструката, тј. целина које се не могу директно спознати нити мерити. Оно што нам у таквим ситуацијама преостаје, јесте да посредно закључујемо преко узорака доступног понашања. Индивидуални пад постигнућа испитаника у неком експерименталном задатку тумачимо дејством одређеног унутрашњег стања, као што је на пример умор, лошије постигнуће врхунског пијанисте или тенисера можемо објаснити недостатком мотивације, заборављање текста позоришног глумца током представе тумачимо анскиозношћу итд. Кроз неколико примера које смо навели, могуће је стећи утисак да је за адекватно објашњење сасвим довољно препознати неко понашање и повезати га са одређеним унутрашњим стањем. То је, наравно, далеко од истине. То можда може представљати први корак, који је, међутим сасвим безвредан без адекватне операционалне дефиниције.
Операционално дефинисање психолошких конструката поред осталог одликује и могућност различитих ефеката који остављају на понашање у зависности од операционалне дефиниције појма. Конструкти као што су, рецимо, ефикасност неке когнитивне операције, као што је лексичка обрада речи могу бити различито дефинисани и давати другачије ефекте. У таквим експерименталним процедурама, зависна варијабла је најчешће време које је неопходно за одлуку о томе да ли неки вербални стимулус (сложај) има значење или нема, што даље значи да би краће време реаговања истовремено значило и ефикаснију когнитивну обраду. У неком другом контексту, ефикасност би могла да се дефинише посредством пропорције тачних и нетачних одговора, независно од брзине. Слично је и са нешто сложенијим целинама, психолошким конструктима као што су меморијски домени. Домен оперативне меморије, прецизније једна од његових важних одлика, капацитет, може бити операционализован на различите начине. То се може учинити на основу количине материјала којим је могуће оперисати као што је то чинио Милер (Miller, 1956) или на основу утврђеног времена у коме се материјал задржава у оквиру домена, као што су то урадили Петерсонови креирањем теорије губљења трага (Peterson & Peterson, 1959). Слично наведеном, операционална дефиниција конструкта неопходна је и случају независне варијабле. Сетимо се дефинишућег експеримента Сперлинга који је постао основа за конструисање домена иконичке меморије. Сперлинг је у серији експеримената користио различите услове мерења успешности репродукције материјала изложеног у рестриктивним условима, у времену излагања од 50 милисекунди. Његова студија састоји се из три експеримента. У првом експерименту, примењена је процедура тзв. потпуног извештаја (енгл. full report), која је подразумевала неселективну репродукцију свега чега је испитаник може да се сети. У другом и трећем експерименту, Сперлинг мења процедуру увођењем звучног индикатора (три тона различите висине који претходе матрици слова) којим испитаницима указује на ред елемената који је потребно репродуковати. Овај поступак назива се задатак делимичног извештаја (енгл. partial report). За референтну тачку, Сперлинг је у трећем експерименту, искористио постигнуће у задацима потпуног извештаја на основу којег је установио време задржавања материјала у сензорној, визуелној меморији (Sperling, 1960). Дефиниције делимичног и потпуног извештаја у овако осмишљеним експерименталним процедурама представљају примере операционално дефинисаних услова излагања визуелне стимулације који омогућавају објашњење механизама који владају унутар домена иконичке меморије.
Када су у питању психолошки конструкти, пре свега због своје недоступности, разумљива је потреба за методолошком јасноћом коју налаже њихово операционално дефинисање. Међутим, ствари не стоје ни мало другачије када су у питању варијабле које се могу непосредније пратити. У једном експерименту, испитивано је дејство светлости на понашање новорођених беба (Irwin & Weiss, 1934). Истраживачи су проверавали хипотезу о томе да ли новорођене бебе више плачу у осветљенијим просторијама. У том циљу праћено је понашање беба у тзв. „мрачним“ и у „светлим“ собама. Да би се такво поређење извело методолошки коректно, неопходно је претходно дефинисати шта се подразумева под мрачним и светлим собама у којима се прати понашање субјеката (беба). Да ли је довољно рећи да су биле спуштене ролетне, да ли је поред тога ипак неко светло продирало у собу, да ли се ради о дневном или вештачком светлу итд. Идеално би било измерити количину светлости у обе собе коришћењем фотометра. Слично је и са зависном варијаблом. Да ли се спорадични плач третирао као плакање или се под плакањем подразумевао континуиран плач током одређеног временског периода? Да ли се цвиљење сматрало плакањем или је било неопходно да глас достигне неки унапред одређен, критични интензитет? О свим питањима ове врсте неопходно је размишљати пре започињања експерименталног истраживања.
Како знамо да су наше дефиниције поуздане? Добре дефиниције то јесу. Одговор се налази у степену конзистентности са будућим мерама које даје исто дефинисана варијабла. Другим речима, уколико исте дефиниције примењујемо у више различитих експеримената, требало би да очекујемо сличне резултате. Ово јасно важи за примену стандардизованих тестова али када су експерименталне процедуре у питању, пожељно је да су прецизно и једноставно дефинисане. Што су прецизније дефинисане, утолико су поузданије. У сврху провере поузданости на располагању стоје нам следеће методе: поузданост на основу интерсубјективне сагласности, тест ретест метод и поузданост преко интерне конзистентности.
Поузданост на основу интерсубјективне сагласности се своди на процењивање узорка неког понашања од стране више особа, посматрача. Замислимо да се истражује врста дечје интеракције и квалитет игре после емитовања филма одређеног садржаја. Понашање деце може да се сврстава у категорије које су унапред припремљене од стране више посматрача. Након фазе прикупљања података, опсервације различитих посматрача међусобно се пореде, статистички обрађују и дискутују кроз тзв. коефицијент поузданости који је сводив на коефицијент корелације. Поузданост мера се може проверити и упоређивањем мера утврђеним у два наврата. Прво мерење обично називамо тест, а друго ретест. Исти субјекти пролазе кроз обе ситуације мерења. Виши коефицијент корелације између тест и ретест фазе говори о већем степену поузданости процедуре тј. мерења. Трећи начин провере поузданости дефиниције или конструкта више се односи на мере које се утврђују тзв. „папир оловка тестовима“, мада се може применити и на неке експерименталне процедуре. Срж поступка састоји се у упоређивању различитих делова мерног инструмента којим се утврђује вредност исте варијабле. Вредности утврђене на различитим деловима мерног инструмента предодређених да мере исти конструкт, требало би да буду високо повезане (корелиране). Од статистичких техника које се примењују у ове сврхе најчешће се користи поузданост половина, (енгл. splithalf reliability) и статистички тест Кронбахова алфа.
Други важан проблем који са собом повлачи коришћење операционалних дефиниција јесте питање њихове валидности. Валидност у контексту експерименталних истраживања значи одговор на питање да ли процедура коју користимо обезбеђује меру која заиста мери оно што ми верујемо да мери. Ово питање се може поставити за сваки конструкт који се операционално дефинише преко различитих зависних варијабли. У оквиру психолингвистичких истраживања широко је прихваћено уверење да задатак лексичке одлуке утврђује ефикасност когнитивне обраде појединачно приказаних речи. Време реаговања (зависна варијабла у задатку) пропорционална је ефикасности когнитивне обраде речи. Другим речима, што је време реакције краће утолико је обрада бржа, ефикаснија. Оправдано је поставити питање да ли је време реакције у задатку лексичке одлуке валидна мера когнитивног функционисања? Одговор на ово питање могао би се добити када би се ефикасност когнитивне обраде процењивала кроз неки други експериментални задатак, на пример задатак именовања речи (енгл. naming task) и упоредила са мерама утврђеним у задацима лексичке одлуке. Без обзира што због тога што нису обавезне па се често опажају као тешкоћа, студије валидности представљају најбољи начин утврђивања одговарајуће експерименталне процедуре што је од великог значаја за развој одређене дисциплине. Са друге стране, у неким експерименталним истраживањима неопходно је навести доказе валидности одређене експерименталне манипулације. У циљу обављања валидности студије примењује се неки од следећих поступака: појавна валидност (енгл. face validity), садржајна валидност (енгл. content validity), предикторска валидност (енгл. predictive validity), спољна валидност (енгл. concurrent validity) и конструкт валидност (енгл. construct validity).
Валидност операционално дефинисаних појмова најлакше је установити код варијабли које се релативно непосредно могу манипулисати и мерити. Погледајмо пример независне варијаблу у психолингвистичком експерименту која се односи на дужину речи. Дужина речи је дефинисана бројем слова. Другим речима, није неопходно образлагати како се дошло до њених вредности. Подразумева се да је експериментатор простим пребројавањем слова коректно утврдио просечну дужину појединачног стимулуса у експерименту. Појавну валидност карактерише директан увид у стимулусе који описују експерименталне услове. Примери таквих стимулуса су: дужина речи, димензија визуелних целина, количина информације коју носи извесни дигитални запис, интензитет неке стимулације попут звука и сл. Слично важи и за зависне варијабле. Многе психолошке вредности варијабли захтевају неку врсту индиректног мерења, па је појавна валидност теже и ређе остварива. На пример, време реакције, као зависна варијабла се може регистровати и при мерењу ставова. Иако није очигледно, време реаговања у задацима суђења је краће када су у питању судови доношени у вези са објектима који су нам познати (Fazio, 1990).
Када процењујемо контекст валидност постављамо питања о томе да ли садржај наше мере верно одражава садржај квалитета феномена који меримо? Да ли су нашим мерама сви аспекти садржаја појаве коју посматрамо адекватно представљени? Добар пример за ову врсту валидности представља испитна ситуација у којој се понекад налазе студенти питајући се да ли је можда професор у испит укључио целине које није предавао, јер су убеђени да је испит био засићен питањима из области које они нису спремали. Студенти и професори се, мада се то релативно ретко дешава, могу наћи у ситуацији да различито опажају да ли тест знања верно одражава садржај предмета који је био изложен на предавањима. Степен контекст валидности зависи од природе варијабле коју намеравамо да меримо. Што је варијабла специфичније одређена утолико степен њене контекст валидности бити виши. Упоредимо две мере различите природе: релативно је лако одредити жељену телесну масу, измерити дужину неког објекта, време које је потребно за неку моторичку радњу и сл., без бриге о томе да ли ће мера бити довољно контекстуално валидна. Са друге стране, ствари стоје сасвим другачије када су питању мере са којима се психолози много чешће сусрећу, као што су: емоције, ставови, црте личности и сл. Понекада тешкоће у постизању вишег степена контекст валидности представљају и објективне околности које не зависе од истраживача. Добри примери високог степена валидности могу бити тестови (показатељи) који мере спремност анти терористичких јединица полиције или борбене готовости војних снага, који тешко постижу висок ниво контекст валидности јер се најчешће спроводе на симулацијама, у редовним, мирнодопским условима.
Када проучавамо предикторску валидност интересујемо се за проблем да ли наше експерименталне процедуре обезбеђују довољно информативне мере да би смо на основу њих били у могућности да предвидимо будуће понашање испитаника или њихову успешност. Уколико је наша мера валидна, тј. уколико мери оно што треба да мери, треба очекивати да задовољава и ову, предиктивну, врсту валидности. У класичним психометријским студијама суштина овог проблема представљена је кроз однос критеријумске и предиктор варијабле, као што је рецимо предвиђање успеха на пријемном испиту и успеха на студијама. У експерименталним истраживањима могуће је мерити различите способности манипулације и осетљивости на стимулусе (информације) различите природе. Могуће је пратити позорност у задацима детекције сигнала, успешност у визуелној дискриминацији, осетљивост на дражи различитог интензитета, флуктуацију пажње и слично. Испоставља се значајним питање да ли се мере установљене оваквим процедурама могу користити у предвиђању успешности испитаника на неком послу који захтева сличну врсту способности, као што је контрола лета, диспечер у контролном центру и слично?
При размишљању о валидности мера могу се стећи одређени увиди кроз питање колико се мере установљене у једној експерименталној процедури разликују од мера добијених применом неке друге, алтернативне процедуре. Оваква врста валидности, који утврђујемо упоређивањем постојећих резултата са резултатима установљеним другим тестом или процедуром називамо спољна валидност. Уколико се поређењем различитих мера установи висок степен међусобне корелације, може се констатовати да је постигнут завидан степен валидности.
Ипак, најважнијом врстом валидности сматра се конструкт валидност. Конструкт валидност адресира проблем мера стечених одговарајућом процедуром или тестом у оквиру теоријског оквира у којем је феномен смештен. Један од начина да се тако нешто утврди јесте да се резултати мерења упореде са очекиваним трендовима другачијих теоријских концепција. У психологији способности, овакав проблем сусрећемо код психометријских студија интелигенције, када се квалитет неког теста способности процењује кроз питање да ли тај тест мери искључиво интелигенцију или је осетљив на извесне елементе културе или мотивације. Најчешће навођен пример невербалног теста без утицаја културних садржаја (енгл. culture free) јесу чувене Равенове прогресивне матрице.
До сада смо разматрали проблеме који се дотичу поузданости и валидности појединачних варијабли и њихових операционалних дефиниција мањих целина истраживања као што су варијабле, њихова операционална дефинисаност, поузданост и валидност. У циљу извођења доброг експерименталног истраживања неопходна нам је глобална процена која би нас довела до увида у то да ли је експеримент у целини валидан? Валидност експеримента се обезбеђује применом поступка интерне и екстерне валидације.
Шта чини један експеримент интерно валидним? Укратко, експеримент достиже ниво интерне валидности уколико можемо са сигурношћу да тврдимо да се промене у понашању, тј. у вредности наших зависних варијабли могу приписати варирању експерименталних услова, дејству третмана тј. варирању вредности независних варијабли. Уколико се појава коју смо испитивали може објаснити неким другим факторима а не онима који су обухваћени експериментом, експеримент није интерно валидан. Констатација о недовољној интерној валидности експеримента значајно ограничава могућност генерализације резултата. Постоје три концепта који се уско везују за проблем интерне валидности: спољне варијабле, конфундација као и различити чиниоци који утичу на смањену интерну валидност експеримента (енгл. threats to internal validity).
Систем варијабли у оквиру којег изводимо експериментално истраживање сачињава се тако да се обезбеде што чистије и што доступније везе између две класе варијабли или две класе појава: експерименталних услова и понашања. Ова веза се остварује различитим поступцима који се који се једним именом називају технике контроле спољних варијабли. Спољне варијабле се називају тако јер делују споља, ван оквира истраживања и ван експерименталне контроле истраживача. Њихово дејство је најблаже речено непожељно јер везу између варијабли чине мање јасном и на тај начин смањују валидност резултата експеримента. Спољне варијабле могу бити релативно лако уочљиве и предвидљиве, као што су: доба дана у којем се изводи експеримент, степен умора и ентузијазма експериментатора, варијабле околине попут буке, осветљења, температуре и сл. Ипак, њихово деловање је често прикривено, посебно када се ради о спољним варијаблама као што су интерперсоналне разлике међу испитаницима, нефункционисање уређаја и опреме за извођење процедуре или прикупљање података, неконзистентне инструкције експериментатора итд.
У добром осмишљеном и контролисаном експерименту трудимо се да препознамо спољне варијабле и примењујемо технике њихове контроле. Ипак и поред свог уложеног труда истраживача неретко се дешава да нека спољна варијабла пробије контролу и маскира или онемогућава варирање независних варијабли. Посебно је деликатна ситуација у којој спољна варијабла делује систематично уз дејство независне варијабле. Њихов однос је корелиран, другим речима, промене у деловању спољне варијабле систематично прате деловање независне варијабле, промене у експерименталним условима те је услед тога немогуће разлучити њихова дејства. Оваква појава се још назива и конфундација. Деловање конфундирајућих варијабли потпуно саботира експериментални задатак, уништава његову интерну валидност па се стога сматра да је идентификација потенцијалних конфундирајућих варијабли један од основних задатака експерименталне контроле.
У својој студији са краја шездесетих година прошлог века, психолог Доналд Кемпбел је идентификовао осам чиниоца који могу утицати на степен интерне валидности психолошких експеримената (Campbell, 1957; Campbell & Stanley, 1966; Cook & Campbell, 1979). Ови чиниоци су збирно названи класичне претње интерне валидности, и могу се препознати осим у експерименталним, тако и у не експерименталним и квази експерименталним истраживањима.
Прва претња се у литератури назива историја (енгл. history) и кратко речено, односи се на претходна збивања која могу да делују на резултате мерења. Под историјом се подразумева деловање било каквог чиниоца различитог од ефекта независне варијабле пре започињања експеримента или у току експерименталног третмана али пре регистровања вредности зависних варијабли. Уколико по завршеном експерименту добијене мере одступају од очекиваних требало би да се запитамо да ли се догодио неки неочекиван догађај и да ли је он могао имати ефекта на независну варијаблу? У нацртима са сукцесивним мерењима(енгл. prepost test design) деловање овог фактора чешће сусрећемо у ситуацијама када се праћена појава истовремено мери код више испитаника. Замислимо истраживање у којем се испитује повезаност уношења врсте хране која се уноси и нивоа шећера у крви. После деловања третмана могуће је установити да је код неких субјеката тај ниво значајно виши у односу на групни просек. Разлог не мора лежати ни у чему другом него у баналној чињеници да нису сви субјекти ручали у исто време, што се неминовно одразило и на време разградње шећера. Узрок промене нивоа шећера не може се дакле приписати ефектима третмана, већ спољашњем чиниоцу (протеклом времену од последњег оброка) који претходи самој процедури мерења.
Понекад се физичке а каткад и психолошке карактеристике током трајања експеримента могу до те мере променити да могу значајно утицати на појаву коју истражујемо. Овај чинилац се назива сазревање или матурација (енгл. maturing). Најчешће се среће у лонгитудиналним студијама тј. експериментима са нацртом непоновљеним по субјектима у оквиру истраживања различитих феномена које проучава развојна или педагошка психологија. Дејство матурације није ограничено само на ефекте сазревања, (физичког или когнитивног развоја), већ обухвата и деловање досаде или замора услед продуженог трајања експерименталне сеансе. На крају у неким ситуацијама матурација може бити последица професионалног развоја. Добар пример за то могли би бити најчешћи субјекти у психолошким експериментима, студенти прве године психологије. Током трајања наставе, усвајањем нових знања субјекти бивају све мање наивни, како на садржинском, тако и на методолошком нивоу па са протоком времена тј. одмицањем семестра расте и вероватноћа да исправно предвиде истраживачке хипотезе које се експериментално проверавају чиме се смањује поузданост прикупљених мера.
Следећи чинилац назива се једноставно, тестирање (енгл. testing) и описује помало парадоксално очекивање експериментатора да ће субјекти на другом тесту, пост тесту имати нешто боље постигнуће него на првом, иницијалном тестирању.. Овај фактор значајно корелира са поузданошћу процедуре мерења, па се често не може разлучити његов извор, тј. не може се са сигурношћу тврдити да ли је везан за коришћени инструмент, експерименталну процедуру или за субјекте. Да ствари буду још компликованије, дешава се да разлике у постигнућу на два мерења буду значајне без обзира на то што између два тестирања није било деловања експерименталног третмана.
Разлике у мерењима могу потицати и од промена из сфере инструментације (енгл. instrumentation) тј. од мерних инструмената које смо користили у првом и другом мерењу. Метафорички, дејство овог фактора може се описати примером гуменог лењира који користимо при мерењу репродукованих линија. Гумени лењир има ту особину да се продужи при свакој употреби, што има за последицу све већу дисторзију мера са коришћењем инструмента. У истраживачкој пракси могућа су механичка оштећења опреме, промена компјутерске опреме, софтвера за презентацију стимулуса, уколико ове промене наступе између две повезане експерименталне сеансе, могу значајно да угрозе поузданост сакупљених података.
Када експерименталне групе формирамо на основу претходног тестирања, тако што субјекте издвојимо на основу екстремних скорова постигнућа на тесту, можемо очекивати деловање чиниоца који се назива статистичка регресија или регресија ка просеку (енгл. statistical regression). Субјекти који су у првом тесту имали веома добро постигнуће у другом могу бити нешто лошији, или обрнуто, субјекти који су били лоши у првом тесту могу бити нешто бољи што ће на крају имати за последицу маскирање или конфундацију јер се иза промене у постигнућу може крити нужност аритметике а не као што се може помислити, дејство експерименталног третмана.
Селекција (енгл. selection) субјеката може смањивати поузданост мерења уколико се не води рачуна о формирању група, тј. уколико се не групе субјеката не формирају коришћењем насумичним распоређивањем. Рандомизацијом при смештању субјеката у одређене групе елиминишу се негативни ефекти индивидуалних разлика, тако што се онемогућава формирање једне групе која се по релевантним индивидуалним карактеристикама може значајно разликовати од друге групе субјеката.
Уколико приметимо да нам се на другој експерименталној сеанси појавио мањи број субјеката у односу на прву, то је знак да треба бити на опрезу јер се суочавамо са чиниоцем који се назива осипање (енгл. mortality). Узроци могу бити сасвим обични: немар, неодговорност, слаба мотивација, а могу се крити у утиску који је третман оставио на субјекте. У неким истраживањима третман може бити заморан, захтеван, болан, узнемиравајући што природно може утицати на избегавање другог теста од стране субјеката.
Последњи чинилац, који се назива међудејства селекције (енгл. selection interactions), представља сложај различитих фактора који делују при формирању група. Селекција може стајати у интеракцији са историјом, матурацијом и осипањем. Замислимо да се у истраживању третмана редукције телесне тежине нерандомизирано формирају две групе (дејство селекције). Групе се могу формирати тако да се у оквиру једне теретане окупе субјекти са вишим степеном свесности сопственог тела у односу на другу групу. Током деловања третмана, субјект из прве групе, са вишом свешћу о својој телесности, под утицајем телевизијских реклама може да одлучи да купи справу за вежбање, док субјект у другој групи, са мањом свешћу о телесност то не чини (дејство историје). Последица оваквог сплета околности доводи до конфундације услед здруженог дејства селекције и историје са једне стране и дејства експерименталног третмана са друге стране.
У циљу извођења методолошки исправног експерименталног истраживања треба контролисати што више спољних варијабли. Често је то веома тежак и неизводљив задатак, па стога контролу треба ограничити и максимизовати за варијабле које сматрамо најозбиљнијом претњом интерној валидности експеримента.