Free Statistics

of Irreproducible Research!

Author's title

Author*Unverified author*
R Software Modulerwasp_edauni.wasp
Title produced by softwareUnivariate Explorative Data Analysis
Date of computationSun, 21 Oct 2007 10:06:37 -0700
Cite this page as followsStatistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2007/Oct/21/cero153qc8itozi1192986259.htm/, Retrieved Thu, 09 May 2024 19:20:52 +0000
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=1237, Retrieved Thu, 09 May 2024 19:20:52 +0000
QR Codes:

Original text written by user:
IsPrivate?No (this computation is public)
User-defined keywordsQ2 Univariate Explorative Data Analysis
Estimated Impact676
Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)
F       [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [3cbd35878d9bd3c68c81c01c5c6ec146] [Current]
-    D    [Univariate Explorative Data Analysis] [De 4 assumpties] [2007-12-18 23:01:45] [74be16979710d4c4e7c6647856088456]
- RMPD    [Percentiles] [qq plot als voorb...] [2008-10-21 10:53:18] [8f9b45357d90f3255ffc9ece8563f248]
-           [Percentiles] [test blog 1012200...] [2008-12-10 16:48:51] [8f9b45357d90f3255ffc9ece8563f248]
F   PD    [Univariate Explorative Data Analysis] [Lag plot herberek...] [2008-10-22 11:47:19] [6fea0e9a9b3b29a63badf2c274e82506]
F           [Univariate Explorative Data Analysis] [Investigating Dis...] [2008-10-24 14:40:21] [063e4b67ad7d3a8a83eccec794cd5aa7]
F           [Univariate Explorative Data Analysis] [investigation dis...] [2008-10-28 06:29:46] [631938996a408f8d8cf3d9850ca0cd03]
-    D    [Univariate Explorative Data Analysis] [unvariete eda ver...] [2008-10-22 11:59:30] [e43247bc0ab243a5af99ac7f55ba0b41]
F   PD    [Univariate Explorative Data Analysis] [Lag plot herberek...] [2008-10-22 12:10:59] [6fea0e9a9b3b29a63badf2c274e82506]
-   PD    [Univariate Explorative Data Analysis] [Univariate explor...] [2008-10-22 12:34:39] [e43247bc0ab243a5af99ac7f55ba0b41]
F    D    [Univariate Explorative Data Analysis] [Univariata explor...] [2008-10-22 13:21:58] [252acdb58d8522ab27f61fa1e87b5efe]
-   P       [Univariate Explorative Data Analysis] [Lag aanpassen] [2008-10-26 13:44:48] [252acdb58d8522ab27f61fa1e87b5efe]
F R  D    [Univariate Explorative Data Analysis] [q2 univariate exp...] [2008-10-22 12:54:15] [7173087adebe3e3a714c80ea2417b3eb]
F           [Univariate Explorative Data Analysis] [q2 ] [2008-10-27 10:26:46] [e43247bc0ab243a5af99ac7f55ba0b41]
-   P         [Univariate Explorative Data Analysis] [Feedback lag plot...] [2008-11-03 20:35:53] [b82ef11dce0545f3fd4676ec3ebed828]
-   P           [Univariate Explorative Data Analysis] [Feedback lag plot...] [2008-11-03 20:57:50] [b82ef11dce0545f3fd4676ec3ebed828]
- RMP             [Central Tendency] [Feedback Task 1 - Q3] [2008-11-03 21:18:02] [b82ef11dce0545f3fd4676ec3ebed828]
F           [Univariate Explorative Data Analysis] [Q2 Univariate exp...] [2008-10-27 19:40:37] [c993f605b206b366f754f7f8c1fcc291]
-   P       [Univariate Explorative Data Analysis] [verbetering] [2008-11-02 16:58:55] [c45c87b96bbf32ffc2144fc37d767b2e]
- R  D    [Univariate Explorative Data Analysis] [Q2 Univariate Exp...] [2008-10-22 13:38:38] [f9b9e85820b2a54b20380c3265aca831]
F    D    [Univariate Explorative Data Analysis] [vraag 1: Q2 valid...] [2008-10-22 18:51:31] [82d201ca7b4e7cd2c6f885d29b5b6937]
-   P       [Univariate Explorative Data Analysis] [vraag 1:Q2 invest...] [2008-11-03 09:40:43] [82d201ca7b4e7cd2c6f885d29b5b6937]
- RMP       [Central Tendency] [central tendency] [2008-11-04 08:47:16] [82d201ca7b4e7cd2c6f885d29b5b6937]
- R PD      [Univariate Explorative Data Analysis] [Univariate Explor...] [2008-12-17 19:09:02] [82d201ca7b4e7cd2c6f885d29b5b6937]
-    D    [Univariate Explorative Data Analysis] [Q2 Investigate th...] [2008-10-23 09:20:20] [cb714085b233acee8e8acd879ea442b6]
F   PD      [Univariate Explorative Data Analysis] [Q2 Investigate th...] [2008-10-23 10:04:10] [cb714085b233acee8e8acd879ea442b6]
-             [Univariate Explorative Data Analysis] [] [2008-11-03 10:27:08] [43d870b30ac8a7afeb5de9ee11dcfc1a]
F    D    [Univariate Explorative Data Analysis] [] [2008-10-23 10:15:43] [2a30350413961f11db13c46be07a5f73]
-   PD      [Univariate Explorative Data Analysis] [investigating dis...] [2008-11-04 05:50:48] [090686c1af2bb318059a6f656863a319]
-   P         [Univariate Explorative Data Analysis] [investigating dis...] [2008-11-04 05:55:10] [090686c1af2bb318059a6f656863a319]
-    D          [Univariate Explorative Data Analysis] [paper 2.3 werkloo...] [2008-12-19 09:24:48] [090686c1af2bb318059a6f656863a319]
-   P             [Univariate Explorative Data Analysis] [paper 2.3 werkloo...] [2008-12-19 09:28:10] [090686c1af2bb318059a6f656863a319]
-   PD              [Univariate Explorative Data Analysis] [paper 2.3 aantal ...] [2008-12-19 09:31:18] [090686c1af2bb318059a6f656863a319]
-   P                 [Univariate Explorative Data Analysis] [paper 2.3 aantal ...] [2008-12-19 09:35:48] [090686c1af2bb318059a6f656863a319]
- RMP         [Harrell-Davis Quantiles] [investigating dis...] [2008-11-04 06:18:30] [090686c1af2bb318059a6f656863a319]
-    D    [Univariate Explorative Data Analysis] [Univariate explor...] [2008-10-23 10:30:04] [adb6b6905cde49db36d59ca44433140d]
F RMPD    [(Partial) Autocorrelation Function] [] [2008-10-23 10:32:19] [28075c6928548bea087cb2be962cfe7e]
-   P       [(Partial) Autocorrelation Function] [q2 autocorrelatio...] [2008-10-23 12:14:19] [7173087adebe3e3a714c80ea2417b3eb]
-   P         [(Partial) Autocorrelation Function] [Q2 Autocorrelatio...] [2008-10-24 14:00:13] [7d3039e6253bb5fb3b26df1537d500b4]
-   P         [(Partial) Autocorrelation Function] [Autocorrelatie ve...] [2008-10-24 14:28:29] [b635de6fc42b001d22cbe6e730fec936]
-   PD        [(Partial) Autocorrelation Function] [assumtion 1 autoc...] [2008-10-25 12:57:58] [7173087adebe3e3a714c80ea2417b3eb]
F   P         [(Partial) Autocorrelation Function] [q2 autocorrolations] [2008-10-27 10:28:50] [e43247bc0ab243a5af99ac7f55ba0b41]
-   P         [(Partial) Autocorrelation Function] [Autocorrelatie] [2008-10-30 21:59:14] [005293453b571dbccb80b45226e44173]
- RMPD      [Pearson Correlation] [correlation] [2008-10-26 13:18:41] [4ddbf81f78ea7c738951638c7e93f6ee]
F           [(Partial) Autocorrelation Function] [autocorrelation] [2008-10-26 13:22:17] [4ddbf81f78ea7c738951638c7e93f6ee]
- RMP         [Univariate Explorative Data Analysis] [Oplossing Q2 inve...] [2008-10-31 09:41:17] [e5d91604aae608e98a8ea24759233f66]
F           [(Partial) Autocorrelation Function] [] [2008-10-26 15:08:41] [db72903d7941c8279d5ce0e4e873d517]
-           [(Partial) Autocorrelation Function] [] [2008-10-27 17:19:11] [29747f79f5beb5b2516e1271770ecb47]
-           [(Partial) Autocorrelation Function] [] [2008-10-27 17:19:11] [29747f79f5beb5b2516e1271770ecb47]

[Truncated]
Feedback Forum
2008-10-31 16:23:07 [Bob Leysen] [reply
De lags werden niet ingesteld, deze moeten 36 worden. Ik heb dan ook een nieuwe link gemaakt:
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/30/t12253728791frueq4z3rg1624.htm

Als we naar de density plot of de QQ plot kijken is er duidelijk een normaalverdeling. De punten liggen zeer dicht bij de rechte. Enkel in het begin en einde zijn er wat outliers.

De run sequence plot kent een lichte daling, maar je kan ook zien dat er een zekere seasonaliteit is. Op lange termijn is het niveau van deze reeks niet constant. Het is moeilijk te zien. Dit is belangrijk voor assumptie 3.

In de run sequence plot kan je ook zien dat er geen gelijke spreiding is. De laatste assmptie is hier niet van toepassing. De spreiding van het eerste deel (tot 30) is kleiner dan de spreiding na 30. We hebben tijdens het college gezien dat de vraag ook betrekking heeft op de random component, dus je kan bij het berekenen de R-module veranderen nl. x = -0,86... Je trekt de voorspelling af en dan zie je nog beter dat de spreiding niet dezelfde is.

Vonboven staat 'unverified author'
2008-11-02 16:54:38 [Bernard Femont] [reply
assumtie 1; De lags werden niet ingesteld, er moet gebruikt maakt worden van de lagplot en partial autocorrelation. bij lagplot moeten we 12 of 36 instellen. we kunnen hierin zien of we op basis van de vorige observatie iets kunnen zeggen over de huidige observatie.
bij de partial autocorrelation kunnen we bij een instelling op 36 duidelijk zien dat alle autocorrelatie voor twaalf en na twaalf niet representatief zijn
(maw: aan het toeval toe te schrijven) of negatief zijn.
de meeste van deze waarden liggen binnen het betrouwbaarheids interval, de enkele die boven het betrouwbaarheidsinterval komen zijn niet representatief omdat hun kans op voorvallen veel kleiner is dan die bij 12.
we besluiten bij assumtie 1 dat de tijdreeks niet random is maar correlatie bevat. in dit geval een speciale correlatie nl. seizoensgebonden correlatie.
assumptie 2:
de student maakt gebruik van de correcte grafieken.
het is echter zo dat we van deze grafieken een normaalverdeling aflezen. bij de density plot zoeken we naar de bell shaped vorm, bij het histogram naar een piramide vorm. deze worden op 1 uitschieter na bereikt maar het is zo dat deze uitschieter niet zorgwekkend is. we kunnen dus besluiten dat het hier gaat om een normaal verdeling.
deze conclusie wordt ook bevestigd door het Q-Q plot. deze gebruikt de student bij assumtie 3 en hij zegt hierbij dat alle punten binnen het betrouwbaarheidsinterval liggen.
met deze zin spreekt hij zijn conclusie van de 2e assumtie tegen.
assumptie3:
hierbij maakt de student gebruik van de foute grafiek.
we beroepen ons op de run sequence. de assumtie vraagt ons of er geen fluctuaties zijn op lange termijn.
de run sequence vertoont echter een dalende lijn.
conclusie: het is geeen uitgesproken trend maar we vermoeden een dalende. er is dus fluctuatie op lange termijn
assumtie4;
de student maakt opnieuw gebruik van de foute grafiek.
bij deze assumtie maken we nogmaals gebruik van de run sequence plot.
we kijken hierbij naar de spreiding van de reeks over de tijd heen.
hierbij splitsen we de grafiek in twee delen. de spreiding van het eerste deel is groter dan die van het tweede deel.
we besluiten hierbij dat er een verandering is van de schommeling en dus geen fixed variation.
2008-11-02 17:45:31 [Annelies Michiels] [reply
Allereerst moet het aantal lags worden aangeduid anders krijgen we geen lag plot grafieken en kunnen we de autocorrelatie niet berekenen:
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/02/t12256472260x1ms3faie36aej.htm

Assumption 1:
Om de autocorrelatie te berekenen maken we geen gebruik van de run sequency plot maar van de lag plot. Aan de hand van de lag plot kunnen we de volgende vraag stellen: Wat is het verband tussen het heden en het verleden?
Als er autocorrelatie bestaat zou men voorspellingen kunnen maken voor bv. de volgende maand.
Als we de lag plot voor 36 maanden bekijken kunnen we zien dat er een positieve seizonale correlatie is. Dit wil zeggen dat men niet per maand maar wel per jaar ongeveer kan voorspellen welke trend er zich zal voordoen.

Assumption 2:
Hier heeft de student inderdaad gelijk dat er een vrij gelijke spreiding is. We kunnen hier dus spreken van een min of meer normaalverdeling. Bovendien moet er niet alleen naar het histogram worden gekeken maar ook naar het Q-Q plot, hier liggen de punten zo goed als allemaal op 1 rechte.
Dit bewijst nogmaals dat we kunnen spreken van een normaalverdeling.

Assumptie 3:
Hier moeten we naar de run sequency plot kijken en niet naar de Q-Q plot zoals de student beweert. Uit de run sequency plot zien we dat de frequency zachtjes daalt en dus niet constant is.

Assumptie 4:
Deze assumptie kunnen we wel controleren namelijk we moeten het run sequency plot bekijken. Hier moeten we kijken naar de spreiding van de reeks over de tijd. Als we de grafiek bekijken zien we dat deze spreiding schommelt over de tijd. In het eerste deel is deze spreiding groter.
2008-11-02 19:06:14 [Kevin Engels] [reply
Als we naar het histogram kijken, zien we een min of meer normaalverdeling, op de density plot zien we een kleine bult maar die is niet zo belangrijk groot. Ook als we de qq-plot erbij nemen zien we dat alle punten vrij dicht tegen de lijn liggen hoewel ze in het begin even onder de rechte liggen.
2008-11-02 19:13:29 [Kevin Engels] [reply
Wat assumptie 3 betreft, moeten we een beroep doen op de run sequence plot. Het feit dat de reeks snel op en neer gaat, speelt geen rol, wel op lange termijn. Op lange termijn zie je dat ze daalt maar het niveau blijft meer dan waarschijnlijk niet constant, het is moeilijk te zien. Om te kijken of het gemiddelde constant is, gaan we de central tendency gebruiken:
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/02/t1225628094jg5tosatmkaq3np.htm

De robustness of central tendency geeft een zekere fluctuatie maar bedraagt +- 87. Dus op lange termijn is er een dalende trend, maar moeilijk te zien.
2008-11-02 19:17:40 [Kevin Engels] [reply
voor assumptie 4 gebruikt de student een foute grafiek. Niet de lagplot maar de sequence plot moeten we gebruiken waarbij we gaan kijken naar de spreiding van de reeks over de tijd heen. Als we deze grafiek in 2 delen snijden, zien we dat in deel 1 een grotere spreiding is dan in deel 2. Door de tijd is er dus verandering van schommelingmarges.
2008-11-02 20:08:26 [Tim Loyens] [reply
1:
Lagplot moest ingesteld worden op 12 of 36 --> afleiden hieruit dat er jaarlijkse voorspellingen kunnen gemaakt worden = seizoensgebonden correlatie.

2:
Er is wel een normaalverdeling merkbaar ondanks uitschieters.

3:
We moeten kijken naar de run sequence grafiek waar een lichte daling merkbaar is. Deze is dus niet constant maar licht dalend.

4:
De 4de assumptie kan wel beoordeeld worden: nl. dat de spreiding zichtbaar op de run seq plot sterker is in het eerste deel. In het tweede deel is de spreiding minder uitgesproken.
2008-11-03 09:40:35 [Joris Deboel] [reply
Veronderstelling 1:
Eerst en vooral moeten we om de autocorrelatie te berekenen in dit geval gebruik maken van de lag plot. Deze stellen we in op 12 of op 36 zodat we op deze manier kunnen constateren dat er een positief seizonaal verband is.

Veronderstelling 2:
Er is wel een normaalverdeling merkbaar, de student heeft dus in dit geval gelijk.

Veronderstelling 3:
We moeten kijken naar de run sequence plot waar een lichte daling merkbaar is. Hier heeft de student dus naar het verkeerde gekeken en een foute conclusie getrokken.

Veronderstelling 4:
Veronderstelling vier kunnen we wel degelijk controleren door naar het run sequency plot te kijken. We kijken namelijk naar de spreiding van de reeks over de tijd. Zo zien we dat de spreiding sterker is in het eerste deel en minder sterk is in het tweede deel.
2008-11-03 22:27:14 [Toon Nauwelaerts] [reply
assumptie 2: er is wel degelijk een normaalverdeling
assumptie 4: een gebruik van de run sequence plot zal hier een beter/juister resultaat bekomen

Post a new message
Dataseries X:
109,20
88,60
94,30
98,30
86,40
80,60
104,10
108,20
93,40
71,90
94,10
94,90
96,40
91,10
84,40
86,40
88,00
75,10
109,70
103,00
82,10
68,00
96,40
94,30
90,00
88,00
76,10
82,50
81,40
66,50
97,20
94,10
80,70
70,50
87,80
89,50
99,60
84,20
75,10
92,00
80,80
73,10
99,80
90,00
83,10
72,40
78,80
87,30
91,00
80,10
73,60
86,40
74,50
71,20
92,40
81,50
85,30
69,90
84,20
90,70
100,30




Summary of compuational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of compuational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=1237&T=0

[TABLE]
[ROW][C]Summary of compuational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=1237&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=1237&T=0

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Summary of compuational transaction
Raw Inputview raw input (R code)
Raw Outputview raw output of R engine
Computing time4 seconds
R Server'Herman Ole Andreas Wold' @ 193.190.124.10:1001







Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=1237&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=1237&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=1237&T=1

As an alternative you can also use a QR Code:  

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations61
minimum66.5
Q180.6
median87.3
mean86.8934426229508
Q394.1
maximum109.7



Parameters (Session):
par1 = 0 ; par2 = 0 ;
Parameters (R input):
par1 = 0 ; par2 = 0 ;
R code (references can be found in the software module):
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')