Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_cloud.wasp

Title produced by software

Trivariate Scatterplots

Date of computation

Wed, 12 Nov 2008 06:47:25 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/12/t1226497862we19qfgxxmbrp52.htm/, Retrieved Wed, 16 Jul 2025 14:47:41 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=24186, Retrieved Wed, 16 Jul 2025 14:47:41 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

252

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Trivariate Scatterplots] [Various EDA Topic...] [2008-11-12 13:47:25] [1351baa662f198be3bff32f9007a9a6d] [Current]
F    D    [Trivariate Scatterplots] [opdracht3 blok8 q...] [2008-11-12 18:02:05] [975daa21de49eaf4d491226310243f5a] 
F RMPD    [Hierarchical Clustering] [opdracht3 blok8 q2] [2008-11-12 18:06:50] [975daa21de49eaf4d491226310243f5a] 

Feedback Forum

2008-11-14 15:42:15 [Katrijn Truyman] [reply] 
Prima werk, er valt niks aan toe te voegen. Alles is zeer goed uitgewerkt.
2008-11-17 08:05:07 [006ad2c49b6a7c2ad6ab685cfc1dae56] [reply] 
Goed uitgelegd, geen commentaar.
2008-11-22 14:44:18 [Peter Van Doninck] [reply] 
Ivm de trivariate scatterplots zou het interessant geweest zijn dat eveneens de Bivariate Kernel Density plot getekend zou worden. In de link kan je dan zien dat er in alle gevallen een stijgende rechte gevormd wordt, de zogenaamde regressierechte. De 'hoogtelijnen' duiden op de concentratie van de punten. In alle 3 gevallen merken we op dat er ellipsen gevormd worden, wat duidt dat er een positief verband is tussen de variabelen. Dit heeft de student echter niet voledig vermeld. het verband tussen x en z is wel het grootst, zoals werd aangehaald. 
2008-11-22 19:31:21 [c97d2ae59c98cf77a04815c1edffab5a] [reply] 
deze vraag was voor mij nog onduidelijk bij het oplossen. Hier mijn verbeterde versie: 
Theorie: 
De Kubus geeft het verband tussen de 3 variabelen gelijkertijd. Het is een ruimtelijke figuur die op 2-dimensionale manier wordt voorgesteld op het scherm. Door deze transformatie gaat er informatie verloren, daarom gaat men de kubus vanuit 3 perspectieven bekijken (zie de 3 verschillende kubussen). We gaan gebruik maken van de gestandaardiseerde projecties die bestaan uit 2-aan-2 combinaties van variabelen weerspiegelt in scatterplots, die de partiële correlatie weergeven. (deze vormen projecties van de kubussen). Punten van de scatterplot die dicht bij elkaar gelegen zijn (verticaal) zijn meestal maanden die gelijkaardig zijn. Maar we weten niet of dit geldt voor de gehele industrie aangezien bepaalde dimensies gereduceerd zijn. Dit geeft dus eigenlijk vertekende projecties, maar toch gaan we hier informatie uit halen via Deze wordt gevormd door: de puntenwolk van de scatterplot, rechte lijn(benadert puntenwolk zo dicht mogelijk) en hoogtelijnen (die hebben niet rechtstreeks iets te maken met de 3e dimensie, maar met de dichtheid/concentratie van de scatterplot). De hoogtelijnen geven de waarschijnlijkheid, d.m.v. de dichtheid , aan dat een bepaald verband tussen variabelen zich daar bevindt, waar de hoogtelijnen de hoogste waarde aannemen (het rode-witte vlekje). Verschillende groepen met hoge hoogtelijnen geven clustering weer. We stellen ons hierbij de vraag of er een wetmatigheid bestaan tussen 2 variabelen dat nier voor elke periode geldt? Dit kan bijvoorbeeld doordat het regime veranderd is, waardoor er een verband tussen variabelen is ontstaan dat er voordien nog niet was, of dit kan een maandelijks verband zijn dat telkens terugkeert. Dit zal dan verder onderzocht moeten worden.  De richting naar waar de hoogtelijnen wijzen geeft de correlatie weer: rechts boven(positief verband), rechts beneden (negatief verband) en horizontaal (geen verband) . Vb (in geval van periodieke terugkering van een verband): is er maar 1 rode vlek, dit wil zeggen dat de maanden ongeveer gelijkaardig zijn(geen clustering). Zijn er 2 rode vlekken, dit wil zeggen dat de variabelen zich anders voordoen in bepaalde maanden (clustering). Bijvoorbeeld in het geval van clustering bij huwelijken: het zou periodiek kunnen terugkeren; in de zomer meer huwelijken dan in de winter, of het zou een plotse verandering kunnen zijn; na de oorlog. 
Conclusie:  
X: elektrische en elektronische apparaten 
Y: medische apparatuur 
Z: transportmiddelen 
 
Deze figuur geeft telkens de correlatie tussen 2 variabelen weer, zonder rekening te houden met een eventuele effect van een derde variabele die ervoor zou kunnen zorgen dat het verband tussen x en y eigenlijk een schijncorrelatie is . We kunnen uit bovenstaande figuur afleiden dat het verband tussen variabele x en y positief is, maar nog niet aanleunt bij een perfect lineair verband. We kunnen ook een oordeel vormen over het verband tussen de 3e /verstorende variabele Z met x en y. We zien dat de correlatie tussen z en y hierbij wel het grootst is, maar doordat z zowel een positieve invloed op x als op y heeft, zal het verband tussen x en y niet echt vertekend worden. Uit bovenstaande figuur kunnen we ook de verdeling van de data afleiden: z is ongeveer normaal verdeeld, y is rechtsscheef verdeeld, en x is eerder linksscheef verdeeld. 
de conclusie uit de bivariate kernel density plot is reeds gevormd bij Q1
2008-11-23 11:01:31 [Nathalie Daneels] [reply] 
Evaluatie opdracht 3 - blok 8 (Q1) 
De conclusie die de student gaf bij dit onderdeel van de vraag is niet helemaal correct. Dit zou ik als conclusie schrijven: 
De kubus(sen) van de trivariate scatterplot tonen het verband aan tussen de 3 variabelen/dimensies (x, y en z) tegelijkertijd. Nu deze 3-dimensionale figuur moeten we voorstellen in een 2-dimensionaal scherm. Hierdoor gaat er informatie verloren. Daarom worden er 3 kubussen gemaakt, die telkens vanuit een andere hoek getoond worden. Naargelang de rotatie ga je telkens 'andere' dingen zien. Dit kan op zijn beurt dan weer een vertekend beeld geven. Daarom gaan we gebruik maken van de gestandaardiseerde projecties, die bestaan uit 2 aan 2 combinaties van variabelen. (Dit zijn de negen grafieken: Op de hoofddiagonaal zien we de histogrammen van deze variabelen en links en rechts van deze hoofddiagonaal zien we de scatterplots van telkens 2 variabelen. We kunnen opmerken dat de scatterplots boven de hoofddiagonaal dezelfde zijn als de scatterplots onder de hoofddiagonaal, maar dan gedraaid om hun as. Dit komt doordat de ene keer bijvoorbeeld variabele x op de horizontale as staat en variabele y op de verticale as en aan de andere kant van de hoofddiagonaal variabele x op de verticale as staat en variabele y op de horizontale as.) 
Nu elke 2-dimensionale voorstelling is vertekend doordat we de 3e dimensie buiten beschouwing hebben gelaten. Bijvoorbeeld: op een bepaalde scatterplot liggen 3 punten redelijk dicht bij elkaar, maar wel ver verwijderd van de overige punten. Als we dan rekening gaan houden met de derde variabelen kan het goed zijn dat deze drie punten helemaal niet zo dicht tegen elkaar liggen en ook helemaal niet zo ver van de andere punten verwijderd liggen. Deze scatterplots geven dus eigenlijk een vertekend beeld, maar we kunnen hier toch informatie uithalen. Om dat te kunnen doen, moeten we gaan kijken naar de bivariate density. (Deze is reeds besproken in de evaluatie van onderdeel 1 van Q1). Kort gesteld: De bivariate density wordt gevormd door hoogtelijnen (die de dichtheid/concentratie van de punten weergeeft), een rechte (die het gemiddelde van de gegevens weergeeft) en wordt gemaakt aan de hand van de puntenwolk van de scatterplot. We gaan hier nu niet verder over uitwijken.  
Deze informatie toegepast op de gegevens van de student: 
Uit kubus 2 en 3 kunnen we duidelijk vaststellen dat er telkens 2 punten afgezonderd liggen van de rest van de puntenwolk. Nu omdat we een 3-dimensionale figuur moeten weergeven op een 2-dimensionaal vlak, kan dit wel een vertekend beeld geven en liggen in werkelijkheid deze twee punten niet zo ver verwijderd van de rest van de puntenwolk. 
Als we vervolgens naar de 9 grafieken kijken, kunnen we vaststellen dat er inderdaad een positief verband bestaat tussen x en y. Dit verband is echter nog niet perfect lineair, want dan zouden de punten perfect op een rechte moeten liggen. We kunnen in deze grafiek wel een best benaderende rechte tekenen (die dan duidelijk van links onder naar rechts boven loopt en dus op een positief verband wijst), maar geen rechte die alle punten bevat. Aan de hand van deze 9 grafieken kunnen we ook een conclusie vormen over de invloed van de derde variabele (z) op de andere 2 variabelen. We kunnen telkens een positief verband vaststellen tussen variabelen x en z en tussen variabele y en z. Met deze conclusie zijn we niet heel veel, aangezien we bij de bespreking van de invloed van variabele z op de correlatie van x en y (zie partiële correlatie) we het verband tussen variabelen z en x en variabelen z en y niet apart mogen beschouwen. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Dataseries Z:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 3 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=24186&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]3 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=24186&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=24186&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	3 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Elektrische en elektronische apparaten ; par6 = Medische apparatuur ; par7 = Transportmiddelen ;

Parameters (R input):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Elektrische en elektronische apparaten ; par6 = Medische apparatuur ; par7 = Transportmiddelen ;

R code (references can be found in the software module):

x <- array(x,dim=c(length(x),1))
colnames(x) <- par5
y <- array(y,dim=c(length(y),1))
colnames(y) <- par6
z <- array(z,dim=c(length(z),1))
colnames(z) <- par7
d <- data.frame(cbind(z,y,x))
colnames(d) <- list(par7,par6,par5)
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
if (par1>500) par1 <- 500
if (par2>500) par2 <- 500
if (par1<10) par1 <- 10
if (par2<10) par2 <- 10
library(GenKern)
library(lattice)
panel.hist <- function(x, ...)
{
usr <- par('usr'); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col='black', ...)
}
bitmap(file='cloud1.png')
cloud(z~x*y, screen = list(x=-45, y=45, z=35),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud2.png')
cloud(z~x*y, screen = list(x=35, y=45, z=25),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud3.png')
cloud(z~x*y, screen = list(x=35, y=-25, z=90),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='pairs.png')
pairs(d,diag.panel=panel.hist)
dev.off()
x <- as.vector(x)
y <- as.vector(y)
z <- as.vector(z)
bitmap(file='bidensity1.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=cor(x,y), xbandwidth=dpik(x), ybandwidth=dpik(y))
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,y)',xlab=par5,ylab=par6)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
bitmap(file='bidensity2.png')
op <- KernSur(y,z, xgridsize=par1, ygridsize=par2, correlation=cor(y,z), xbandwidth=dpik(y), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (y,z)',xlab=par6,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(y,z)
(r<-lm(z ~ y))
abline(r)
box()
dev.off()
bitmap(file='bidensity3.png')
op <- KernSur(x,z, xgridsize=par1, ygridsize=par2, correlation=cor(x,z), xbandwidth=dpik(x), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,z)',xlab=par5,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,z)
(r<-lm(z ~ x))
abline(r)
box()
dev.off()

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code