Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*Unverified author*

R Software Module

rwasp_cloud.wasp

Title produced by software

Trivariate Scatterplots

Date of computation

Sun, 09 Nov 2008 06:45:18 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/09/t1226238675knor2g10g31hxq8.htm/, Retrieved Sun, 19 May 2024 11:18:15 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=22749, Retrieved Sun, 19 May 2024 11:18:15 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

141

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Trivariate Scatterplots] [Trivariate Scatte...] [2008-11-09 13:45:18] [3b916296c2d2371d528ff188880e3d2b] [Current]

Feedback Forum

2008-11-22 13:46:24 [An Knapen] [reply] 
Trivariaat scatterplot geeft het gelijktijdig verband weer tussen 3 variabelen. De kubus op de tekening wordt vanuit verschillende perspectieven bekeken. Aangezien we slechts een 2-dimensionale weergave hebben, zullen we de kubus verschillende keren moeten roteren. Dit geeft een vertekend beeld omdat er telkens een dimensie gereduceerd wordt. De beste correlatie vindt inderdaad plaats tussen producten van metaal(x) en machines(y). Dit kan je zien doordat de waarde mooi op een rechte liggen. Het lineair verband is hier dus et sterktst. Het zwakste verband daarentegen kunnen we vasstellen tussen elektronische apparaten(x) en machines(y). De waarden liggen hier het verst verwijderd van elkaar. 
2008-11-23 13:50:30 [Nathalie Daneels] [reply] 
Evaluatie opdracht 3 - Blok 8 (Q1) 
 
Ik vind de conclusie onvolledig en de student heeft zich ook niet geconcentreerd op het verband tussen de variabelen x en y, met de invloed van variabele z op de correlatie tussen deze 2 variabelen x en y (Bij bivariate density werd het verband tussen variabele x en y besproken en bij de partiële correlatie wordt de invloed van variabele z op de correlatie tussen variabele x en y besproken). Bij dit onderdeel zou de student ook de 3 kubussen erbij moeten zetten en bespreken. 
 
Mogelijke conclusie: 
De kubus(sen) van de trivariate scatterplot tonen het verband aan tussen de 3 variabelen/dimensies (x, y en z) tegelijkertijd. Nu deze 3-dimensionale figuur moeten we voorstellen in een 2-dimensionaal scherm. Hierdoor gaat er informatie verloren. Daarom worden er 3 kubussen gemaakt, die telkens vanuit een andere hoek getoond worden. Naargelang de rotatie ga je telkens 'andere' dingen zien. Dit kan op zijn beurt dan weer een vertekend beeld geven. Daarom gaan we gebruik maken van de gestandaardiseerde projecties, die bestaan uit 2 aan 2 combinaties van variabelen. (Dit zijn de negen grafieken: Op de hoofddiagonaal zien we de histogrammen van deze variabelen en links en rechts van deze hoofddiagonaal zien we de scatterplots van telkens 2 variabelen. We kunnen opmerken dat de scatterplots boven de hoofddiagonaal dezelfde zijn als de scatterplots onder de hoofddiagonaal, maar dan gedraaid om hun as. Dit komt doordat de ene keer bijvoorbeeld variabele x op de horizontale as staat en variabele y op de verticale as en aan de andere kant van de hoofddiagonaal variabele x op de verticale as staat en variabele y op de horizontale as.)  
Nu elke 2-dimensionale voorstelling is vertekend doordat we de 3e dimensie buiten beschouwing hebben gelaten. Bijvoorbeeld: op een bepaalde scatterplot liggen 3 punten redelijk dicht bij elkaar, maar wel ver verwijderd van de overige punten. Als we dan rekening gaan houden met de derde variabelen kan het goed zijn dat deze drie punten helemaal niet zo dicht tegen elkaar liggen en ook helemaal niet zo ver van de andere punten verwijderd liggen. Deze scatterplots geven dus eigenlijk een vertekend beeld, maar we kunnen hier toch informatie uithalen. Om dat te kunnen doen, moeten we gaan kijken naar de bivariate density. (Deze is reeds besproken in de evaluatie van onderdeel 1 van Q1). Kort gesteld: De bivariate density wordt gevormd door hoogtelijnen (die de dichtheid/concentratie van de punten weergeeft), een rechte (die het gemiddelde van de gegevens weergeeft) en wordt gemaakt aan de hand van de puntenwolk van de scatterplot. We gaan hier nu niet verder over uitwijken.  
Deze informatie toegepast op de gegevens van de student:  
Uit de 3 kubussen kunnen we vaststellen dat de punten (globaal gezien) allemaal in elkaars buurt liggen: Geen enkel punt of groep van punten ligt ver afgezonderd van de overige punten.  
Als we vervolgens naar de 9 grafieken gaan kijken, kunnen we vaststellen dat bij alle 6 de scatterplots een groep van punten dicht bij elkaar liggen in de linkse hoek onderaan (ongeveer) gaande tot ongeveer het midden van de scatterplot. Uit de scatterplots, gevormd door de variabelen x (producten van metal) en y (Machines, apparaten en werktuigen) kunnen we vaststellen dat er een sterk positief verband is tussen deze twee variabelen. Er is een perfect lineair verband als alle punten op 1 rechte liggen. We kunnen wel concluderen dat het verband tussen deze 2 variabelen het sterkste is in vergelijking met het verband tussen de variabelen x en z en y en z. We kunnen ook concluderen dat het verband tussen de variabelen x en z en y en z positief is. Met deze conclusie zijn we niet heel veel, aangezien we bij de bespreking van de invloed van variabele z op de correlatie van x en y (zie partiële correlatie) we het verband tussen variabelen z en x en variabelen z en y niet apart mogen beschouwen. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Dataseries Z:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	5 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 5 seconds \tabularnewline
R Server & 'Sir Ronald Aylmer Fisher' @ 193.190.124.24 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=22749&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]5 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Sir Ronald Aylmer Fisher' @ 193.190.124.24[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=22749&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=22749&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	5 seconds
R Server	'Sir Ronald Aylmer Fisher' @ 193.190.124.24

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Producten van metaal ; par6 = Machines, apparaten en werktuigen ; par7 = Elektrische en elektronische apparaten ;

Parameters (R input):

par1 = 50 ; par2 = 50 ; par3 = Y ; par4 = Y ; par5 = Producten van metaal ; par6 = Machines, apparaten en werktuigen ; par7 = Elektrische en elektronische apparaten ;

R code (references can be found in the software module):

x <- array(x,dim=c(length(x),1))
colnames(x) <- par5
y <- array(y,dim=c(length(y),1))
colnames(y) <- par6
z <- array(z,dim=c(length(z),1))
colnames(z) <- par7
d <- data.frame(cbind(z,y,x))
colnames(d) <- list(par7,par6,par5)
par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
if (par1>500) par1 <- 500
if (par2>500) par2 <- 500
if (par1<10) par1 <- 10
if (par2<10) par2 <- 10
library(GenKern)
library(lattice)
panel.hist <- function(x, ...)
{
usr <- par('usr'); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col='black', ...)
}
bitmap(file='cloud1.png')
cloud(z~x*y, screen = list(x=-45, y=45, z=35),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud2.png')
cloud(z~x*y, screen = list(x=35, y=45, z=25),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='cloud3.png')
cloud(z~x*y, screen = list(x=35, y=-25, z=90),xlab=par5,ylab=par6,zlab=par7)
dev.off()
bitmap(file='pairs.png')
pairs(d,diag.panel=panel.hist)
dev.off()
x <- as.vector(x)
y <- as.vector(y)
z <- as.vector(z)
bitmap(file='bidensity1.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=cor(x,y), xbandwidth=dpik(x), ybandwidth=dpik(y))
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,y)',xlab=par5,ylab=par6)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
bitmap(file='bidensity2.png')
op <- KernSur(y,z, xgridsize=par1, ygridsize=par2, correlation=cor(y,z), xbandwidth=dpik(y), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (y,z)',xlab=par6,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(y,z)
(r<-lm(z ~ y))
abline(r)
box()
dev.off()
bitmap(file='bidensity3.png')
op <- KernSur(x,z, xgridsize=par1, ygridsize=par2, correlation=cor(x,z), xbandwidth=dpik(x), ybandwidth=dpik(z))
op
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main='Bivariate Kernel Density Plot (x,z)',xlab=par5,ylab=par7)
if (par3=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par4=='Y') points(x,z)
(r<-lm(z ~ x))
abline(r)
box()
dev.off()

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code