 Olemme nyt puhuneet regressioon analysointien käyttöä R. Toi puhuneet regressioon, meidän on meidän data settejä, joita olemme käyttäneet, ja olemme käyttäneet press-theeves data settejä, joita on käyttäneet yksi asioita. Tämä data settejä on dataa 102 oppimuotoja kentällä Kanadaan jälkeen 70-luvulla. Varioita, joita olemme käyttäneet, joita olemme oppimuotoja, ja varioita, joita olemme oppimuotoja, joka on varioita, joita on varioita, joita on oppimuotoja, joita on varioita, joita on oppimuotoja, miten paljon ihmisiä on oppimuotoja, tai joita on olemme oppimuotoja, 0-100. Press-theeves-sakkaan, käyttöä vähän kokemuksena, joita ei me vain tiedä, sentys-koulut, joita ei me vain tiedä, että ei me vain tiedä, ja sitten, johon se on kategorinen vario, se on suori kokemuksena, se on kategorinen vario, ja se oli kokemien jälkeen, krót من kokemuksena, niin kyllä, joissa kyky on kokemuksena, niin heidät käytää, että heidät sends membohdut These are same. Ja sitten, johon se on kategorinen vario, mitä heidät käytettävät, joita heidät käytettävät. vaikuttavuudesta, jolloin se tarkoittaa, miten vaikuttavuudesta on tullut. Kalkoittajien vaikuttavuudesta on yksinkertaisu, joten minulla ei kovaa sitä, mutta minulla näkyy yksinkertaisesta data-explosioita, jolloin minulla saattaa yksinkertaisesta regresson analysoida. Minusta yksinkertaisesta regresson analysoida on skaterplot-matriksia. Skaterplot-matriksia on kollektionista skaterplotta, joten minulla on varioita, jossa on yksinkertaisu, ja yksinkertaisu on yksinkertaisu, ja sitten on observaationa. Joten voimme nähdä grafikkia, miten yksinkertaisu ja yksinkertaisu ovat tiedot. Voimme nähdä, että ne on tullut yksinkertaisuja, mutta yksinkertaisu ei ole koko ajan suurin. Tällä tavalla on yksinkertaisuja, joten yksinkertaisuja on yksinkertaisu, joten yksinkertaisuja on annettu portti, joten yksinkertaisu on täysin aika. Joten se on viimeinen yksinkertaisu, joten se ei ole festoja, mutta se ei ole koko ajan suurin. Meillä on yksinkertaisuja. Joten mitä saamme, että skaterplot-matriksia yksinkertaisuja yksinkertaisuja, jota olet ănut, tai ammattuut myös yksinkertaisuja. Tässä on hienoja perjantaisuutta ja vietäjä. Kun vietäjä on hienoa, niin on myös hienoa ja hienoa perjantaisuutta. Kun vietäjä on hienoa perjantaisuutta, niin on vain hienoa perjantaisuutta. Lopputin on hienoa, vietäjä on hienoa, uppputin on hienoa, ja lopputin on hienoa. Joten, että joutuminen on järjestelmä, että ei ole asetetta hienoa perjantaisuutta, mutta joutuminen ei tarvitse hienoa perjantaisuutta. Täällä on paljon hienoa perjantaisuutta, joilla ei pahaa niin paljon. Tämä ympäristö on hienoa perjantaisuutta, joten tämä perjantaisuutta on sama kuin tämä perjantaisuutta. Tämä on vain hienoa perjantaisuutta. Joten se on käyttävä, kun annaamme sinua dataa. Voisimme bis nuova. Lopputin on hienoa perjantaisuutta. Tämä on myös hienoa perjantaisuutta. Lopputin on hienoa perjantaisuutta. Jotain yksin ohjelmasta, jossa riippumisviin on yksin johtuslectailmassa, niin on yksin ohjelmasta, jotta päästysihoittain vuodesta on asettelua. Lopputin on hienoa perjantaisuutta, jossa tarvitsee kertaa, että jos on lopputin, niin miel walla on asettelua. Eli mitä on ristämällä, joten sitä tuli, lopulta, kun edukaisuus, lääkkoa ja lopulta on zero, tietysti se ei exista, mutta se on lopulta lääkkoa in our regression analysis. Sitten meillä on beta-1 asia edukaisuja, beta-2 asia lääkkoa, beta-3 asia lääkkoa, ja sitten on erotuminen uus, joka on varioita ja dataa, joka maailma ei exploi. Tässä on linkki explonation of the output, joten minä lopulta lopulta. Tämä on lopulta lääkkoa, ja lopulta lääkkoa on yhdessä, jossa minä puhuin modelon lopulta, lopulta, ilmastotieto, jossa edukaisuus, lääkkoa ja mennä, ja me käytämme lääkkoa dataa, ja sitten me printamme summaa lääkkoa, joka on kokeiltu lopulta lääkkoa. Joten me otamme lopulta, mitä on lopulta, lopulta lääkkoa ja analysointi lääkkoa, jossa on lääkkoa ja myöntävä lääkkoa, ja me pitäisinko entää, mitä nämä lääkkoa ovat, ja mitä nämä lääkkoa ovat, ja mitä nämä lääkkoa ei ole, koska nämä lääkkoa ei ole hyvin tärkeää, joten haluat tehdä modelon lopulta. Joten lopulta lääkkoa on tärkeää, että tämä on lääkkoa ja analysointi. Joten jos me otamme 5 tai 10 lääkkoa, ja me printamme lääkkoa kokeiltu, mitä lääkkoa on modelon nämä lääkkoa. Täällä on lääkkoa ja statistiikkia. Tämä on lääkkoa, jossa lääkkoa ei ylpeää. Lääkkoa on ympäristössä, joten me voimme nähdä, että lääkkoa on tärkeää, että lääkkoa on 1 tai 2, ja me melkein 0, joten se on tärkeää. Tämä on lopulta lääkkoa, joten me voimme nähdä, että lääkkoa on ylpeää, joten me voimme nähdä, että lääkkoa on ympäristössä ja ympäristössä on yleisönen, benefited in different instead of other. We have the actual regression estimate. This is the main result. These tell us what are the individual effects. I'll be looking at explaining this part in more detail, but that's the model estimate. We have some model indices, most importantly, we have the r-square, we have some other things Se on jotain täysin hyväksiä vaajota. Ja niiden voi myös olla käyttävä tarpeeksi tyyppiä parantaa, jotka olen osallistunut koko videota. Joten miten me nähdään tämän? Lekko otetaan reikaisen kooropiisinti ensin. Meillä on aikaan projuttavasti täällä. Meillä on reikaisen kooropiisinti täällä. Ja sitten meillä on standard error, joka on kylmääräisessä. valoituksesta, joka on vain teststatistikin, jossa on testoituksesta nallihypothesisin. Tämä valoituksesta on definittivät ympäristössä ympäristössä ympäristössä. Voidaan verittää, että on 6.79 ympäristöä ympäristöä 3.23 ympäristöä ympäristöä 2.098 ympäristöä, jossa on käyttänyt hyvää valoituksesta. Sitten on p-valoituksesta. P-valoituksesta on kautta, jossa on kautta osallistusta. Assointia ei ole tärkeää, jossa on tärkeää, mutta jossa on tärkeää, että nallihypothesisin on p-valoituksesta, että tämä reikaisu on koetalinen 0. Joten, mitä on tärkeää, tai mitä on tärkeää, jossa on ympäristöä ympäristöä ympäristöä, jossa on vain ympäristöä. P-valoituksesta on 0.03, jossa on tärkeää, että 0.05 on kautta, jossa p-valoituksesta on kautta, jossa on tärkeää, jossa on ympäristöä, jossa on vain ympäristöä, jossa on ympäristöä. Joten, mitä on tärkeää, jossa on tärkeää, jossa on ympäristöä. Tämä on ympäristöä 4 p-valuissa. 3 stars means that it is below 0.001. So these were the regression coefficients, then we have some other things also here, but importantly we have this very small regression coefficient. Why is the estimate for income so small? Does it mean that the income doesn't really matter when we consider the prestigiousness of occupations? The reason why this coefficient or what does this coefficient mean, we have to consider the scales of the variables. So income was expressed as dollars. So one dollar increase in income increases your prestigiousness by 0.0013 units. So incomes are in thousands of dollars, so one dollar increase doesn't really make a difference. So maybe it would make more sense to rescale the income so that instead of being expressed as individual dollars, we would express it as thousands of dollars. So if we multiply this by 1,000, then we get the, what's the effect of increasing your income by 1,000 units or 1,000 Canadian dollars, and then it's more meaningful. We can also see that the effect is small in absolute magnitude, ignoring the scale, doesn't mean that it's not significant because of the scaling issue, this is actually very significant and it's actually a pretty large effect when you think about the scale of the variable from about a few thousand Canadian dollars to about 25,000. The next, so the obvious thing to do here would be to recode the income to thousands so we get estimates that are more comparable and they are easier to interpret as well. We will next be looking at the model quality indices down here. So the model quality indices tell us something about the overall model fit. The most important part is the R-square statistic here and R-square tells us how much the model explains. So these three variables together, income, share of women and education, explain about 80% of the variation of the prestige. So we can see that prestige of an occupation is mostly determined by amount of women, income and education. Of course, which one of those is the most important determinant, we would have to look at the actual individual regression coefficients. But altogether they explain about 80% of the data. Then we have adjusted R-square, which is 0.79 and that is only slightly smaller than the R-square because we had only three explanatory variables and we had more than 100 observations. So we had more than 30 observations for each explanatory variable. So the adjustment by the R-square, adjusted R-square, is pretty small because the bias can be expected to be as small as well with that good ratio of variables to observations. So that's the adjusted R-square. Adjusted R-square, it's useful for comparing models that are non-nested, what that means I'll cover later, but it's also useful for interpretation. So whenever you are unsure whether you should be looking at R-square, adjusted R-square, it's always a better idea to interpret the model using the adjusted R-square. If your sample size is large, it doesn't make a difference. These are about the same, so there's no meaningful difference between the two. If your sample size is small, then adjusted R-square typically is a more relevant metric for judging how well your model expresses the data. Then we have some other statistics. So we have residual standard error, so this is the standard deviation of the residuals and it estimates what is the standard error. It's an estimate of the standard deviation of the error term. It's not typically interpreted because it depends on the scale, but we can do some calculations. For example, R-square is calculated using this number. Then we have 98 degrees of freedom. That tells us how complex the model is related to our data and it tells us that we could add 98 more things to the model and still be able to estimate it. The degrees of freedom is not interpreted directly, but it's used for model comparison and it's used for calculating some statistics. For example, the F-statistic shown here depends, or its distribution depends on the degrees of freedom. So the F-statistic is here, it's useful for model comparisons. It can be calculated based on the R-square, for example. It's not interpreted directly, but it has a distribution that we can use for testing a null hypothesis that the R-square is exactly zero. So the T-statistic provides a test statistic for a regression coefficient being zero and we compare that against the T-distribution. F-statistic is a test statistic for the R-square being zero and we compare it against the correct F-distribution. There's the p-value for that comparison. So getting this kind of results if all the independent variables were completely unrelated with the dependent variable linearly would be very unlikely. So we reject the null hypothesis and we conclude that these variables do explain the dependent variable also in the populace. So we get all kinds of things from the model. The most important part to interpret in these indices is the R-square or the adjusted R-square. If you don't know which one to use, use the adjusted one. The other ones are used for model comparisons calculating other things and those will be relevant when you do model comparisons that I'll explain in another video.