# Practice Exercises — Story Format ## Voorbereiding op Tentamen Real Estate Research --- # 🏢 Casus 1: De Twijfel van HR-manager Sophie ## Het Verhaal Sophie werkt als HR-manager bij een middelgroot technologiebedrijf in Amsterdam. De afdeling heeft al jarenlast van een hoog verloop — gemiddeld vertrekt 22% van de medewerkers per jaar. Het management vraagt zich af: **loont het om meer te investeren in opleiding?** Sophie analyseert data van 48 medewerkers die de afgelopen 3 jaar zijn aangenomen. Ze heeft voor iedereen geregistreerd: - Aantal jaar opleiding na de middelbare school - Jaarsalaris (in duizenden euro's) - Leeftijd bij indiensttreding - Aantal jaar werkervaring voor deze baan Met behulp van een collega-econoom heeft Sophie een regressie gerund: $$ \text{Salaris}_i = \beta_0 + \beta_1 \text{Opleiding}_i + \beta_2 \text{Leeftijd}_i + \beta_3 \text{Ervaring}_i + u_i $$ ## De Resultaten | Variabele | Coefficient | Std. Error | t-waarde | p-waarde | |-----------|-------------|------------|----------|----------| | Intercept | 8.50 | 4.20 | 2.02 | 0.049 | | Opleiding (jaren) | **2.15** | **0.55** | 3.91 | 0.000 | | Leeftijd | 0.35 | 0.28 | 1.25 | 0.216 | | Werkervaring | 0.80 | 0.42 | 1.90 | 0.063 | - $R^2 = 0.58$ - $n = 48$ - De collega verzekert Sophie dat alle CLRM-assumpties (A1-A5) gelden --- ## De Vragen ### Deel A: De Directeur vraagt uitleg De directeur wil weten: *"Is dit nou echt significant, of kunnen we net zo goed dobbelen?"* **Beantwoord de volgende vragen voor de directeur:** 1. **De onderzoeksvraag:** Wat toets je precies als je vraagt of opleiding een effect heeft op salaris? - Schrijf de nulhypothese ($H_0$) en alternatieve hypothese ($H_1$) op. - Is dit een éénzijdige of tweezijdige toets? Leg uit waarom. 2. **De berekening:** Laat zien hoe de t-waarde van 3.91 is berekend. Laat de formule zien en vul de getallen in. 3. **Het oordeel:** - Wat is de kritieke waarde bij $\alpha = 0.05$ (tweezijdig)? - Vergelijk je berekende t-waarde met deze kritieke waarde. - Wat is je conclusie in gewone taal voor de directeur? 4. **De onzekerheid:** Stel dat de directeur zegt: *"Maar het zou toch ook 1.5 of 0.8 kunnen zijn?"* - Bereken een 95% betrouwbaarheidsinterval voor het opleidingseffect. - Wat betekent dit interval voor de directeur? --- ### Deel B: De Sceptische CFO De CFO denkt: *"Misschien dat leeftijd wel belangrijker is dan opleiding. En als we iemand aannemen die al ervaring heeft, hoeft die toch minder opleiding?"* 5. **Leeftijd vs Opleiding:** Test of leeftijd een significant effect heeft op salaris op het 5% niveau. Wat concludeer je? 6. **Werkervaring:** De CFO ziet dat werkervaring een p-waarde van 0.063 heeft. Leg uit wat dit betekent in de context van het bedrijf. 7. **De bonusvraag:** Stel dat de CFO vraagt: *"Als ik twee kandidaten heb — Anouk (5 jaar opleiding, 2 jaar ervaring) en Bas (3 jaar opleiding, 4 jaar ervaring) — wie verdient dan meer volgens dit model?"* - Bereken het voorspelde salaris voor beiden. - Welke aanname maak je hierbij over leeftijd? --- ### Deel C: De Presentatie Sophie moet haar bevindingen presenteren aan de Raad van Commissarissen. 8. **Economische interpretatie:** Wat betekent $\hat{\beta}_1 = 2.15$ concreet? Als een medewerker besluit om 2 jaar extra te studeren (bijvoorbeeld een master), wat verwacht je dan qua salarisverschil? 9. **Goed of slecht model?** De directeur vraagt: *"Hoe zeker weten we dat dit model klopt?"* - Wat zegt $R^2 = 0.58$ over dit model? - Leg uit waarom dit wel/niet betekent dat het model "goed" is. --- ## Antwoordenblad (eerst zelf proberen!)

Klik hier voor antwoorden na zelf gedaan te hebben

### Deel A **1. Hypotheses** - $H_0: \beta_1 = 0$ (opleiding heeft geen effect op salaris) - $H_1: \beta_1 \neq 0$ (opleiding heeft wel een effect) - **Tweezijdig:** We toetsen óf positief óf negatief effect, niet van tevoren gericht **2. t-waarde berekening** $$t = \frac{2.15 - 0}{0.55} = \frac{2.15}{0.55} = 3.909 \approx 3.91$$ **3. Oordeel** - $df = 48 - 4 = 44$, kritieke waarde ≈ 2.015 (tabel) of 2.021 (precies) - $|3.91| > 2.02$ → **Verwerp $H_0$** - *"Directeur, opleiding heeft een statistisch significant effect op salaris. Het is zeer onwaarschijnlijk (p < 0,001) dat we dit resultaat zien als er in werkelijkheid geen effect is."* **4. 95% betrouwbaarheidsinterval** - $t_{0.025, 44} = 2.015$ - Marge = $2.015 \times 0.55 = 1.108$ - Interval: $[2.15 - 1.11, 2.15 + 1.11] = [1.04, 3.26]$ - *"We zijn 95% zeker dat elke extra jaar opleiding leidt tot een salarisstijging van €1.040 tot €3.260 per jaar."* --- ### Deel B **5. Leeftijd** - $t = 1.25$, kritieke waarde = 2.015 - $|1.25| < 2.015$ → **Niet verwerpen** - Conclusie: Leeftijd heeft bij deze significantie geen statistisch aantoonbaar effect op salaris. **6. Werkervaring (p = 0.063)** - Op 5% niveau: **niet significant** (0.063 > 0.05) - Op 10% niveau: **wel significant** (0.063 < 0.10) - *"CFO, het effect van werkervaring is op de traditionele grens net niet significant, maar wel suggestief. Met meer data zouden we wellicht een sterker signaal krijgen."* **7. Anouk vs Bas** Anouk: $\hat{Salaris} = 8.50 + 2.15(5) + 0.35(L) + 0.80(2) = 8.50 + 10.75 + 0.35L + 1.60 = 20.85 + 0.35L$ Bas: $\hat{Salaris} = 8.50 + 2.15(3) + 0.35(L) + 0.80(4) = 8.50 + 6.45 + 0.35L + 3.20 = 18.15 + 0.35L$ - **Anouk verdient €2.700 meer** (bij gelijke leeftijd) - Aanname: Leeftijd $L$ is voor beiden hetzelfde --- ### Deel C **8. Economische interpretatie** - $\hat{\beta}_1 = 2.15$: Elk extra jaar opleiding is geassocieerd met €2.150 hoger jaarsalaris, ceteris paribus - 2 jaar extra master: $2 \times 2.150 = €4.300$ meer per jaar - Over 40 jaar carrière: potentieel €172.000 extra verdiend (niet gediscount) **9. Modelkwaliteit** - $R^2 = 0.58$: 58% van de salarisvariabiliteit wordt verklaard door deze drie factoren - 42% komt door andere factoren (talent, onderhandeling, sector, geluk, etc.) - Dit is redelijk maar niet spectaculair — het model legt meer dan de helft van de variatie uit, maar er is nog veel onverklaard

--- # 🏠 Casus 2: Makelaar Marco en de Vraagprijs ## Het Verhaal Marco is makelaar in Den Haag en wil klanten beter adviseren over vraagprijzen. Hij analyseert 35 recent verkochte appartementen in dezelfde buurt. Voor elk appartement heeft hij: - **Vraagprijs** (in €10.000) — dit is de prijs die de verkoper vraagt - **Woonoppervlakte** (in vierkante meters) - **Bouwjaar** (hoe nieuwer, hoe hoger de cijfers) - **Afstand tot station** (in km) Marco wil weten: **welke factoren bepalen de vraagprijs echt?** ## De Resultaten $$ \text{Vraagprijs}_i = \beta_0 + \beta_1 \text{Oppervlakte}_i + \beta_2 \text{Bouwjaar}_i + \beta_3 \text{Afstand}_i + u_i $$ | Variabele | Coefficient | Std. Error | |-----------|-------------|------------| | Intercept | -145.0 | 42.5 | | Oppervlakte | **0.35** | **0.08** | | Bouwjaar | 0.12 | 0.09 | | Afstand tot station | -2.80 | 1.15 | - $n = 35$, $R^2 = 0.72$ Marco's assistent heeft een tabel gemaakt met kritieke waarden: | Vrijheidsgraden | $\alpha = 0.10$ | $\alpha = 0.05$ | $\alpha = 0.01$ | |-----------------|-----------------|------------------|------------------| | 30 | 1.697 | 2.042 | 2.750 | | 31 | 1.696 | 2.040 | 2.744 | | 32 | 1.694 | 2.037 | 2.738 | --- ## De Vragen ### Deel A: De Hypothesetoetsen Marco wil per variabele weten: is dit echt significant, of kan het toeval zijn? **Vraag 1:** Bereken voor elke variabele (behalve de intercept) de t-waarde. Toon je berekening. **Vraag 2:** Bepaal de vrijheidsgraden voor deze regressie. Leg uit hoe je dit berekent. **Vraag 3:** Toets voor elke variabele of deze significant is op het 5% niveau. Gebruik de tabel hierboven. **Vraag 4:** Marco denkt: *"Nieuwe huizen zijn toch altijd duurder?"* — maar jouw analyse laat iets anders zien. Leg uit wat er aan de hand is. Zou dit een steekproefkwestie kunnen zijn, of iets anders? --- ### Deel B: De Betrouwbaarheidsintervallen Een klant vraagt Marco: *"Als ik 10 vierkante meter meer woonoppervlakte heb, hoeveel meer vraagprijs kan ik dan verwachten?"* **Vraag 5:** Construeer een 95% betrouwbaarheidsinterval voor het oppervlakte-effect ($\beta_1$). **Vraag 6:** Marco wil weten of de prijsdaling per kilometer afstand van het station significant is. Gebruik je betrouwbaarheidsinterval om te toetsen of $\beta_3 = -1.5$ wordt verworpen of niet. --- ### Deel C: De Praktijk **Vraag 7:** Een klant heeft een appartement van 80 m², bouwjaar 2010, op 2 km van het station. Wat is de voorspelde vraagprijs volgens dit model? **Vraag 8:** Hetzelfde appartement, maar dan in 1990 gebouwd (ipv 2010). Wat is het prijsverschil? **Vraag 9:** Marco denkt erover om "verdieping" als extra variabele toe te voegen. Hij verwacht dat hoger gelegen appartementen duurder zijn (betere view). Leg uit waarom het toevoegen van een variabele het model altijd beter lijkt te maken ($R^2$ stijgt), maar dit niet per se betekent dat het model ook echt beter voorspelt. --- ## Antwoordenblad

Klik hier voor antwoorden

### Deel A **1. t-waardes** - Oppervlakte: $t = 0.35 / 0.08 = 4.375$ - Bouwjaar: $t = 0.12 / 0.09 = 1.333$ - Afstand: $t = -2.80 / 1.15 = -2.435$ → $|t| = 2.435$ **2. Vrijheidsgraden** - $k = 3$ (explanatory variables) - $df = n - k - 1 = 35 - 3 - 1 = 31$ **3. Toetsing 5% niveau** - Kritieke waarde (tabel): 2.040 - **Oppervlakte**: 4.375 > 2.040 → **Significant** ✓ - **Bouwjaar**: 1.333 < 2.040 → **Niet significant** ✗ - **Afstand**: 2.435 > 2.040 → **Significant** ✓ **4. Bouwjaar-analyse** - De coefficient is positief (0.12) maar niet significant - Mogelijke verklaringen: - In deze buurt correlatieert bouwjaar sterk met andere kenmerken (bijv. oppervlakte — nieuwe appartementen zijn vaak groter) - Multicollineariteit: als oppervlakte en bouwjaar samenhangen, kan het effect van bouwjaar "meezitten" in oppervlakte - Te kleine steekproef om dit subtiele effect te detecteren --- ### Deel B **5. 95% CI voor oppervlakte** - $t_{0.025, 31} = 2.040$ - Marge = $2.040 \times 0.08 = 0.163$ - CI: $[0.35 - 0.163, 0.35 + 0.163] = [0.187, 0.513]$ *Interpretatie: We zijn 95% zeker dat elke extra m² leidt tot een prijsstijging van €1.870 tot €5.130.* **6. Toets $\beta_3 = -1.5$ met CI** Eerst 95% CI voor afstand: - $|-2.80| / 1.15 = 2.435$ - Marge = $2.040 \times 1.15 = 2.346$ - CI: $[-2.80 - 2.35, -2.80 + 2.35] = [-5.15, -0.45]$ - **-1.5 ligt WEL in het interval** [-5.15, -0.45] - Conclusie: We kunnen $H_0: \beta_3 = -1.5$ **niet verwerpen** op 5% niveau - Marco kan niet met zekerheid zeggen dat het effect anders is dan -1.5 --- ### Deel C **7. Voorspelde prijs** $$\hat{Y} = -145.0 + 0.35(80) + 0.12(2010) + (-2.80)(2)$$ $$= -145.0 + 28.0 + 241.2 - 5.6$$ $$= 118.6$$ → Voorspelde vraagprijs: **€1.186.000** (let op: prijs in €10.000!) **8. Prijsverschil 2010 vs 1990** Verschil in bouwjaar: 20 jaar Effect: $20 \times 0.12 = 2.4$ (in €10.000) → **€24.000** duurder voor het nieuwere appartement **9. Variabele toevoegen en $R^2$** - $R^2$ meet verklaarde variantie: altijd stijgend als je variabelen toevoegt (zelfs als ze onzin zijn) - Dit heet **overfitting**: model past te goed op de steekproef, slechter op nieuwe data - Beter: Adjusted $R^2$ bekijken, of out-of-sample testen - "Verdieping" kan relevant zijn, maar toevoegen "omdat het kan" is geen goed idee

--- # 📝 Samenvattende Toetsvragen (5-minuut drills) ## Drill 1: Snelle t-toets **Scenario:** Een regressie met $n = 52$ geeft $\hat{\beta} = 1.8$, $SE = 0.6$. Test $H_0: \beta = 0$ vs $H_1: \beta \neq 0$ op 5% niveau. **Wat moet je doen?** 1. t-waarde berekenen 2. df bepalen (aannemen: 1 explanatory variable) 3. Vergelijken met kritieke waarde 4. Conclusie trekken *(Antwoord: t = 3.0, df = 50, kritiek ≈ 2.01, verwerp H₀)* --- ## Drill 2: Betrouwbaarheidsinterval interpretatie **Scenario:** Je hebt een 95% CI voor een effect: [2.3, 7.8]. Je collega zegt: *"Dat betekent dat er een 95% kans is dat het werkelijke effect tussen 2.3 en 7.8 ligt."* **Is dit correct?** Leg uit waarom wel of niet. *(Antwoord: Nee! Het is geen kans over het werkelijke effect — dat is vast. Het is: als we oneindig vaak steekproeven zouden nemen, zou 95% van de CIs het werkelijke effect bevatten.)* --- ## Drill 3: P-waarde interpretatie **Scenario:** Je regressie geeft p = 0.047 voor een variabele. **Welke uitspraken zijn correct?** - [ ] Er is 4.7% kans dat de nulhypothese waar is - [ ] Als de nulhypothese waar is, is 4.7% de kans op deze data of extremer - [ ] We zijn 95.3% zeker dat er een effect is - [ ] Op 5% niveau verwerpen we de nulhypothese *(Antwoord: alleen de tweede en vierde zijn correct)* --- ## Veelgemaakte Fouten — Checklist | Fout | Waarom fout | Hoe goed | |------|-------------|----------| | $\beta_0$ vergeten in df-berekening | $df = n - k - 1$, de +1 is voor intercept! | ✓ | | Éénzijdig vs tweezijdig door elkaar | Tweezijdig: $\alpha/2$ in elke staart | ✓ | | Betrouwbaarheidsniveau verkeerd | 95% CI → $\alpha = 0.05$, maar $t_{0.025}$ | ✓ | | P-waarde als kans op $H_0$ | P-waarde is $P(\text{data}|H_0)$, niet $P(H_0|\text{data})$ | ✓ | | $|t|$ vergeten | Altijd absolute waarde vergelijken met kritieke waarde | ✓ | --- *Succes met oefenen! 💪*