5 Inférence dans le modèle gaussien

Exercice 1 (Questions de cours) A, C, A, B, B.

Exercice 2 (Théorème 5.1) L’IC (i) découle de la propriété (i) de la proposition 5.3. La propriété (ii) donnant un IC pour σ2 découle de la loi de σ^2. Enfin, la propriété (iii) est une conséquence de la loi obtenue propriété (ii) de la proposition 5.3.

Exercice 3 (Test et R2) En utilisant l’orthogonalité des sous-espaces (figure 5.3 page 99) et le théorème de Pythagore, nous avons Y^0Y^2=ε^02ε^2. Nous pouvons le démontrer de la manière suivante : Y^0Y^2=Y^0Y+YY^2=ε^02+ε^2+2Y^0Y,YY^=ε^02+ε^22YY^0,YY^=ε^02+ε^22PX0Y,PXY=ε^02+ε^22(PX+PX)PX0Y,PXY. Or (X0)(X), nous avons donc PXPX0=PX. De plus, ε^=PXY, cela donne (PX+PX)PX0Y,PXY=PXY,PXY+PXPX0Y,PXY=ε^2+0. Le résultat est démontré, revenons à la statistique de test. Introduisons les différentes écritures du R2 R22=Y^Y¯2YY¯2=1ε^2YY¯2. La statistique de test vaut F=ε^02ε^2YY^2nppp0=ε^02/YY¯2ε^2/YY¯2YY^2/YY¯2nppp0, nous obtenons F=R2R021R2nppp0, soit le résultat annoncé. Cette dernière quantité est toujours positive car R02R2 et nous avons là un moyen de tester des modèles emboîtés via le coefficient de détermination.

Exercice 4 (Test et R2 et constante dans le modèle) à corriger ;).

Exercice 5 (Ozone)  

  1. Les résultats sont dans l’ordre 6.2,0.8,6.66,1.5,1,50,5,124.

  2. La statistique de test de nullité du paramètre se trouve dans la troisième colonne, nous conservons H0 pour les paramètres associés à Ne9 et Ne12, et la rejetons pour les autres.

  3. La statistique de test de nullité simultanée des paramètres autres que la constante vaut 50. Nous rejetons H0.

  4. Nous connaissons y^n+1p=xn+1β^,xn+1=(1,10,20,0,0,1)β^=(62,4,5,1.5,0.5,0.8) et donc la prévision est y^n+1p=122.8. Pour l’intervalle de confiance il nous faut σ^=16 mais aussi la matrice XX (donc toutes les données) ce que nous n’avons pas ici. On ne peut donc faire d’intervalle de confiance.

  5. Nous sommes en présence de modèles emboîtés, nous pouvons appliquer la formule adaptée (voir l’exercice précédent) : F=R22R0221R22nppp0=0.660.510.661242=29. Nous conservons H0, c’est-à-dire le modèle le plus simple.

Exercice 6 (Équivalence du test T et du test F) Récrivons la statistique de test F, en se rappelant que X0 est la matrice X privée de sa je colonne, celle correspondant au coefficient que l’on teste : F=Xβ^PX0Xβ^2σ^2=Xjβ^jβ^jPX0Xj2σ^2=β^j2σ^2Xj(IPX0)Xj. Récrivons maintenant le carré de la statistique T en explicitant σ^β^j2 : T2=β^j2σ^2[(XX)1]jj,[(XX)1]jj est le je élément diagonal de la matrice (XX)1. Afin de calculer ce terme, nous utilisons la formule permettant d’obtenir l’inverse d’une matrice bloc, formule donnée en annexe A.2 page 416. Pour appliquer facilement cette formule, en changeant l’ordre des variables, la matrice X devient (X0|Xj) et XX s’écrit alors XX=(X0X0X0XjXjX0XjXj). Son inverse, en utilisant la formule d’inverse de matrice bloc, est [(XX)1]jj=(XjXjXjX0(X0X0)1X0Xj)1=(Xj(IPX0)Xj)1. Nous avons donc T2=F. Au niveau des lois, l’égalité est aussi valable et nous avons que le carré d’un Student à (np) ddl est une loi de Fisher à (1,np) ddl. Bien entendu, le quantile (1α) d’une loi de Fisher correspond au quantile 1α/2 d’une loi de Student. La loi T est symétrique autour de 0 et donc, lorsqu’elle est élevée au carré, les valeurs plus faibles que tnp(α/2), qui ont une probabilité sous H0 de α/2 d’apparaître, et celles plus fortes que tnp(1α/2), qui ont une probabilité sous H0 de α/2 d’apparaître, deviennent toutes plus grandes que tnp2(1α/2). La probabilité que ces valeurs dépassent ce seuil sous H0 est de α et correspond donc bien par définition à f1,np(1α).

Exercice 7 (Équivalence du test F et du test de VM) Nous avons noté la vraisemblance en début du chapitre par L(Y,β,σ2)=i=1nfY(yi)=(12πσ2)n/2exp[12σ2i=1n(yij=1pβjxij)2]=(12πσ2)n/2exp[12σ2YXβ2]. Cette vraisemblance est maximale lorsque β^ est l’estimateur des MC et que σ^2=YXβ^2/n. Nous avons alors maxβ,σ2L(Y,β,σ2)=(n2πYXβ^2)n/2exp(n2)=(n2πSCR)n/2exp(n2)=L(Y,β^,σ^2),SCR=YXβ^2.

Sous l’hypothèse H0 nous obtenons de façon évidente le résultat suivant : maxβ,σ2L0(Y,β0,σ2)=(n2πSCR0)n/2exp(n2)=L0(Y,β^0,σ^02),SCR0 correspond à la somme des carrés résiduels sous H0, c’est-à-dire SCR0=YX0β^02. On définit le test du rapport de vraisemblance maximale (VM) par la région critique suivante : Dα={YRn:λ=L0(Y,β^0,σ^2)L(Y,β^,σ^2)<λ0}. La statistique du rapport de vraisemblance maximale vaut ici λ=(SCRSCR0)n/2=(SCR0SCR)n/2. Le test du rapport de VM rejette H0 lorsque la statistique λ est inférieure à une valeur λ0 définie de façon à avoir le niveau du test égal à α. Le problème qui reste à étudier est de connaître la distribution (au moins sous H0) de λ. Définissons, pour λ positif, la fonction bijective g suivante : g(λ)=λ2/n1. La fonction g est décroissante (sa dérivée est toujours négative), donc λ<λ0 si et seulement si g(λ)>g(λ0). Cette fonction g va nous permettre de nous ramener à des statistiques dont la loi est connue. Nous avons alors g(λ)>g(λ0)SCR0SCRSCR>g(λ0)nppp0SCR0SCRSCR>f0f0 est déterminée par PH0(nppp0SCR0SCRSCR>f0)=α, avec la loi de cette statistique qui est une loi Fpp0,np (cf.~section précédente). Le test du rapport de VM est donc équivalent au test qui rejette H0 lorsque la statistique F=nppp0SCR0SCRSCR est supérieure à f0, où f0 est la valeur du fractile α de la loi de Fisher à (pp0,np) degrés de liberté.

Exercice 8 (Test de Fisher pour une hypothèse linéaire quelconque) Nous pouvons toujours traduire l’hypothèse H0 : Rβ=r en terme de sous-espace de MX. Lorsque r=0, nous avons un sous-espace vectoriel de MX et lorsque r0 nous avons un sous-espace affine de MX. Dans les deux cas, nous noterons ce sous-espace M0 et M0MX. Cependant nous ne pourrons plus le visualiser facilement comme nous l’avons fait précédemment avec MX0 où nous avions enlevé des colonnes à la matrice X. Nous allons décomposer l’espace MX en deux sous-espaces orthogonaux MX=M0(M0MX). Sous H0, l’estimation des moindres carrés donne Y^0 projection orthogonale de Y sur M0 et nous appliquons la même démarche pour construire la statistique de test. La démonstration est donc la même que celle du théorème 5.2. C’est-à-dire que nous regardons si Y^0 est proche de Y^ et nous avons donc F=Y^Y^02/dim(M0MX)YY^2/dim(MX)=npqYY^02YY^2YY^2=npqSCR0SCRSCRFq,np. Le problème du test réside dans le calcul de Y^0. Dans la partie précédente, il était facile de calculer Y^0 car nous avions la forme explicite du projecteur sur M0. Une première façon de procéder revient à trouver la forme du projecteur sur M0. Une autre façon de faire est de récrire le problème de minimisation sous la contrainte Rβ=r. Ces deux manières d’opérer sont présentées en détail dans la correction de l’exercice 2.13. Dans tous les cas l’estimateur des MC contraints par Rβ=r est défini par β^0=β^+(XX)1R[R(XX)1R]1(rRβ^).

Exercice 9 (Généralisation de la régression ridge) Soit la fonction à minimiser R(β)=YXβ2j=1pδj(βj2)=(YXβ)(YXβ)βΔβ avec δ1,,δp des réels positifs ou nuls.

Sachant que βAββ=2Aβ (avec A symétrique) et que Xββ=X nous avons la dérivée partielle suivante Rβ=2X(YXβ)+2Δβ En annulant cette dérivée nous avons 2X(YXβ^RG)+2Δβ^RG=0(XX+Δ)β^RG=XY donc en prémultipliant par (XXΔ)1 nous obtenons β^RG=(XXΔ)1XY. En régression multiple le nombre de paramètres est p=tr(PX) avec PX la matrice de l’endomorphisme qui permet d’obtenir Y^ à partir de Y. Dans cette régression ridge, nous avons que Y^RG=Xβ^RG=X(XXΔ)1XY donc la matrice de l’endomorphisme est ici X(XXΔ)1X et le nombre équivalent de paramètres est tr(X(XXΔ)1X).

Exercice 10 (IC pour la régression ridge)  

  1. Loi de β^ : \NO(β,σ2(XX)1) grâce au modèle et à H3.

  2. Loi de $_{}() $. Comme β^ridge(κ~)=(XXκ~I)1XY avec A=(XXκ~I)1X qui est une matrice fixe. Avec H3 et le modèle de régression multiple on a que Y\NO(Xβ,σ2I).

    Puisque Y est un vecteur gaussien, il en est de même de β^ridge(κ~)=AY. Calculons son espérance E(β^ridge(κ~))=E(AY)=AE(Y)=AXβ=(XXκ~I)1XXβ et sa variance V(β^ridge(κ~))=V(AY)=AV(Y)A=Aσ2IA=σ2AA=σ2(XXκ~I)1XX(XXκ~I)1.

  3. Calculons le produit scalaire de YY^ridge et Y^MC: <YY^ridge;Y^MC>=<YY^MC+Y^MCY^ridge;Y^MC>=<YY^MC;Y^MC>+<Y^MCY^ridge;Y^MC>=0+<Y^MCY^ridge;Y^MC> Or Y^ridge=Xβridge(κ~) donc il appartient au sous espace vectoriel (X), de même que Y^MC=PXY. Sauf si κ~=0 on a que Y^ridgeY^MC donc Y^MCY^ridge est un vecteur non nul de (X) et donc son produit scalaire avec Y^MC(X) est non nul.

  4. Il faut pouvoir démontrer l’indépendance de σ^ridge et β^ridge. Pour le théorème 5.1, on montre l’indépendance entreβ^ et σ^ en considérant les 2 vecteurs β^ et ε^=(YY^). Comme nous pouvons écrire β^=(XX)1XPXY, β^ est donc une fonction fixe (dépendante uniquement des X) de PXY. De plus, ε^=PXY est orthogonal à PXY. Ces 2 vecteurs suivent des lois normales et sont donc indépendants. Il en résulte que β^ et YY^ sont indépendants et de même pour β^ et σ^.

    Ici, σ^ridge est une fonction de YY^ridge. Le vecteur β^ridge=(XX+κ~Ip)1XY=(XX+κ~Ip)1XPXY est une fonction fixe (κ~ est considéré comme fixé) de PXY. Par contre, PXY n’est pas orthogonal à (YY^ridge), comme nous l’avons montré, nous ne pouvons donc montrer l’indépendance de β^ridge et σ^ridge.

    Une autre idée serait d’utiliser σ^ mais en général si l’on utilise la régression ridge c’est que l’on se doute que Y^ n’est pas un bon estimateur de Xβ et donc σ^ qui est une fonction de YY^ risque de ne pas être un bon estimateur de σ. L’estimateur σ^ peut même être nul, ce qui pratiquement peut arriver quand p>n.

  5. En général quand X est fixe pour un bootstrap en régression on estime β^ puis on déduit les {ϵ^i}. De cet ensemble sont tirés de manière équiprobable avec remise n résidus {ϵ^i}. Ces nouveaux résidus sont additionnés à Xβ pour faire un nouveau vecteur Y et avoir un échantillon bootstap Y,X.

    Ici l’estimation de β^ sera mauvaise (et c’est pour cela que l’on utilise la régression ridge) et plutôt que d’estimer de mauvais résidus nous allons retirer avec remise parmi les Yi,Xi. ce qui est la procédure adaptée au X aléatoire mais ici nous avons peu de choix

    Entrées : κ~ fixé, α fixé, B choisi.
    Sorties : IC, au niveau α, coordonnée par coordonnée de β.

    1. Estimer βridge(κ~) .
    2. En déduire ε^ridge=YXβ^ridge.
    3. Pour k=1 à B
      • tirer avec remise n résidus estimés parmi les n coordonnées de ε^ridge ;
      • on note ces résidus (réunis dans 1 vecteur) ε^ridge(k) ;
      • construire 1 échantillon Y(k)=Xβridge(κ~)+ε^ridge(k) ;
      • κ~(k)κ~ ;
      • estimer le vecteur de paramètre βridge(k)(κ~(k))=(XX+κ~(k)Ip)1XY(k) ;
    4. Pour j=1 à p
      • calculer les quantiles empiriques de niveau α/2 et 1α/2 pour la coordonnée j, sur tous les vecteurs {βridge(k)(κ~)} ;
  6. L’algorithme est presque le même. Cependant comme κ~ n’est pas fixé, pour estimer βridge(κ~) il faut déterminer κ~ par une méthode choisie. Ensuite, à chaque estimation de βridge(k)(κ~(k)), il est nécessaire au préalable de déterminer κ~(k) par la même méthode que celle utilisée pour déterminer κ~.