Interactive and Dynamic Graphics for Data Analysis, With R and GGobi
介绍
Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V
Technical Notes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .XIII
List of Figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .XV
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Data visualization: beyond the third dimension . . . . . . . . . . . . . . 1
1.2 Statistical data visualization: goals and history . . . . . . . . . . . . . . 3
1.3 Getting down to data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Getting real: process and caveats . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Interactive investigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 TheToolbox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Plot types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Univariate plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Bivariate plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Multivariate plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.4 Plot arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Plot manipulation and enhancement . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.1 Brushing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2 Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.3 Scaling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.4 Subset selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.5 Line segments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.6 Interactive drawing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3.7 Dragging points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4 Tools available elsewhere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5 Recap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
X Contents
3 Missing Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Background. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Exploring missingness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2.1 Shadow matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2.2 Getting started: missings in the “margins” . . . . . . . . . . . . 52
3.2.3 A limitation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.4 Tracking missings using the shadow matrix . . . . . . . . . . . 55
3.3 Imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Mean values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Random values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.3 Multiple imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4 Recap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4 Supervised Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Background. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.1.1 Classical multivariate statistics . . . . . . . . . . . . . . . . . . . . . . 65
4.1.2 Data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.1.3 Studying the fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Purely graphics: getting a picture of the class structure . . . . . . . 70
4.2.1 Overview of Italian Olive Oils . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.2 Building classifiers to predict region . . . . . . . . . . . . . . . . . 71
4.2.3 Separating the oils by area within each region . . . . . . . . . 73
4.2.4 Taking stock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3 Numerical methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.1 Linear discriminant analysis . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.2 Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.3 Random forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.4 Neural networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3.5 Support vector machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.6 Examining boundaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4 Recap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5 Cluster Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.1 Background. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.2 Purely graphics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 Numerical methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.1 Hierarchical algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.2 Model-based clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.3.3 Self-organizing maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3.4 Comparing methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.4 Characterizing clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.5 Recap. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Contents XI
6 Miscellaneous Topics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2 Longitudinal data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.3 Network data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
6.4 Multidimensional scaling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.1 Tips . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
7.2 Australian Crabs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
7.3 Italian Olive Oils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.4 Flea Beetles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.5 PRIM7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.6 Tropical Atmosphere-Ocean Array (TAO) . . . . . . . . . . . . . . . . . . . . 159
7.7 Primary Biliary Cirrhosis (PBC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.8 Spam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
7.9 Wages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7.10 Rat Gene Expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
7.11 Arabidopsis Gene Expression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.12 Music . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
7.13 Cluster Challenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
7.14 Adjacent Transposition Graph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
7.15 Florentine Families . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
7.16 Morse Code Confusion Rates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
7.17 Personal Social Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 |
下载地址
------分隔线----------------------------