Main Content

Conjuntos de datos de ejemplo de Statistics and Machine Learning Toolbox

Statistics and Machine Learning Toolbox™ incluye una variedad de conjuntos de datos con diferentes formatos y tamaños de archivo. Estos conjuntos de datos se utilizan en ejemplos de documentación para demostrar las prestaciones del software. Este tema resume y describe algunos de los conjuntos de datos disponibles, pero no se trata de una lista exhaustiva.

Conjuntos de datos disponibles con la instalación del producto

Esta lista describe los conjuntos de datos disponibles cuando se instala Statistics and Machine Learning Toolbox. La columna File Contents muestra la salida del comando whos, que puede introducir después de cargar el archivo en el área de trabajo.

Nombre de archivoDescripciónCómo cargarloContenido del archivo
acetylene.mat

Datos de reacciones químicas con indicadores correlacionados

load acetylene.mat

  Name              Size             Bytes  Class     Attributes

  Description      16x105             3360  char                
  x1               16x1                128  double              
  x2               16x1                128  double              
  x3               16x1                128  double              
  y                16x1                128  double              
Para obtener más información, lea la variable Description.

carbig.mat

Dimensiones de coches de 1970 a 1982

load carbig.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      406x1              3248  double              
  Cylinders         406x1              3248  double              
  Displacement      406x1              3248  double              
  Horsepower        406x1              3248  double              
  MPG               406x1              3248  double              
  Mfg               406x13            10556  char                
  Model             406x36            29232  char                
  Model_Year        406x1              3248  double              
  Origin            406x7              5684  char                
  Weight            406x1              3248  double              
  cyl4              406x5              4060  char                
  org               406x7              5684  char                
  when              406x5              4060  char                

carsmall.mat

Subconjunto de carbig.mat que contiene las dimensiones de coches de 1970, 1976 y 1982

load carsmall.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      100x1               800  double              
  Cylinders         100x1               800  double              
  Displacement      100x1               800  double              
  Horsepower        100x1               800  double              
  MPG               100x1               800  double              
  Mfg               100x13             2600  char                
  Model             100x33             6600  char                
  Model_Year        100x1               800  double              
  Origin            100x7              1400  char                
  Weight            100x1               800  double              

census1994.mat

Datos demográficos de la Oficina del Censo de Estados Unidos del repositorio de machine learning de la UCI

load census1994.mat

  Name                 Size              Bytes  Class    Attributes

  Description         20x74               2960  char               
  adultdata        32561x15            1872566  table              
  adulttest        16281x15             944466  table              
Para obtener más información, lea la variable Description.

cereal.mat

Ingredientes de cereales de desayuno

load cereal.mat

  Name            Size            Bytes  Class     Attributes

  Calories       77x1               616  double              
  Carbo          77x1               616  double              
  Cups           77x1               616  double              
  Fat            77x1               616  double              
  Fiber          77x1               616  double              
  Mfg            77x1               154  char                
  Name           77x1             10288  cell                
  Potass         77x1               616  double              
  Protein        77x1               616  double              
  Shelf          77x1               616  double              
  Sodium         77x1               616  double              
  Sugars         77x1               616  double              
  Type           77x1               616  double              
  Variables      15x2              4134  cell                
  Vitamins       77x1               616  double              
  Weight         77x1               616  double              

cities.mat

Evaluaciones de calidad de vida en áreas metropolitanas de Estados Unidos

load cities.mat

  Name              Size            Bytes  Class     Attributes

  categories        9x14              252  char                
  names           329x43            28294  char                
  ratings         329x9             23688  double              

discrim.mat

Una versión de cities.mat que se utiliza para el análisis discriminante

load discrim.mat

  Name              Size            Bytes  Class     Attributes

  big              26x43             2236  char                
  categories        9x14              252  char                
  group           329x1              2632  double              
  idx              26x1               208  double              
  names           329x43            28294  char                
  ratings         329x9             23688  double              

examgrades.mat

Notas de exámenes en una escala de 0 a 100

load examgrades.mat

  Name          Size            Bytes  Class     Attributes

  grades      120x5              4800  double              

fisheriris.mat o fisheriris.csv

Datos Iris de 1936 de Fisher

load fisheriris.mat

  Name           Size            Bytes  Class     Attributes

  meas         150x4              4800  double              
  species      150x1             18100  cell                

fisheriris = readtable("fisheriris.csv");

  Name              Size            Bytes  Class    Attributes

  fisheriris      150x5             24805  table              

flu.mat

Porcentaje de ILI (enfermedades similares a la gripe) estimado por Google Flu Trends en varias regiones de Estados Unidos y porcentaje de ILI ponderado por el CDC basado en los informes de proveedores centinelas

load flu.mat

  Name              Size             Bytes  Class      Attributes

  Description       1x306              612  char                 
  flu              52x11             14640  dataset              
Para obtener más información, lea la variable Description.

gas.mat

Precios de gasolina en el estado de Massachusetts en 1993

load gas.mat

  Name         Size            Bytes  Class     Attributes

  price1      20x1               160  double              
  price2      20x1               160  double              

hald.mat

Calor del cemento vs. mezcla de ingredientes

load hald.mat

  Name              Size            Bytes  Class     Attributes

  Description      22x58             2552  char                
  hald             13x5               520  double              
  heat             13x1               104  double              
  ingredients      13x4               416  double              
Para obtener más información, lea la variable Description.

hogg.mat

Recuento de bacterias en distintos envíos de leche

load hogg.mat

  Name      Size            Bytes  Class     Attributes

  hogg      6x5               240  double              
  x1        6x1                48  double              
  x2        6x1                48  double              
  x3        6x1                48  double              
  x4        6x1                48  double              
  x5        6x1                48  double              

hospital.xls o hospital.mat

Datos de hospitales simulados

hospital = readtable("hospital.xls");

  Name            Size            Bytes  Class    Attributes

  hospital      100x12            44579  table              

load hospital.mat

  Name               Size            Bytes  Class      Attributes

  Description        1x23               46  char                 
  hospital         100x7             43784  dataset              
Para obtener más información, lea la variable Description.

imports-85.mat

Base de datos de importaciones de automóviles en 1985 del repositorio de machine learning de la UCI

load imports-85.mat

  Name               Size            Bytes  Class     Attributes

  Description        9x79             1422  char                
  X                205x26            42640  double              
Para obtener más información, lea la variable Description.

indomethacin.mat

Concentraciones del medicamento indometacina en el torrente sanguíneo de seis sujetos durante 8 horas

load indomethacin.mat

  Name                Size            Bytes  Class     Attributes

  Description        14x50             1400  char                
  concentration      66x1               528  double              
  subject            66x1               528  double              
  time               66x1               528  double              
Para obtener más información, lea la variable Description.

ionosphere.mat

Conjunto de datos de la ionosfera del repositorio de machine learning de la UCI

load ionosphere.mat

  Name               Size            Bytes  Class     Attributes

  Description        5x79              790  char                
  X                351x34            95472  double              
  Y                351x1             37206  cell                
Para obtener más información, lea la variable Description.

kmeansdata.mat

Datos agrupados de cuatro dimensiones

load kmeansdata.mat

  Name        Size            Bytes  Class     Attributes

  X         560x4             17920  double              

lawdata.mat

Nota media y puntuaciones LSAT de 15 escuelas de Derecho

load lawdata.mat

  Name       Size            Bytes  Class     Attributes

  gpa       15x1               120  double              
  lsat      15x1               120  double              

mileage.mat

Datos de consumo de tres modelos de coche de dos fábricas

load mileage.mat

  Name         Size            Bytes  Class     Attributes

  mileage      6x3               144  double              

moore.mat

Demanda de oxígeno bioquímico en cinco predictores

load moore.mat

  Name        Size            Bytes  Class     Attributes

  moore      20x6               960  double              

morse.mat

Reconocimiento de distinciones de código Morse para no programadores

load morse.mat

  Name                  Size             Bytes  Class     Attributes

  Y0                   36x8               2304  double              
  dissimilarities       1x630             5040  double              
  morseChars           36x2               7824  cell                

parts.mat

Descentrado dimensional en 36 partes circulares

load parts.mat

  Name         Size            Bytes  Class     Attributes

  runout      36x4              1152  double              

polydata.mat

Datos de muestra para ajustes polinomiales

load polydata.mat

  Name      Size             Bytes  Class     Attributes

  x         1x43               344  double              
  x1        1x101              808  double              
  y         1x43               344  double              
  y1        1x101              808  double              

popcorn.mat

Producción de palomitas por tipo de máquina y marca

load popcorn.mat

  Name         Size            Bytes  Class     Attributes

  popcorn      6x3               144  double              

reaction.mat

Reacciones cinéticas para el modelo Hougen-Watson

load reaction.mat

  Name            Size            Bytes  Class     Attributes

  beta            5x1                40  double              
  model           1x6                12  char                
  rate           13x1               104  double              
  reactants      13x3               312  double              
  xn              3x10               60  char                
  yn              1x13               26  char                

repeatedmeas.mat

Datos de medidas repetidas simuladas

load repeatedmeas.mat

  Name          Size            Bytes  Class    Attributes

  between      30x12             6415  table              
  within        8x2              1863  table              

stockreturns.mat

Rendimientos simulados de acciones en bolsa

load stockreturns.mat

  Name          Size            Bytes  Class     Attributes

  stocks      100x10             8000  double              

Conjuntos de datos disponibles con ejemplos específicos

Esta lista describe algunos de los conjuntos de datos disponibles al abrir ejemplos específicos de Statistics and Machine Learning Toolbox. La lista no es exhaustiva. La columna File Contents muestra la salida del comando whos, que puede introducir después de cargar el archivo en el área de trabajo.

Nombre de archivoDescripciónCómo cargarloContenido del archivo
arrhythmia.mat

Información de pacientes y variables de respuesta que indican la presencia o ausencia de arritmia cardíaca

openExample("arrhythmia.mat")
load arrhythmia.mat

  Name               Size               Bytes  Class     Attributes

  Description        8x69                1104  char                
  VarNames           1x279              41570  cell                
  X                452x279            1008864  double              
  Y                452x1                 3616  double              
Para obtener más información, lea la variable Description.

batterysmall.mat

Datos del sensor (tensión, corriente y temperatura) y estado de la carga de una batería de iones de litio; un subconjunto de los datos en [1]

openExample("batterysmall.mat")
load batterysmall.mat

  Name                   Size              Bytes  Class     Attributes

  dataLarge              1x1             1886400  struct              
  testDataSmall       1319x6               65361  table               
  trainDataSmall      6773x6              327153  table               

CreditRating_Historical.dat

Ratios financieros, información sobre los sectores industriales y calificaciones crediticias de una lista de clientes corporativos

openExample("CreditRating_Historical.dat")
creditrating = readtable("CreditRating_Historical.dat");

  Name                 Size             Bytes  Class    Attributes

  creditrating      3932x8             649029  table              

humanactivity.mat

Datos de reconocimiento de actividad humana para cinco actividades: sentarse, estar de pie, caminar, correr y bailar

openExample("humanactivity.mat")
load humanactivity.mat

  Name                 Size               Bytes  Class     Attributes

  Description         29x1                 5918  string              
  actid            24075x1               192600  double              
  actnames             1x5                  592  cell                
  feat             24075x60            11556000  double              
  featlabels          60x1                 8292  cell                
Para obtener más información, lea la variable Description.

nlpdata.mat

Datos de procesamiento de lenguaje natural extraídos de la documentación de MathWorks®

openExample("nlpdata.mat")
load nlpdata.mat

  Name                 Size                  Bytes  Class          Attributes

  Description         26x68                   3536  char                     
  X                31572x34023            36716304  double         sparse    
  Y                31572x1                   33094  categorical              
  corpus           31572x1                 6149252  cell                     
  dictionary       34023x1                 4137912  cell                     
Para obtener más información, lea la variable Description.

NYCHousing2015.mat

Información sobre la venta de propiedades en la ciudad de Nueva York en 2015

openExample("NYCHousing2015.mat")
load NYCHousing2015.mat

  Name                    Size               Bytes  Class    Attributes

  NYCHousing2015      91446x10            32103067  table              

ovariancancer.mat

Observaciones agrupadas de 4000 predictores para el cáncer de ovario, proporcionadas en [2] y [3]

openExample("ovariancancer.mat")
load ovariancancer.mat

  Name        Size                Bytes  Class     Attributes

  grp       216x1                 25056  cell                
  obs       216x4000            3456000  single              

spectra.mat

Espectros NIR y números de octanos para 60 muestras de gasolina

openExample("spectra.mat")
load spectra.mat

  Name              Size              Bytes  Class      Attributes

  Description      11x72               1584  char                 
  NIR              60x401            192480  double               
  octane           60x1                 480  double               
  spectra          60x2              195660  dataset              
Para obtener más información, lea la variable Description.

Referencias

[1] Kollmeyer, Phillip, Carlos Vidal, Mina Naguib, and Michael Skells. "LG 18650HG2 Li-ion Battery Data and Example Deep Neural Network xEV SOC Estimator Script." Mendeley 3 (March 2020). https://doi.org/10.17632/CP3473X7XV.3.

[2] Conrads, Thomas P., Vincent A. Fusaro, Sally Ross, Don Johann, Vinodh Rajapakse, Ben A. Hitt, Seth M. Steinberg, et al. "High-Resolution Serum Proteomic Features for Ovarian Cancer Detection." Endocrine-Related Cancer 11 (2004): 163–78.

[3] Petricoin, Emanuel F., Ali M. Ardekani, Ben A. Hitt, Peter J. Levine, Vincent A. Fusaro, Seth M. Steinberg, Gordon B. Mills, et al. “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” The Lancet 359, no. 9306 (February 2002): 572–77.

Temas relacionados