Conjuntos de datos de ejemplo de Statistics and Machine Learning Toolbox
Statistics and Machine Learning Toolbox™ incluye una variedad de conjuntos de datos con diferentes formatos y tamaños de archivo. Estos conjuntos de datos se utilizan en ejemplos de documentación para demostrar las prestaciones del software. Este tema resume y describe algunos de los conjuntos de datos disponibles, pero no se trata de una lista exhaustiva.
Conjuntos de datos disponibles con la instalación del producto
Esta lista describe los conjuntos de datos disponibles cuando se instala Statistics and Machine Learning Toolbox. La columna File Contents
muestra la salida del comando whos
, que puede introducir después de cargar el archivo en el área de trabajo.
Nombre de archivo | Descripción | Cómo cargarlo | Contenido del archivo |
---|---|---|---|
acetylene.mat | Datos de reacciones químicas con indicadores correlacionados |
load acetylene.mat | Name Size Bytes Class Attributes Description 16x105 3360 char x1 16x1 128 double x2 16x1 128 double x3 16x1 128 double y 16x1 128 double Description . |
carbig.mat | Dimensiones de coches de 1970 a 1982 |
load carbig.mat |
Name Size Bytes Class Attributes Acceleration 406x1 3248 double Cylinders 406x1 3248 double Displacement 406x1 3248 double Horsepower 406x1 3248 double MPG 406x1 3248 double Mfg 406x13 10556 char Model 406x36 29232 char Model_Year 406x1 3248 double Origin 406x7 5684 char Weight 406x1 3248 double cyl4 406x5 4060 char org 406x7 5684 char when 406x5 4060 char |
carsmall.mat | Subconjunto de |
load carsmall.mat |
Name Size Bytes Class Attributes Acceleration 100x1 800 double Cylinders 100x1 800 double Displacement 100x1 800 double Horsepower 100x1 800 double MPG 100x1 800 double Mfg 100x13 2600 char Model 100x33 6600 char Model_Year 100x1 800 double Origin 100x7 1400 char Weight 100x1 800 double |
census1994.mat | Datos demográficos de la Oficina del Censo de Estados Unidos del repositorio de machine learning de la UCI |
load census1994.mat | Name Size Bytes Class Attributes Description 20x74 2960 char adultdata 32561x15 1872566 table adulttest 16281x15 944466 table Description . |
cereal.mat | Ingredientes de cereales de desayuno |
load cereal.mat |
Name Size Bytes Class Attributes Calories 77x1 616 double Carbo 77x1 616 double Cups 77x1 616 double Fat 77x1 616 double Fiber 77x1 616 double Mfg 77x1 154 char Name 77x1 10288 cell Potass 77x1 616 double Protein 77x1 616 double Shelf 77x1 616 double Sodium 77x1 616 double Sugars 77x1 616 double Type 77x1 616 double Variables 15x2 4134 cell Vitamins 77x1 616 double Weight 77x1 616 double |
cities.mat | Evaluaciones de calidad de vida en áreas metropolitanas de Estados Unidos |
load cities.mat |
Name Size Bytes Class Attributes categories 9x14 252 char names 329x43 28294 char ratings 329x9 23688 double |
discrim.mat | Una versión de |
load discrim.mat |
Name Size Bytes Class Attributes big 26x43 2236 char categories 9x14 252 char group 329x1 2632 double idx 26x1 208 double names 329x43 28294 char ratings 329x9 23688 double |
examgrades.mat | Notas de exámenes en una escala de 0 a 100 |
load examgrades.mat |
Name Size Bytes Class Attributes grades 120x5 4800 double |
fisheriris.mat o fisheriris.csv | Datos Iris de 1936 de Fisher |
load fisheriris.mat |
Name Size Bytes Class Attributes meas 150x4 4800 double species 150x1 18100 cell |
fisheriris = readtable("fisheriris.csv"); |
Name Size Bytes Class Attributes fisheriris 150x5 24805 table | ||
flu.mat | Porcentaje de ILI (enfermedades similares a la gripe) estimado por Google Flu Trends en varias regiones de Estados Unidos y porcentaje de ILI ponderado por el CDC basado en los informes de proveedores centinelas |
load flu.mat | Name Size Bytes Class Attributes Description 1x306 612 char flu 52x11 14640 dataset Description . |
gas.mat | Precios de gasolina en el estado de Massachusetts en 1993 |
load gas.mat |
Name Size Bytes Class Attributes price1 20x1 160 double price2 20x1 160 double |
hald.mat | Calor del cemento vs. mezcla de ingredientes |
load hald.mat | Name Size Bytes Class Attributes Description 22x58 2552 char hald 13x5 520 double heat 13x1 104 double ingredients 13x4 416 double Description . |
hogg.mat | Recuento de bacterias en distintos envíos de leche |
load hogg.mat |
Name Size Bytes Class Attributes hogg 6x5 240 double x1 6x1 48 double x2 6x1 48 double x3 6x1 48 double x4 6x1 48 double x5 6x1 48 double |
hospital.xls o hospital.mat | Datos de hospitales simulados |
hospital = readtable("hospital.xls"); |
Name Size Bytes Class Attributes hospital 100x12 44579 table |
load hospital.mat | Name Size Bytes Class Attributes Description 1x23 46 char hospital 100x7 43784 dataset Description . | ||
imports-85.mat | Base de datos de importaciones de automóviles en 1985 del repositorio de machine learning de la UCI |
load imports-85.mat | Name Size Bytes Class Attributes Description 9x79 1422 char X 205x26 42640 double Description . |
indomethacin.mat | Concentraciones del medicamento indometacina en el torrente sanguíneo de seis sujetos durante 8 horas |
load indomethacin.mat | Name Size Bytes Class Attributes Description 14x50 1400 char concentration 66x1 528 double subject 66x1 528 double time 66x1 528 double Description . |
ionosphere.mat | Conjunto de datos de la ionosfera del repositorio de machine learning de la UCI |
load ionosphere.mat | Name Size Bytes Class Attributes Description 5x79 790 char X 351x34 95472 double Y 351x1 37206 cell Description . |
kmeansdata.mat | Datos agrupados de cuatro dimensiones |
load kmeansdata.mat |
Name Size Bytes Class Attributes X 560x4 17920 double |
lawdata.mat | Nota media y puntuaciones LSAT de 15 escuelas de Derecho |
load lawdata.mat |
Name Size Bytes Class Attributes gpa 15x1 120 double lsat 15x1 120 double |
mileage.mat | Datos de consumo de tres modelos de coche de dos fábricas |
load mileage.mat |
Name Size Bytes Class Attributes mileage 6x3 144 double |
moore.mat | Demanda de oxígeno bioquímico en cinco predictores |
load moore.mat |
Name Size Bytes Class Attributes moore 20x6 960 double |
morse.mat | Reconocimiento de distinciones de código Morse para no programadores |
load morse.mat |
Name Size Bytes Class Attributes Y0 36x8 2304 double dissimilarities 1x630 5040 double morseChars 36x2 7824 cell |
parts.mat | Descentrado dimensional en 36 partes circulares |
load parts.mat |
Name Size Bytes Class Attributes runout 36x4 1152 double |
polydata.mat | Datos de muestra para ajustes polinomiales |
load polydata.mat |
Name Size Bytes Class Attributes x 1x43 344 double x1 1x101 808 double y 1x43 344 double y1 1x101 808 double |
popcorn.mat | Producción de palomitas por tipo de máquina y marca |
load popcorn.mat |
Name Size Bytes Class Attributes popcorn 6x3 144 double |
reaction.mat | Reacciones cinéticas para el modelo Hougen-Watson |
load reaction.mat |
Name Size Bytes Class Attributes beta 5x1 40 double model 1x6 12 char rate 13x1 104 double reactants 13x3 312 double xn 3x10 60 char yn 1x13 26 char |
repeatedmeas.mat | Datos de medidas repetidas simuladas |
load repeatedmeas.mat |
Name Size Bytes Class Attributes between 30x12 6415 table within 8x2 1863 table |
stockreturns.mat | Rendimientos simulados de acciones en bolsa |
load stockreturns.mat |
Name Size Bytes Class Attributes stocks 100x10 8000 double |
Conjuntos de datos disponibles con ejemplos específicos
Esta lista describe algunos de los conjuntos de datos disponibles al abrir ejemplos específicos de Statistics and Machine Learning Toolbox. La lista no es exhaustiva. La columna File Contents
muestra la salida del comando whos
, que puede introducir después de cargar el archivo en el área de trabajo.
Nombre de archivo | Descripción | Cómo cargarlo | Contenido del archivo |
---|---|---|---|
arrhythmia.mat | Información de pacientes y variables de respuesta que indican la presencia o ausencia de arritmia cardíaca |
openExample("arrhythmia.mat") load arrhythmia.mat | Name Size Bytes Class Attributes Description 8x69 1104 char VarNames 1x279 41570 cell X 452x279 1008864 double Y 452x1 3616 double Description . |
batterysmall.mat | Datos del sensor (tensión, corriente y temperatura) y estado de la carga de una batería de iones de litio; un subconjunto de los datos en [1] |
openExample("batterysmall.mat") load batterysmall.mat |
Name Size Bytes Class Attributes dataLarge 1x1 1886400 struct testDataSmall 1319x6 65361 table trainDataSmall 6773x6 327153 table |
CreditRating_Historical.dat | Ratios financieros, información sobre los sectores industriales y calificaciones crediticias de una lista de clientes corporativos |
openExample("CreditRating_Historical.dat") creditrating = readtable("CreditRating_Historical.dat"); |
Name Size Bytes Class Attributes creditrating 3932x8 649029 table |
humanactivity.mat | Datos de reconocimiento de actividad humana para cinco actividades: sentarse, estar de pie, caminar, correr y bailar |
openExample("humanactivity.mat") load humanactivity.mat | Name Size Bytes Class Attributes Description 29x1 5918 string actid 24075x1 192600 double actnames 1x5 592 cell feat 24075x60 11556000 double featlabels 60x1 8292 cell Description . |
nlpdata.mat | Datos de procesamiento de lenguaje natural extraídos de la documentación de MathWorks® |
openExample("nlpdata.mat") load nlpdata.mat | Name Size Bytes Class Attributes Description 26x68 3536 char X 31572x34023 36716304 double sparse Y 31572x1 33094 categorical corpus 31572x1 6149252 cell dictionary 34023x1 4137912 cell Description . |
NYCHousing2015.mat | Información sobre la venta de propiedades en la ciudad de Nueva York en 2015 |
openExample("NYCHousing2015.mat") load NYCHousing2015.mat |
Name Size Bytes Class Attributes NYCHousing2015 91446x10 32103067 table |
ovariancancer.mat | Observaciones agrupadas de 4000 predictores para el cáncer de ovario, proporcionadas en [2] y [3] |
openExample("ovariancancer.mat") load ovariancancer.mat |
Name Size Bytes Class Attributes grp 216x1 25056 cell obs 216x4000 3456000 single |
spectra.mat | Espectros NIR y números de octanos para 60 muestras de gasolina |
openExample("spectra.mat") load spectra.mat | Name Size Bytes Class Attributes Description 11x72 1584 char NIR 60x401 192480 double octane 60x1 480 double spectra 60x2 195660 dataset Description . |
Referencias
[1] Kollmeyer, Phillip, Carlos Vidal, Mina Naguib, and Michael Skells. "LG 18650HG2 Li-ion Battery Data and Example Deep Neural Network xEV SOC Estimator Script." Mendeley 3 (March 2020). https://doi.org/10.17632/CP3473X7XV.3.
[2] Conrads, Thomas P., Vincent A. Fusaro, Sally Ross, Don Johann, Vinodh Rajapakse, Ben A. Hitt, Seth M. Steinberg, et al. "High-Resolution Serum Proteomic Features for Ovarian Cancer Detection." Endocrine-Related Cancer 11 (2004): 163–78.
[3] Petricoin, Emanuel F., Ali M. Ardekani, Ben A. Hitt, Peter J. Levine, Vincent A. Fusaro, Seth M. Steinberg, Gordon B. Mills, et al. “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” The Lancet 359, no. 9306 (February 2002): 572–77.