
Previsão de Preço de Casas com Apache Spark Regressão Linear Neste artigo, usaremos o conjunto de dados da California Housing. Observe, é claro, que esses dados são realmente 'pequenos' e que o uso do Spark nesse contexto pode ser um exagero, porém este notebook é apenas para fins educacionais e deve nos dar uma idéia de como podemos usar o PySpark para construir um modelo de aprendizado de máquina. Este modelo foi criado com base num estudo do Kaggle Compreendendo o conjunto de dados O conjunto de dados da California Housing apareceu em um artigo de 1997 intitulado Sparse Spatial Autoregressions, escrito por Pace, R. Kelley e Ronald Barry e publicado na revista Statistics and Probability Letters. Os pesquisadores construíram esse conjunto de dados usando os dados do censo da Califórnia em 1990. Os dados contêm uma linha por grupo de blocos censitários. Um grupo de blocos é a menor unidade geográfica para a qual o US Census Bureau publica dados de amostra ...