librelist archives

« back to archive

HDFS

HDFS

From:
Alberto Andreotti
Date:
2014-11-30 @ 23:32
Hola,

creo que me econtrado con este bug hace ya muchos años cuando utilicé
hadoop por primera vez.
El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos, copio
datos desde el disco local al HDFS y me las pone en el disco local.
Estoy seguro que está andando mal porque al principio a penas lo configuré
andaba bien. Digamos los dos espacios estaban separados, ahora parece que
son lo mismo.

Alguien sabe por qué es esto?.

Beto.

-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-11-30 @ 23:45
Hola!

Podra ser que hadoop se pierde dónde está la configuración corriente de
hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de estudio
seteo unos parámetros en el objeto Configuration a mano según un post en
stack overflow. Por ahí esté relacionado con eso el bug del que hablas.

P.

On Sunday, November 30, 2014, Alberto Andreotti <albertoandreotti@gmail.com>
wrote:

> Hola,
>
> creo que me econtrado con este bug hace ya muchos años cuando utilicé
> hadoop por primera vez.
> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos, copio
> datos desde el disco local al HDFS y me las pone en el disco local.
> Estoy seguro que está andando mal porque al principio a penas lo configuré
> andaba bien. Digamos los dos espacios estaban separados, ahora parece que
> son lo mismo.
>
> Alguien sabe por qué es esto?.
>
> Beto.
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>
> Skype: andreottialberto
>

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-11-30 @ 23:51
Puede ser, pero la verdad que es frustrante ver que después de tanto tiempo
siga igual. Si algo no anda, yo espero una exception, un mensaje de error,
un segmentation fault!, algo . . . cualquier cosa menos un comportamiento
totalmente opuesto, camuflado como el comportamiento correcto.


2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Hola!
>
> Podra ser que hadoop se pierde dónde está la configuración corriente de
> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de estudio
> seteo unos parámetros en el objeto Configuration a mano según un post en
> stack overflow. Por ahí esté relacionado con eso el bug del que hablas.
>
> P.
>
> On Sunday, November 30, 2014, Alberto Andreotti <
> albertoandreotti@gmail.com> wrote:
>
>> Hola,
>>
>> creo que me econtrado con este bug hace ya muchos años cuando utilicé
>> hadoop por primera vez.
>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos, copio
>> datos desde el disco local al HDFS y me las pone en el disco local.
>> Estoy seguro que está andando mal porque al principio a penas lo
>> configuré andaba b ien. Digamos los dos espacios estaban separados, ahora
>> parece que son lo mismo.
>>
>> Alguien sabe por qué es esto?.
>>
>> Beto.
>>
>> --
>> José Pablo Alberto Andreotti.
>> Tel: 54 351 4730292
>> Móvil: +54 351 155937792.
>> MSN: albertoandreotti@gmail.com
>> Skype: andreottialberto
>>
>


-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-12-01 @ 05:28
Fijate si no sera este problema:


http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs

2014-11-30 18:51 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> Puede ser, pero la verdad que es frustrante ver que después de tanto tiempo
> siga igual. Si algo no anda, yo espero una exception, un mensaje de error,
> un segmentation fault!, algo . . . cualquier cosa menos un comportamiento
> totalmente opuesto, camuflado como el comportamiento correcto.
>
>
> 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>
>> Hola!
>>
>> Podra ser que hadoop se pierde dónde está la configuración corriente de
>> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de estudio
>> seteo unos parámetros en el objeto Configuration a mano según un post en
>> stack overflow. Por ahí esté relacionado con eso el bug del que hablas.
>>
>> P.
>>
>> On Sunday, November 30, 2014, Alberto Andreotti
>> <albertoandreotti@gmail.com> wrote:
>>>
>>> Hola,
>>>
>>> creo que me econtrado con este bug hace ya muchos años cuando utilicé
>>> hadoop por primera vez.
>>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos, copio
>>> datos desde el disco local al HDFS y me las pone en el disco local.
>>> Estoy seguro que está andando mal porque al principio a penas lo
>>> configuré andaba b ien. Digamos los dos espacios estaban separados, ahora
>>> parece que son lo mismo.
>>>
>>> Alguien sabe por qué es esto?.
>>>
>>> Beto.
>>>
>>> --
>>> José Pablo Alberto Andreotti.
>>> Tel: 54 351 4730292
>>> Móvil: +54 351 155937792.
>>> MSN: albertoandreotti@gmail.com
>>> Skype: andreottialberto
>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-01 @ 13:47
Hola Pablo,

exactamente ese era el problema. Repasé la configuración de los XMLs y
salió funcionando, por suerte. Lo había hecho andar de primera, y viste que
nunca se puede evitar renegar aunque sea un rato, es una ley, tenía que
fallar.

Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
intentando buscar un dataset que esé bueno. Le metí para probar el dataset
<http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD> de las canciones
y los años.

Estuve siguiendo un tutorial
<https://mahout.apache.org/users/classification/partial-implementation.html>,
y hace algo como esto para describir los datos,

El problema principal es que habría que generar datos categóricos a partir
de valores contínuos. El tutorial me hace generar un archivo de descripción
de la siguiente manera,

hadoop jar $MAHOUT_HOME/mahout-core-0.9-job.jar
org.apache.mahout.classifier.df.tools.Describe -p
/user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info -d L
90 N

Donde le digo que tengo 1 label y 90 numéricos, el problema es que no sé si
me está generando categorias a partir de los datos contínuos utilizando
tresholds o me está tomando cada valor flotante como una categoría.

Algún consejo?. Por lo demás corre muy bien.

Slds.

2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Fijate si no sera este problema:
>
>
> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>
> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> > Puede ser, pero la verdad que es frustrante ver que después de tanto
> tiempo
> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
> error,
> > un segmentation fault!, algo . . . cualquier cosa menos un comportamiento
> > totalmente opuesto, camuflado como el comportamiento correcto.
> >
> >
> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>
> >> Hola!
> >>
> >> Podra ser que hadoop se pierde dónde está la configuración corriente de
> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de
> estudio
> >> seteo unos parámetros en el objeto Configuration a mano según un post en
> >> stack overflow. Por ahí esté relacionado con eso el bug del que hablas.
> >>
> >> P.
> >>
> >> On Sunday, November 30, 2014, Alberto Andreotti
> >> <albertoandreotti@gmail.com> wrote:
> >>>
> >>> Hola,
> >>>
> >>> creo que me econtrado con este bug hace ya muchos años cuando utilicé
> >>> hadoop por primera vez.
> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos,
> copio
> >>> datos desde el disco local al HDFS y me las pone en el disco local.
> >>> Estoy seguro que está andando mal porque al principio a penas lo
> >>> configuré andaba b ien. Digamos los dos espacios estaban separados,
> ahora
> >>> parece que son lo mismo.
> >>>
> >>> Alguien sabe por qué es esto?.
> >>>
> >>> Beto.
> >>>
> >>> --
> >>> José Pablo Alberto Andreotti.
> >>> Tel: 54 351 4730292
> >>> Móvil: +54 351 155937792.
> >>> MSN: albertoandreotti@gmail.com
> >>> Skype: andreottialberto
> >
> >
> >
> >
> > --
> > José Pablo Alberto Andreotti.
> > Tel: 54 351 4730292
> > Móvil: +54 351 155937792.
> > MSN: albertoandreotti@gmail.com
> > Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-12-01 @ 14:20
Para problemas similares este discretizador me ha dado buenos resultados:

http://pythonhosted.org//pebl/discretizer.html

On Monday, December 1, 2014, Alberto Andreotti <albertoandreotti@gmail.com>
wrote:

> Hola Pablo,
>
> exactamente ese era el problema. Repasé la configuración de los XMLs y
> salió funcionando, por suerte. Lo había hecho andar de primera, y viste que
> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía que
> fallar.
>
> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
> intentando buscar un dataset que esé bueno. Le metí para probar el dataset
> <http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD> de las
> canciones y los años.
>
> Estuve siguiendo un tutorial
> <https://mahout.apache.org/users/classification/partial-implementation.html>,
> y hace algo como esto para describir los datos,
>
> El problema principal es que habría que generar datos categóricos a partir
> de valores contínuos. El tutorial me hace generar un archivo de descripción
> de la siguiente manera,
>
> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
> org.apache.mahout.classifier.df.tools.Describe -p
> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info -d L
> 90 N
>
> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no sé
> si me está generando categorias a partir de los datos contínuos utilizando
> tresholds o me está tomando cada valor flotante como una categoría.
>
> Algún consejo?. Por lo demás corre muy bien.
>
> Slds.
>
> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com
> <javascript:_e(%7B%7D,'cvml','pablo.duboue@gmail.com');>>:
>
>> Fijate si no sera este problema:
>>
>>
>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>>
>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com
>> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>>:
>> > Puede ser, pero la verdad que es frustrante ver que después de tanto
>> tiempo
>> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
>> error,
>> > un segmentation fault!, algo . . . cualquier cosa menos un
>> comportamiento
>> > totalmente opuesto, camuflado como el comportamiento correcto.
>> >
>> >
>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com
>> <javascript:_e(%7B%7D,'cvml','pablo.duboue@gmail.com');>>:
>> >>
>> >> Hola!
>> >>
>> >> Podra ser que hadoop se pierde dónde está la configuración corriente de
>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de
>> estudio
>> >> seteo unos parámetros en el objeto Configuration a mano según un post
>> en
>> >> stack overflow. Por ahí esté relacionado con eso el bug del que hablas.
>> >>
>> >> P.
>> >>
>> >> On Sunday, November 30, 2014, Alberto Andreotti
>> >> <albertoandreotti@gmail.com
>> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>> wrote:
>> >>>
>> >>> Hola,
>> >>>
>> >>> creo que me econtrado con este bug hace ya muchos años cuando utilicé
>> >>> hadoop por primera vez.
>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos,
>> copio
>> >>> datos desde el disco local al HDFS y me las pone en el disco local.
>> >>> Estoy seguro que está andando mal porque al principio a penas lo
>> >>> configuré andaba b ien. Digamos los dos espacios estaban separados,
>> ahora
>> >>> parece que son lo mismo.
>> >>>
>> >>> Alguien sabe por qué es esto?.
>> >>>
>> >>> Beto.
>> >>>
>> >>> --
>> >>> José Pablo Alberto Andreotti.
>> >>> Tel: 54 351 4730292
>> >>> Móvil: +54 351 155937792.
>> >>> MSN: albertoandreotti@gmail.com
>> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>
>> >>> Skype: andreottialberto
>> >
>> >
>> >
>> >
>> > --
>> > José Pablo Alberto Andreotti.
>> > Tel: 54 351 4730292
>> > Móvil: +54 351 155937792.
>> > MSN: albertoandreotti@gmail.com
>> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>
>> > Skype: andreottialberto
>>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> <javascript:_e(%7B%7D,'cvml','albertoandreotti@gmail.com');>
> Skype: andreottialberto
>

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-01 @ 15:59
Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro lado,
cómo la ves al random forest con esos datos?

2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Para problemas similares este discretizador me ha dado buenos resultados:
>
> http://pythonhosted.org//pebl/discretizer.html
>
> On Monday, December 1, 2014, Alberto Andreotti <albertoandreotti@gmail.com>
> wrote:
>
>> Hola Pablo,
>>
>> exactamente ese era el problema. Repasé la configuración de los XMLs y
>> salió funcionando, por suerte. Lo había hecho andar de primera, y viste que
>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía que
>> fallar.
>>
>> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
>> intentando buscar un dataset que esé bueno. Le metí para probar el
>> dataset <http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD> de
>> las canc iones y los años.
>>
>> Estuve siguiendo un tutorial
>> <https://mahout.apache.org/users/classification/partial-implementation.html>,
>> y hace algo como esto para describir los datos,
>>
>> El problema principal es que habría que generar datos categóricos a
>> partir de valores contínuos. El tutorial me hace generar un archivo de
>> descripción de la siguiente manera,
>>
>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
>> org.apache.mahout.classifier.df.tools.Describe -p
>> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info -d L
>> 90 N
>>
>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no sé
>> si me está generando categorias a partir de los datos contínuos utilizando
>> tresholds o me está tomando cada valor flotante como una categoría.
>>
>> Algún consejo?. Por lo demás corre muy bien.
>>
>> Slds.
>>
>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>
>>> Fijate si no sera este problema:
>>>
>>>
>>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>>>
>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com
>>> >:
>>> > Puede ser, pero la verdad que es frustrante ver que después de tanto
>>> tiempo
>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
>>> error,
>>> > un segmentation fault!, algo . . . cualquier cosa menos un
>>> comportamiento
>>> > totalmente opuesto, camuflado como el comportamiento correcto.
>>> >
>>> >
>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>> >>
>>> >> Hola!
>>> >>
>>> >> Podra ser que hadoop se pierde dónde está la configuración corriente
>>> de
>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de
>>> estudio
>>> >> seteo unos parámetros en el objeto Configuration a mano según un post
>>> en
>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
>>> hablas.
>>> >>
>>> >> P.
>>> >>
>>> >> On Sunday, November 30, 2014, Alberto Andreotti
>>> >> <albertoandreotti@gmail.com> wrote:
>>> >>>
>>> >>> Hola,
>>> >>>
>>> >>> creo que me econtrado con este bug hace ya muchos años cuando utilicé
>>> >>> hadoop por primera vez.
>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos,
>>> copio
>>> >>> datos desde el disco local al HDFS y me las pone en el disco local.
>>> >>> Estoy seguro que está andando mal porque al principio a penas lo
>>> >>> configuré andaba b ien. Digamos los dos espacios estaban separados,
>>> ahora
>>> >>> parece que son lo mismo.
>>> >>>
>>> >>> Alguien sabe por qué es esto?.
>>> >>>
>>> >>> Beto.
>>> >>>
>>> >>> --
>>> >>> José Pablo Alberto Andreotti.
>>> >>> Tel: 54 351 4730292
>>> >>> Móvil: +54 351 155937792.
>>> >>> MSN: albertoandreotti@gmail.com
>>> >>> Skype: andreottialberto
>>> >
>>> >
>>> >
>>> >
>>> > --
>>> > José Pablo Alberto Andreotti.
>>> > Tel: 54 351 4730292
>>> > Móvil: +54 351 155937792.
>>> > MSN: albertoandreotti@gmail.com
>>> > Skype: andreottialberto
>>>
>>
>>
>>
>> --
>> José Pablo Alberto Andreotti.
>> Tel: 54 351 4730292
>> Móvil: +54 351 155937792.
>> MSN: albertoandreotti@gmail.com
>> Skype: andreottialberto
>>
>


-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-12-01 @ 16:09
Buena pinta. Me da curiosidad de conocer los resultados :)

P.

2014-12-01 10:59 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro lado,
> cómo la ves al random forest con esos datos?
>
> 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>
>> Para problemas similares este discretizador me ha dado buenos resultados:
>>
>> http://pythonhosted.org//pebl/discretizer.html
>>
>> On Monday, December 1, 2014, Alberto Andreotti
>> <albertoandreotti@gmail.com> wrote:
>>>
>>> Hola Pa blo,
>>>
>>> exactamente ese era el problema. Repasé la configuración de los XMLs y
>>> salió funcionando, por suerte. Lo había hecho andar de primera, y viste que
>>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía que
>>> fallar.
>>>
>>> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
>>> intentando buscar un dataset que esé bueno. Le metí para probar el dataset
>>> de las canc iones y los años.
>>>
>>> Estuve siguiendo un tutorial, y hace algo como esto para describir los
>>> datos,
>>>
>>> El problema principal es que habría que generar datos categóricos a
>>> partir de valores contínuos. El tutorial me hace generar un archivo de
>>> descripción de la siguiente manera,
>>>
>>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
>>> org.apache.mahout.classifier.df.tools.Describe -p
>>> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info -d L
>>> 90 N
>>>
>>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no sé
>>> si me está generando categorias a partir de los datos contínuos utilizando
>>> tresholds o me está tomando cada valor flotante como una categoría.
>>>
>>> Algún consejo?. Por lo demás corre muy bien.
>>>
>>> Slds.
>>>
>>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>>>
>>>> Fijate si no sera este problema:
>>>>
>>>>
>>>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>>>>
>>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
>>>> <albertoandreotti@gmail.com>:
>>>> > Puede ser, pero la verdad que es frustrante ver que después de tanto
>>>> > tiempo
>>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
>>>> > error,
>>>> > un segmentation fault!, algo . . . cualquier cosa menos un
>>>> > comportamiento
>>>> > totalmente opuesto, camuflado como el comportamiento correcto.
>>>> >
>>>> >
>>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>>> >>
>>>> >> Hola!
>>>> >>
>>>> >> Podra ser que hadoop se pierde dónde está la configuración corriente
>>>> >> de
>>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de
>>>> >> estudio
>>>> >> seteo unos parámetros en el objeto Configuration a mano según un post
>>>> >> en
>>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
>>>> >> hablas.
>>>> >>
>>>> >> P.
>>>> >>
>>>> >> On Sunday, November 30, 2014, Alberto Andreotti
>>>> >> <albertoandreotti@gmail.com> wrote:
>>>> >>>
>>>> >>> Hola,
>>>> >>>
>>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
>>>> >>> utilicé
>>>> >>> hadoop por primera vez.
>>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos,
>>>> >>> copio
>>>> >>> datos desde el disco local al HDFS y me las pone en el disco local.
>>>> >>> Estoy seguro que está andando mal porque al principio a penas lo
>>>> >>> configuré andaba b ien. Digamos los dos espacios estaban separados,
>>>> >>> ahora
>>>> >>> parece que son lo mismo.
>>>> >>>
>>>> >>> Alguien sabe por qué es esto?.
>>>> >>>
>>>> >>> Beto.
>>>> >>>
>>>> >>> --
>>>> >>> José Pablo Alberto Andreotti.
>>>> >>> Tel: 54 351 4730292
>>>> >>> Móvil: +54 351 155937792.
>>>> >>> MSN: albertoandreotti@gmail.com
>>>> >>> Skype: andreottialberto
>>>> >
>>>> >
>>>> >
>>>> >
>>>> > --
>>>> > José Pablo Alberto Andreotti.
>>>> > Tel: 54 351 4730292
>>>> > Móvil: +54 351 155937792.
>>>> > MSN: albertoandreotti@gmail.com
>>>> > Skype: andreottialberto
>>>
>>>
>>>
>>>
>>> --
>>> José Pablo Alberto Andreotti.
>>> Tel: 54 351 4730292
>>> Móvil: +54 351 155937792.
>>> MSN: albertoandreotti@gmail.com
>>> Skype: andreottialberto
>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-04 @ 03:08
Hola,

estoy intentando bajarme los datos de censo de los estados unidos, desde
aquí,

http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A

termina siendo lentísimo. Algún otro data set con datos categóricos o algún
mirror de estos datos?

Slds.

2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Buena pinta. Me da curiosidad de conocer los resultados :)
>
> P.
>
> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro
> lado,
> > cómo la ves al random forest con esos datos?
> >
> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>
> >> Para problemas similares este discretizador me ha dado buenos
> resultados:
> >>
> >> http://pythonhosted.org//pebl/discretizer.html
> >>
> >> On Monday, December 1, 2014, Alberto Andreotti
> >> <albertoandreotti@gmail.com> wrote:
> >>>
> >>> Hola Pa blo,
> >>>
> >>> exactamente ese era el problema. Repasé la configuración de los XMLs y
> >>> salió funcionando, por suerte. Lo había hecho andar de primera, y
> viste que
> >>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía que
> >>> fallar.
> >>>
> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
> >>> intentando buscar un dataset que esé bueno. Le metí para probar el
> dataset
> >>> de las canc iones y los años.
> >>>
> >>> Estuve siguiendo un tutorial, y hace algo como esto para describir los
> >>> datos,
> >>>
> >>> El problema principal es que habría que generar datos categóricos a
> >>> partir de valores contínuos. El tutorial me hace generar un archivo de
> >>> descripción de la siguiente manera,
> >>>
> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
> >>> org.apache.mahout.classifier.df.tools.Describe -p
> >>> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info
> -d L
> >>> 90 N
> >>>
> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no
> sé
> >>> si me está generando categorias a partir de los datos contínuos
> utilizando
> >>> tresholds o me está tomando cada valor flotante como una categoría.
> >>>
> >>> Algún consejo?. Por lo demás corre muy bien.
> >>>
> >>> Slds.
> >>>
> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>>>
> >>>> Fijate si no sera este problema:
> >>>>
> >>>>
> >>>>
> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
> >>>>
> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
> >>>> <albertoandreotti@gmail.com>:
> >>>> > Puede ser, pero la verdad que es frustrante ver que después de tanto
> >>>> > tiempo
> >>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
> >>>> > error,
> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
> >>>> > comportamiento
> >>>> > totalmente opuesto, camuflado como el comportamiento correcto.
> >>>> >
> >>>> >
> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>>> >>
> >>>> >> Hola!
> >>>> >>
> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
> corriente
> >>>> >> de
> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos de
> >>>> >> estudio
> >>>> >> seteo unos parámetros en el objeto Configuration a mano según un
> post
> >>>> >> en
> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
> >>>> >> hablas.
> >>>> >>
> >>>> >> P.
> >>>> >>
> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
> >>>> >> <albertoandreotti@gmail.com> wrote:
> >>>> >>>
> >>>> >>> Hola,
> >>>> >>>
> >>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
> >>>> >>> utilicé
> >>>> >>> hadoop por primera vez.
> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
> digamos,
> >>>> >>> copio
> >>>> >>> datos desde el disco local al HDFS y me las pone en el disco
> local.
> >>>> >>> Estoy seguro que está andando mal porque al principio a penas lo
> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
> separados,
> >>>> >>> ahora
> >>>> >>> parece que son lo mismo.
> >>>> >>>
> >>>> >>> Alguien sabe por qué es esto?.
> >>>> >>>
> >>>> >>> Beto.
> >>>> >>>
> >>>> >>> --
> >>>> >>> José Pablo Alberto Andreotti.
> >>>> >>> Tel: 54 351 4730292
> >>>> >>> Móvil: +54 351 155937792.
> >>>> >>> MSN: albertoandreotti@gmail.com
> >>>> >>> Skype: andreottialberto
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> > --
> >>>> > José Pablo Alberto Andreotti.
> >>>> > Tel: 54 351 4730292
> >>>> > Móvil: +54 351 155937792.
> >>>> > MSN: albertoandreotti@gmail.com
> >>>> > Skype: andreottialberto
> >>>
> >>>
> >>>
> >>>
> >>> --
> >>> José Pablo Alberto Andreotti.
> >>> Tel: 54 351 4730292
> >>> Móvil: +54 351 155937792.
> >>> MSN: albertoandreotti@gmail.com
> >>> Skype: andreottialberto
> >
> >
> >
> >
> > --
> > José Pablo Alberto Andreotti.
> > Tel: 54 351 4730292
> > Móvil: +54 351 155937792.
> > MSN: albertoandreotti@gmail.com
> > Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-04 @ 12:03
Hola,

pude bajar el dataset. Quiero hacer el ejemplo de predecir el income de
cada instancia, por qué hay ocho atributos de income? Cuál habíamos usado
en clase?

Slds.

2014-12-04 0:08 GMT-03:00 Alberto Andreotti <albertoandreotti@gmail.com>:

> Hola,
>
> estoy intentando bajarme los datos de censo de los estados unidos, desde
> aquí,
>
>
> http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A
>
> termina siendo lentísimo. Algún otro data set con datos categóricos o
> algún mirror de estos datos?
>
> Slds.
>
> 2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>
> Buena pinta. Me da curiosidad de conocer los resultados :)
>>
>> P.
>>
>> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com
>> >:
>> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro
>> lado,
>> > cómo la ves al random forest con esos datos?
>> >
>> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>
>> >> Para problemas similares este discretizador me ha dado buenos
>> resultados:
>> >>
>> >> http://pythonhosted.org//pebl/discretizer.html
>> >>
>> >> On Monday, December 1, 2014, Alberto Andreotti
>> >> <albertoandreotti@gmail.com> wrote:
>> >>>
>> >>> Hola Pa blo,
>> >>>
>> >>> exactamente ese era el problema. Repasé la configuración de los XMLs y
>> >>> salió funcionando, por suerte. Lo había hecho andar de primera, y
>> viste que
>> >>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía
>> que
>> >>> fallar.
>> >>>
>> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
>> >>> intentando buscar un dataset que esé bueno. Le metí para probar el
>> dataset
>> >>> de las canc iones y los años.
>> >>>
>> >>> Estuve siguiendo un tutorial, y hace algo como esto para describir los
>> >>> datos,
>> >>>
>> >>> El problema principal es que habría que generar datos categóricos a
>> >>> partir de valores contínuos. El tutorial me hace generar un archivo de
>> >>> descripción de la siguiente manera,
>> >>>
>> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
>> >>> org.apache.mahout.classifier.df.tools.Describe -p
>> >>> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info
>> -d L
>> >>> 90 N
>> >>>
>> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no
>> sé
>> >>> si me está generando categorias a partir de los datos contínuos
>> utilizando
>> >>> tresholds o me está tomando cada valor flotante como una categoría.
>> >>>
>> >>> Algún consejo?. Por lo demás corre muy bien.
>> >>>
>> >>> Slds.
>> >>>
>> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>>>
>> >>>> Fijate si no sera este problema:
>> >>>>
>> >>>>
>> >>>>
>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>> >>>>
>> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
>> >>>> <albertoandreotti@gmail.com>:
>> >>>> > Puede ser, pero la verdad que es frustrante ver que después de
>> tanto
>> >>>> > tiempo
>> >>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje de
>> >>>> > error,
>> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
>> >>>> > comportamiento
>> >>>> > totalmente opuesto, camuflado como el comportamiento correcto.
>> >>>> >
>> >>>> >
>> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>>> >>
>> >>>> >> Hola!
>> >>>> >>
>> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
>> corriente
>> >>>> >> de
>> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos
>> de
>> >>>> >> estudio
>> >>>> >> seteo unos parámetros en el objeto Configuration a mano según un
>> post
>> >>>> >> en
>> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
>> >>>> >> hablas.
>> >>>> >>
>> >>>> >> P.
>> >>>> >>
>> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
>> >>>> >> <albertoandreotti@gmail.com> wrote:
>> >>>> >>>
>> >>>> >>> Hola,
>> >>>> >>>
>> >>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
>> >>>> >>> utilicé
>> >>>> >>> hadoop por primera vez.
>> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
>> digamos,
>> >>>> >>> copio
>> >>>> >>> datos desde el disco local al HDFS y me las pone en el disco
>> local.
>> >>>> >>> Estoy seguro que está andando mal porque al principio a penas lo
>> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
>> separados,
>> >>>> >>> ahora
>> >>>> >>> parece que son lo mismo.
>> >>>> >>>
>> >>>> >>> Alguien sabe por qué es esto?.
>> >>>> >>>
>> >>>> >>> Beto.
>> >>>> >>>
>> >>>> >>> --
>> >>>> >>> José Pablo Alberto Andreotti.
>> >>>> >>> Tel: 54 351 4730292
>> >>>> >>> Móvil: +54 351 155937792.
>> >>>> >>> MSN: albertoandreotti@gmail.com
>> >>>> >>> Skype: andreottialberto
>> >>>> >
>> >>>> >
>> >>>> >
>> >>>> >
>> >>>> > --
>> >>>> > José Pablo Alberto Andreotti.
>> >>>> > Tel: 54 351 4730292
>> >>>> > Móvil: +54 351 155937792.
>> >>>> > MSN: albertoandreotti@gmail.com
>> >>>> > Skype: andreottialberto
>> >>>
>> >>>
>> >>>
>> >>>
>> >>> --
>> >>> José Pablo Alberto Andreotti.
>> >>> Tel: 54 351 4730292
>> >>> Móvil: +54 351 155937792.
>> >>> MSN: albertoandreotti@gmail.com
>> >>> Skype: andreottialberto
>> >
>> >
>> >
>> >
>> > --
>> > José Pablo Alberto Andreotti.
>> > Tel: 54 351 4730292
>> > Móvil: +54 351 155937792.
>> > MSN: albertoandreotti@gmail.com
>> > Skype: andreottialberto
>>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-12-04 @ 14:28
Uno post-procesado, esta disponible desde aqui:

http://aprendizajengrande.net/clases/material/


2014-12-04 7:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> Hola,
>
> pude bajar el dataset. Quiero hacer el ejemplo de predecir el income de cada
> instancia, por qué hay ocho atributos de income? Cuál habíamos usado en
> clase?
>
> Slds.
>
> 2014-12-04 0:08 GMT-03:00 Alberto Andreotti <albertoandreotti@gmail.com>:
>>
>> Hola,
>>
>> estoy intentando bajarme los datos de censo de los estados unidos, desde
>> aquí,
>>
>>
>> 
http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A
>>
>> termina siendo lentísimo. Algún otro data set con datos categó ricos o
>> algún mirror de estos datos?
>>
>> Slds.
>>
>> 2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>
>>> Buena pinta. Me da curiosidad de conocer los resultados :)
>>>
>>> P.
>>>
>>> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti
>>> <albertoandreotti@gmail.com>:
>>> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro
>>> > lado,
>>> > cómo la ves al random forest con esos datos?
>>> >
>>> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>> >>
>>> >> Para problemas similares este discretizador me ha dado buenos
>>> >> resultados:
>>> >>
>>> >> http://pythonhosted.org//pebl/discretizer.html
>>> >>
>>> >> On Monday, December 1, 2014, Alberto Andreotti
>>> >> <albertoandreotti@gmail.com> wrote:
>>> >>>
>>> >>> Hola Pa blo,
>>> >>>
>>> >>> exactamente ese era el problema. Repasé la configuración de los XMLs
>>> >>> y
>>> >>> salió funcionando, por suerte. Lo había hecho andar de primera, y
>>> >>> viste que
>>> >>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía
>>> >>> que
>>> >>> fallar.
>>> >>>
>>> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS. Estoy
>>> >>> intentando buscar un dataset que esé bueno. Le metí para probar el
>>> >>> dataset
>>> >>> de las canc iones y los años.
>>> >>>
>>> >>> Estuve siguiendo un tutorial, y hace algo como esto para describir
>>> >>> los
>>> >>> datos,
>>> >>>
>>> >>> El problema principal es que habría que generar datos categóricos a
>>> >>> partir de valores contínuos. El tutorial me hace generar un archivo
>>> >>> de
>>> >>> descripción de la siguiente manera,
>>> >>>
>>> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
>>> >>> org.apache.mahout.classifier.df.tools.Describe -p
>>> >>> /user/data/YearPredictionMSD.txt -f /user/data/YearPredictionMSD.info
>>> >>> -d L
>>> >>> 90 N
>>> >>>
>>> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que no
>>> >>> sé
>>> >>> si me está generando categorias a partir de los datos contínuos
>>> >>> utilizando
>>> >>> tresholds o me está tomando cada valor flotante como una categoría.
>>> >>>
>>> >>> Algún consejo?. Por lo demás corre muy bien.
>>> >>>
>>> >>> Slds.
>>> >>>
>>> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>> >>>>
>>> >>>> Fijate si no sera este problema:
>>> >>>>
>>> >>>>
>>> >>>>
>>> >>>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>>> >>>>
>>> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
>>> >>>> <albertoandreotti@gmail.com>:
>>> >>>> > Puede ser, pero la verdad que es frustrante ver que después de
>>> >>>> > tanto
>>> >>>> > tiempo
>>> >>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje
>>> >>>> > de
>>> >>>> > error,
>>> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
>>> >>>> > comportamiento
>>> >>>> > totalmente opuesto, camuflado como el comportamiento correcto.
>>> >>>> >
>>> >>>> >
>>> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>>> >>>> >>
>>> >>>> >> Hola!
>>> >>>> >>
>>> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
>>> >>>> >> corriente
>>> >>>> >> de
>>> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los casos
>>> >>>> >> de
>>> >>>> >> estudio
>>> >>>> >> seteo unos parámetros en el objeto Configuration a mano según un
>>> >>>> >> post
>>> >>>> >> en
>>> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
>>> >>>> >> hablas.
>>> >>>> >>
>>> >>>> >> P.
>>> >>>> >>
>>> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
>>> >>>> >> <albertoandreotti@gmail.com> wrote:
>>> >>>> >>>
>>> >>>> >>> Hola,
>>> >>>> >>>
>>> >>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
>>> >>>> >>> utilicé
>>> >>>> >>> hadoop por primera vez.
>>> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
>>> >>>> >>> digamos,
>>> >>>> >>> copio
>>> >>>> >>> datos desde el disco local al HDFS y me las pone en el disco
>>> >>>> >>> local.
>>> >>>> >>> Estoy seguro que está andando mal porque al principio a penas lo
>>> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
>>> >>>> >>> separados,
>>> >>>> >>> ahora
>>> >>>> >>> parece que son lo mismo.
>>> >>>> >>>
>>> >>>> >>> Alguien sabe por qué es esto?.
>>> >>>> >>>
>>> >>>> >>> Beto.
>>> >>>> >>>
>>> >>>> >>> --
>>> >>>> >>> José Pablo Alberto Andreotti.
>>> >>>> >>> Tel: 54 351 4730292
>>> >>>> >>> Móvil: +54 351 155937792.
>>> >>>> >>> MSN: albertoandreotti@gmail.com
>>> >>>> >>> Skype: andreottialberto
>>> >>>> >
>>> >>>> >
>>> >>>> >
>>> >>>> >
>>> >>>> > --
>>> >>>> > José Pablo Alberto Andreotti.
>>> >>>> > Tel: 54 351 4730292
>>> >>>> > Móvil: +54 351 155937792.
>>> >>>> > MSN: albertoandreotti@gmail.com
>>> >>>> > Skype: andreottialberto
>>> >>>
>>> >>>
>>> >>>
>>> >>>
>>> >>> --
>>> >>> José Pablo Alberto Andreotti.
>>> >>> Tel: 54 351 4730292
>>> >>> Móvil: +54 351 155937792.
>>> >>> MSN: albertoandreotti@gmail.com
>>> >>> Skype: andreottialberto
>>> >
>>> >
>>> >
>>> >
>>> > --
>>> > José Pablo Alberto Andreotti.
>>> > Tel: 54 351 4730292
>>> > Móvil: +54 351 155937792.
>>> > MSN: albertoandreotti@gmail.com
>>> > Skype: andreottialberto
>>
>>
>>
>>
>> --
>> José Pablo Alberto Andreotti.
>> Tel: 54 351 4730292
>> Móvil: +54 351 155937792.
>> MSN: albertoandreotti@gmail.com
>> Skype: andreottialberto
>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-04 @ 15:03
Hola,

yo le quiero dar con el grande!! jaja. Lo corrí y anda, genera el árbol
clasifica y todo. Separe los últimos 500000 datos como test set.
Todavía no me puse a analizar los resultados, pero me gustaría saber cuál
atributo tomar como target. Estoy tomando dIncome1, pero hay ocho dIncome,
cuál tomaste vos?

slds.

2014-12-04 11:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Uno post-procesado, esta disponible desde aqui:
>
> http://aprendizajengrande.net/clases/material/
>
>
> 2014-12-04 7:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> > Hola,
> >
> > pude bajar el dataset. Quiero hacer el ejemplo de predecir el income de
> cada
> > instancia, por qué hay ocho atributos de income? Cuál habíamos usado en
> > clase?
> >
> > Slds.
> >
> > 2014-12-04 0:08 GMT-03:00 Alberto Andreotti <albertoandreotti@gmail.com
> >:
> >>
> >> Hola,
> >>
> >> estoy intentando bajarme los datos de censo de los estados unidos, desde
> >> aquí,
> >>
> >>
> >>
> http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A
> >>
> >> termina siendo lentísimo. Algún otro data set con datos categó ricos o
> >> algún mirror de estos datos?
> >>
> >> Slds.
> >>
> >> 2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>
> >>> Buena pinta. Me da curiosidad de conocer los resultados :)
> >>>
> >>> P.
> >>>
> >>> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti
> >>> <albertoandreotti@gmail.com>:
> >>> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro
> >>> > lado,
> >>> > cómo la ves al random forest con esos datos?
> >>> >
> >>> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>> >>
> >>> >> Para problemas similares este discretizador me ha dado buenos
> >>> >> resultados:
> >>> >>
> >>> >> http://pythonhosted.org//pebl/discretizer.html
> >>> >>
> >>> >> On Monday, December 1, 2014, Alberto Andreotti
> >>> >> <albertoandreotti@gmail.com> wrote:
> >>> >>>
> >>> >>> Hola Pa blo,
> >>> >>>
> >>> >>> exactamente ese era el problema. Repasé la configuración de los
> XMLs
> >>> >>> y
> >>> >>> salió funcionando, por suerte. Lo había hecho andar de primera, y
> >>> >>> viste que
> >>> >>> nunca se puede evitar renegar aunque sea un rato, es una ley, tenía
> >>> >>> que
> >>> >>> fallar.
> >>> >>>
> >>> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS.
> Estoy
> >>> >>> intentando buscar un dataset que esé bueno. Le metí para probar el
> >>> >>> dataset
> >>> >>> de las canc iones y los años.
> >>> >>>
> >>> >>> Estuve siguiendo un tutorial, y hace algo como esto para describir
> >>> >>> los
> >>> >>> datos,
> >>> >>>
> >>> >>> El problema principal es que habría que generar datos categóricos a
> >>> >>> partir de valores contínuos. El tutorial me hace generar un archivo
> >>> >>> de
> >>> >>> descripción de la siguiente manera,
> >>> >>>
> >>> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
> >>> >>> org.apache.mahout.classifier.df.tools.Describe -p
> >>> >>> /user/data/YearPredictionMSD.txt -f
> /user/data/YearPredictionMSD.info
> >>> >>> -d L
> >>> >>> 90 N
> >>> >>>
> >>> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que
> no
> >>> >>> sé
> >>> >>> si me está generando categorias a partir de los datos contínuos
> >>> >>> utilizando
> >>> >>> tresholds o me está tomando cada valor flotante como una categoría.
> >>> >>>
> >>> >>> Algún consejo?. Por lo demás corre muy bien.
> >>> >>>
> >>> >>> Slds.
> >>> >>>
> >>> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >>> >>>>
> >>> >>>> Fijate si no sera este problema:
> >>> >>>>
> >>> >>>>
> >>> >>>>
> >>> >>>>
> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
> >>> >>>>
> >>> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
> >>> >>>> <albertoandreotti@gmail.com>:
> >>> >>>> > Puede ser, pero la verdad que es frustrante ver que después de
> >>> >>>> > tanto
> >>> >>>> > tiempo
> >>> >>>> > siga igual. Si algo no anda, yo espero una exception, un mensaje
> >>> >>>> > de
> >>> >>>> > error,
> >>> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
> >>> >>>> > comportamiento
> >>> >>>> > totalmente opuesto, camuflado como el comportamiento correcto.
> >>> >>>> >
> >>> >>>> >
> >>> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com
> >:
> >>> >>>> >>
> >>> >>>> >> Hola!
> >>> >>>> >>
> >>> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
> >>> >>>> >> corriente
> >>> >>>> >> de
> >>> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los
> casos
> >>> >>>> >> de
> >>> >>>> >> estudio
> >>> >>>> >> seteo unos parámetros en el objeto Configuration a mano según
> un
> >>> >>>> >> post
> >>> >>>> >> en
> >>> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del que
> >>> >>>> >> hablas.
> >>> >>>> >>
> >>> >>>> >> P.
> >>> >>>> >>
> >>> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
> >>> >>>> >> <albertoandreotti@gmail.com> wrote:
> >>> >>>> >>>
> >>> >>>> >>> Hola,
> >>> >>>> >>>
> >>> >>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
> >>> >>>> >>> utilicé
> >>> >>>> >>> hadoop por primera vez.
> >>> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
> >>> >>>> >>> digamos,
> >>> >>>> >>> copio
> >>> >>>> >>> datos desde el disco local al HDFS y me las pone en el disco
> >>> >>>> >>> local.
> >>> >>>> >>> Estoy seguro que está andando mal porque al principio a penas
> lo
> >>> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
> >>> >>>> >>> separados,
> >>> >>>> >>> ahora
> >>> >>>> >>> parece que son lo mismo.
> >>> >>>> >>>
> >>> >>>> >>> Alguien sabe por qué es esto?.
> >>> >>>> >>>
> >>> >>>> >>> Beto.
> >>> >>>> >>>
> >>> >>>> >>> --
> >>> >>>> >>> José Pablo Alberto Andreotti.
> >>> >>>> >>> Tel: 54 351 4730292
> >>> >>>> >>> Móvil: +54 351 155937792.
> >>> >>>> >>> MSN: albertoandreotti@gmail.com
> >>> >>>> >>> Skype: andreottialberto
> >>> >>>> >
> >>> >>>> >
> >>> >>>> >
> >>> >>>> >
> >>> >>>> > --
> >>> >>>> > José Pablo Alberto Andreotti.
> >>> >>>> > Tel: 54 351 4730292
> >>> >>>> > Móvil: +54 351 155937792.
> >>> >>>> > MSN: albertoandreotti@gmail.com
> >>> >>>> > Skype: andreottialberto
> >>> >>>
> >>> >>>
> >>> >>>
> >>> >>>
> >>> >>> --
> >>> >>> José Pablo Alberto Andreotti.
> >>> >>> Tel: 54 351 4730292
> >>> >>> Móvil: +54 351 155937792.
> >>> >>> MSN: albertoandreotti@gmail.com
> >>> >>> Skype: andreottialberto
> >>> >
> >>> >
> >>> >
> >>> >
> >>> > --
> >>> > José Pablo Alberto Andreotti.
> >>> > Tel: 54 351 4730292
> >>> > Móvil: +54 351 155937792.
> >>> > MSN: albertoandreotti@gmail.com
> >>> > Skype: andreottialberto
> >>
> >>
> >>
> >>
> >> --
> >> José Pablo Alberto Andreotti.
> >> Tel: 54 351 4730292
> >> Móvil: +54 351 155937792.
> >> MSN: albertoandreotti@gmail.com
> >> Skype: andreottialberto
> >
> >
> >
> >
> > --
> > José Pablo Alberto Andreotti.
> > Tel: 54 351 4730292
> > Móvil: +54 351 155937792.
> > MSN: albertoandreotti@gmail.com
> > Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Pablo Duboue
Date:
2014-12-04 @ 15:27
Es que yo use uno distinto, use este:
https://archive.ics.uci.edu/ml/datasets/Adult

es clasificacion <50K >=50K

Segun:


http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/USCensus1990raw.attributes.txt

Los valores esos los podes sumar porque son los componentes del ingreso:

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME1     C       X      1             Wages and Salary Inc. Allocation Flag
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________


AINCOME2     C       X      1             Nonfarm Self Employment Inc.
Allocation
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME3     C       X      1             Farm Self Employment Inc.
Allocation Fla
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME4     C       X      1             Int., Dividend, and Net
Rental Inc. Allo
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME5     C       X      1             Soc. Sec Inc. Allocation Flag
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME6     C       X      1             Pub. Asst. Allocation Flag
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME7     C       X      1             Ret. Inc. Allocation Flag
                                  0       No
                                  1       No Derived
                                  2       Yes

VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
__________________________________________________________________________________
AINCOME8     C       X      1             All Other Inc. Allocation Flag
                                  0       No
                                  1       No Derived
                                  2       Yes



P.

2014-12-04 10:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> Hola,
>
> yo le quiero dar con el grande!! jaja. Lo corrí y anda, genera el árbol
> clasifica y todo. Separe los últimos 500000 datos como test set.
> Todavía no me puse a analizar los resultados, pero me gustaría saber cuál
> atributo tomar como target. Estoy tomando dIncome1, pero hay ocho dIncome,
> cuál tomaste vos?
>
> slds.
>
> 2014-12-04 11:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>
>> Uno post-procesado, esta disponible desde aqui:
>>
>> http://aprendizajengrande.net/clases/material/
>>
>>
>> 2014-12-04 7:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
>> > Hola,
>> >
>> > pude bajar el dataset. Quiero hacer el ejemplo de predecir el income de
>> > cada
>> > instancia, por qué hay ocho atributos de income? Cuál habíamos usado en
>> > clase?
>> >
>> > Slds.
>> >
>> > 2014-12-04 0:08 GMT-03:00 Alberto Andreotti
>> > <albertoandreotti@gmail.com>:
>> >>
>> >> Hola,
>> >>
>> >> estoy intentando bajarme los datos de censo de los estados unidos,
>> >> desde
>> >> aquí,
>> >>
>> >>
>> >>
>> >> 
http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A
>> >>
>> >> termina siendo lentísimo. Algún otro data set con datos categó ricos o
>> >> algún mirror de estos datos?
>> >>
>> >> Slds.
>> >>
>> >> 2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>
>> >>> Buena pinta. Me da curiosidad de conocer los resultados :)
>> >>>
>> >>> P.
>> >>>
>> >>> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti
>> >>> <albertoandreotti@gmail.com>:
>> >>> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por otro
>> >>> > lado,
>> >>> > cómo la ves al random forest con esos datos?
>> >>> >
>> >>> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>> >>
>> >>> >> Para problemas similares este discretizador me ha dado buenos
>> >>> >> resultados:
>> >>> >>
>> >>> >> http://pythonhosted.org//pebl/discretizer.html
>> >>> >>
>> >>> >> On Monday, December 1, 2014, Alberto Andreotti
>> >>> >> <albertoandreotti@gmail.com> wrote:
>> >>> >>>
>> >>> >>> Hola Pa blo,
>> >>> >>>
>> >>> >>> exactamente ese era el problema. Repasé la configuración de los
>> >>> >>> XMLs
>> >>> >>> y
>> >>> >>> salió funcionando, por suerte. Lo había hecho andar de primera, y
>> >>> >>> viste que
>> >>> >>> nunca se puede evitar renegar aunque sea un rato, es una ley,
>> >>> >>> tenía
>> >>> >>> que
>> >>> >>> fallar.
>> >>> >>>
>> >>> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS.
>> >>> >>> Estoy
>> >>> >>> intentando buscar un dataset que esé bueno. Le metí para probar el
>> >>> >>> dataset
>> >>> >>> de las canc iones y los años.
>> >>> >>>
>> >>> >>> Estuve siguiendo un tutorial, y hace algo como esto para describir
>> >>> >>> los
>> >>> >>> datos,
>> >>> >>>
>> >>> >>> El problema principal es que habría que generar datos categóricos
>> >>> >>> a
>> >>> >>> partir de valores contínuos. El tutorial me hace generar un
>> >>> >>> archivo
>> >>> >>> de
>> >>> >>> descripción de la siguiente manera,
>> >>> >>>
>> >>> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
>> >>> >>> org.apache.mahout.classifier.df.tools.Describe -p
>> >>> >>> /user/data/YearPredictionMSD.txt -f
>> >>> >>> /user/data/YearPredictionMSD.info
>> >>> >>> -d L
>> >>> >>> 90 N
>> >>> >>>
>> >>> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es que
>> >>> >>> no
>> >>> >>> sé
>> >>> >>> si me está generando categorias a partir de los datos contínuos
>> >>> >>> utilizando
>> >>> >>> tresholds o me está tomando cada valor flotante como una
>> >>> >>> categoría.
>> >>> >>>
>> >>> >>> Algún consejo?. Por lo demás corre muy bien.
>> >>> >>>
>> >>> >>> Slds.
>> >>> >>>
>> >>> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
>> >>> >>>>
>> >>> >>>> Fijate si no sera este problema:
>> >>> >>>>
>> >>> >>>>
>> >>> >>>>
>> >>> >>>>
>> >>> >>>> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
>> >>> >>>>
>> >>> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
>> >>> >>>> <albertoandreotti@gmail.com>:
>> >>> >>>> > Puede ser, pero la verdad que es frustrante ver que después de
>> >>> >>>> > tanto
>> >>> >>>> > tiempo
>> >>> >>>> > siga igual. Si algo no anda, yo espero una exception, un
>> >>> >>>> > mensaje
>> >>> >>>> > de
>> >>> >>>> > error,
>> >>> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
>> >>> >>>> > comportamiento
>> >>> >>>> > totalmente opuesto, camuflado como el comportamiento correcto.
>> >>> >>>> >
>> >>> >>>> >
>> >>> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue
>> >>> >>>> > <pablo.duboue@gmail.com>:
>> >>> >>>> >>
>> >>> >>>> >> Hola!
>> >>> >>>> >>
>> >>> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
>> >>> >>>> >> corriente
>> >>> >>>> >> de
>> >>> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los
>> >>> >>>> >> casos
>> >>> >>>> >> de
>> >>> >>>> >> estudio
>> >>> >>>> >> seteo unos parámetros en el objeto Configuration a mano según
>> >>> >>>> >> un
>> >>> >>>> >> post
>> >>> >>>> >> en
>> >>> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del
>> >>> >>>> >> que
>> >>> >>>> >> hablas.
>> >>> >>>> >>
>> >>> >>>> >> P.
>> >>> >>>> >>
>> >>> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
>> >>> >>>> >> <albertoandreotti@gmail.com> wrote:
>> >>> >>>> >>>
>> >>> >>>> >>> Hola,
>> >>> >>>> >>>
>> >>> >>>> >>> creo que me econtrado con este bug hace ya muchos años cuando
>> >>> >>>> >>> utilicé
>> >>> >>>> >>> hadoop por primera vez.
>> >>> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
>> >>> >>>> >>> digamos,
>> >>> >>>> >>> copio
>> >>> >>>> >>> datos desde el disco local al HDFS y me las pone en el disco
>> >>> >>>> >>> local.
>> >>> >>>> >>> Estoy seguro que está andando mal porque al principio a penas
>> >>> >>>> >>> lo
>> >>> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
>> >>> >>>> >>> separados,
>> >>> >>>> >>> ahora
>> >>> >>>> >>> parece que son lo mismo.
>> >>> >>>> >>>
>> >>> >>>> >>> Alguien sabe por qué es esto?.
>> >>> >>>> >>>
>> >>> >>>> >>> Beto.
>> >>> >>>> >>>
>> >>> >>>> >>> --
>> >>> >>>> >>> José Pablo Alberto Andreotti.
>> >>> >>>> >>> Tel: 54 351 4730292
>> >>> >>>> >>> Móvil: +54 351 155937792.
>> >>> >>>> >>> MSN: albertoandreotti@gmail.com
>> >>> >>>> >>> Skype: andreottialberto
>> >>> >>>> >
>> >>> >>>> >
>> >>> >>>> >
>> >>> >>>> >
>> >>> >>>> > --
>> >>> >>>> > José Pablo Alberto Andreotti.
>> >>> >>>> > Tel: 54 351 4730292
>> >>> >>>> > Móvil: +54 351 155937792.
>> >>> >>>> > MSN: albertoandreotti@gmail.com
>> >>> >>>> > Skype: andreottialberto
>> >>> >>>
>> >>> >>>
>> >>> >>>
>> >>> >>>
>> >>> >>> --
>> >>> >>> José Pablo Alberto Andreotti.
>> >>> >>> Tel: 54 351 4730292
>> >>> >>> Móvil: +54 351 155937792.
>> >>> >>> MSN: albertoandreotti@gmail.com
>> >>> >>> Skype: andreottialberto
>> >>> >
>> >>> >
>> >>> >
>> >>> >
>> >>> > --
>> >>> > José Pablo Alberto Andreotti.
>> >>> > Tel: 54 351 4730292
>> >>> > Móvil: +54 351 155937792.
>> >>> > MSN: albertoandreotti@gmail.com
>> >>> > Skype: andreottialberto
>> >>
>> >>
>> >>
>> >>
>> >> --
>> >> José Pablo Alberto Andreotti.
>> >> Tel: 54 351 4730292
>> >> Móvil: +54 351 155937792.
>> >> MSN: albertoandreotti@gmail.com
>> >> Skype: andreottialberto
>> >
>> >
>> >
>> >
>> > --
>> > José Pablo Alberto Andreotti.
>> > Tel: 54 351 4730292
>> > Móvil: +54 351 155937792.
>> > MSN: albertoandreotti@gmail.com
>> > Skype: andreottialberto
>
>
>
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto

Re: [aprendizajengrande] HDFS

From:
Alberto Andreotti
Date:
2014-12-04 @ 16:02
Bueno uso ese! más chiquito pero tiene sentido. Corre igual con el grande,
pero no sé si tenga mucho sentido predecir una sola componente.

2014-12-04 12:27 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:

> Es que yo use uno distinto, use este:
> https://archive.ics.uci.edu/ml/datasets/Adult
>
> es clasificacion <50K >=50K
>
> Segun:
>
>
> 
http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/USCensus1990raw.attributes.txt
>
> Los valores esos los podes sumar porque son los componentes del ingreso:
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME1     C       X      1             Wages and Salary Inc. Allocation
> Flag
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
>
>
> AINCOME2     C       X      1             Nonfarm Self Employment Inc.
> Allocation
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME3     C       X      1             Farm Self Employment Inc.
> Allocation Fla
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME4     C       X      1             Int., Dividend, and Net
> Rental Inc. Allo
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME5     C       X      1             Soc. Sec Inc. Allocation Flag
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME6     C       X      1             Pub. Asst. Allocation Flag
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME7     C       X      1             Ret. Inc. Allocation Flag
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
> VAR:        TYP:   DES:    LEN:   CAT:    VARIABLE/CATEGORY LABEL:
>
> 
__________________________________________________________________________________
> AINCOME8     C       X      1             All Other Inc. Allocation Flag
>                                   0       No
>                                   1       No Derived
>                                   2       Yes
>
>
>
> P.
>
> 2014-12-04 10:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com>:
> > Hola,
> >
> > yo le quiero dar con el grande!! jaja. Lo corrí y anda, genera el árbol
> > clasifica y todo. Separe los últimos 500000 datos como test set.
> > Todavía no me puse a analizar los resultados, pero me gustaría saber cuál
> > atributo tomar como target. Estoy tomando dIncome1, pero hay ocho
> dIncome,
> > cuál tomaste vos?
> >
> > slds.
> >
> > 2014-12-04 11:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >
> >> Uno post-procesado, esta disponible desde aqui:
> >>
> >> http://aprendizajengrande.net/clases/material/
> >>
> >>
> >> 2014-12-04 7:03 GMT-05:00 Alberto Andreotti <albertoandreotti@gmail.com
> >:
> >> > Hola,
> >> >
> >> > pude bajar el dataset. Quiero hacer el ejemplo de predecir el income
> de
> >> > cada
> >> > instancia, por qué hay ocho atributos de income? Cuál habíamos usado
> en
> >> > clase?
> >> >
> >> > Slds.
> >> >
> >> > 2014-12-04 0:08 GMT-03:00 Alberto Andreotti
> >> > <albertoandreotti@gmail.com>:
> >> >>
> >> >> Hola,
> >> >>
> >> >> estoy intentando bajarme los datos de censo de los estados unidos,
> >> >> desde
> >> >> aquí,
> >> >>
> >> >>
> >> >>
> >> >>
> http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/?C=S;O=A
> >> >>
> >> >> termina siendo lentísimo. Algún otro data set con datos categó ricos
> o
> >> >> algún mirror de estos datos?
> >> >>
> >> >> Slds.
> >> >>
> >> >> 2014-12-01 13:09 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >> >>
> >> >>> Buena pinta. Me da curiosidad de conocer los resultados :)
> >> >>>
> >> >>> P.
> >> >>>
> >> >>> 2014-12-01 10:59 GMT-05:00 Alberto Andreotti
> >> >>> <albertoandreotti@gmail.com>:
> >> >>> > Che, lo voy a probar, me acuerdo que lo nombraste en clase. Por
> otro
> >> >>> > lado,
> >> >>> > cómo la ves al random forest con esos datos?
> >> >>> >
> >> >>> > 2014-12-01 11:20 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com>:
> >> >>> >>
> >> >>> >> Para problemas similares este discretizador me ha dado buenos
> >> >>> >> resultados:
> >> >>> >>
> >> >>> >> http://pythonhosted.org//pebl/discretizer.html
> >> >>> >>
> >> >>> >> On Monday, December 1, 2014, Alberto Andreotti
> >> >>> >> <albertoandreotti@gmail.com> wrote:
> >> >>> >>>
> >> >>> >>> Hola Pa blo,
> >> >>> >>>
> >> >>> >>> exactamente ese era el problema. Repasé la configuración de los
> >> >>> >>> XMLs
> >> >>> >>> y
> >> >>> >>> salió funcionando, por suerte. Lo había hecho andar de primera,
> y
> >> >>> >>> viste que
> >> >>> >>> nunca se puede evitar renegar aunque sea un rato, es una ley,
> >> >>> >>> tenía
> >> >>> >>> que
> >> >>> >>> fallar.
> >> >>> >>>
> >> >>> >>> Bueno, estuve corriendo un random forest con mahout sobre HDFS.
> >> >>> >>> Estoy
> >> >>> >>> intentando buscar un dataset que esé bueno. Le metí para probar
> el
> >> >>> >>> dataset
> >> >>> >>> de las canc iones y los años.
> >> >>> >>>
> >> >>> >>> Estuve siguiendo un tutorial, y hace algo como esto para
> describir
> >> >>> >>> los
> >> >>> >>> datos,
> >> >>> >>>
> >> >>> >>> El problema principal es que habría que generar datos
> categóricos
> >> >>> >>> a
> >> >>> >>> partir de valores contínuos. El tutorial me hace generar un
> >> >>> >>> archivo
> >> >>> >>> de
> >> >>> >>> descripción de la siguiente manera,
> >> >>> >>>
> >> >>> >>> hadoop jar $MAHOUT_HOME/ma hout-core-0.9-job.jar
> >> >>> >>> org.apache.mahout.classifier.df.tools.Describe -p
> >> >>> >>> /user/data/YearPredictionMSD.txt -f
> >> >>> >>> /user/data/YearPredictionMSD.info
> >> >>> >>> -d L
> >> >>> >>> 90 N
> >> >>> >>>
> >> >>> >>> Donde le digo que tengo 1 label y 90 numéricos, el problema es
> que
> >> >>> >>> no
> >> >>> >>> sé
> >> >>> >>> si me está generando categorias a partir de los datos contínuos
> >> >>> >>> utilizando
> >> >>> >>> tresholds o me está tomando cada valor flotante como una
> >> >>> >>> categoría.
> >> >>> >>>
> >> >>> >>> Algún consejo?. Por lo demás corre muy bien.
> >> >>> >>>
> >> >>> >>> Slds.
> >> >>> >>>
> >> >>> >>> 2014-12-01 2:28 GMT-03:00 Pablo Duboue <pablo.duboue@gmail.com
> >:
> >> >>> >>>>
> >> >>> >>>> Fijate si no sera este problema:
> >> >>> >>>>
> >> >>> >>>>
> >> >>> >>>>
> >> >>> >>>>
> >> >>> >>>>
> 
http://stackoverflow.com/questions/15801444/hadoop-fs-commands-are-showing-the-local-filesystem-not-the-hdfs
> >> >>> >>>>
> >> >>> >>>> 2014-11-30 18:51 GMT-05:00 Alberto Andreotti
> >> >>> >>>> <albertoandreotti@gmail.com>:
> >> >>> >>>> > Puede ser, pero la verdad que es frustrante ver que después
> de
> >> >>> >>>> > tanto
> >> >>> >>>> > tiempo
> >> >>> >>>> > siga igual. Si algo no anda, yo espero una exception, un
> >> >>> >>>> > mensaje
> >> >>> >>>> > de
> >> >>> >>>> > error,
> >> >>> >>>> > un segmentation fault!, algo . . . cualquier cosa menos un
> >> >>> >>>> > comportamiento
> >> >>> >>>> > totalmente opuesto, camuflado como el comportamiento
> correcto.
> >> >>> >>>> >
> >> >>> >>>> >
> >> >>> >>>> > 2014-11-30 20:45 GMT-03:00 Pablo Duboue
> >> >>> >>>> > <pablo.duboue@gmail.com>:
> >> >>> >>>> >>
> >> >>> >>>> >> Hola!
> >> >>> >>>> >>
> >> >>> >>>> >> Podra ser que hadoop se pierde dónde está la configuración
> >> >>> >>>> >> corriente
> >> >>> >>>> >> de
> >> >>> >>>> >> hadoop? Cómo tenes seteado el HADOOP_PREFIX? Fijate en los
> >> >>> >>>> >> casos
> >> >>> >>>> >> de
> >> >>> >>>> >> estudio
> >> >>> >>>> >> seteo unos parámetros en el objeto Configuration a mano
> según
> >> >>> >>>> >> un
> >> >>> >>>> >> post
> >> >>> >>>> >> en
> >> >>> >>>> >> stack overflow. Por ahí esté relacionado con eso el bug del
> >> >>> >>>> >> que
> >> >>> >>>> >> hablas.
> >> >>> >>>> >>
> >> >>> >>>> >> P.
> >> >>> >>>> >>
> >> >>> >>>> >> On Sunday, November 30, 2014, Alberto Andreotti
> >> >>> >>>> >> <albertoandreotti@gmail.com> wrote:
> >> >>> >>>> >>>
> >> >>> >>>> >>> Hola,
> >> >>> >>>> >>>
> >> >>> >>>> >>> creo que me econtrado con este bug hace ya muchos años
> cuando
> >> >>> >>>> >>> utilicé
> >> >>> >>>> >>> hadoop por primera vez.
> >> >>> >>>> >>> El HDFS en vez de hacer las cosas en HDFS, las hace local,
> >> >>> >>>> >>> digamos,
> >> >>> >>>> >>> copio
> >> >>> >>>> >>> datos desde el disco local al HDFS y me las pone en el
> disco
> >> >>> >>>> >>> local.
> >> >>> >>>> >>> Estoy seguro que está andando mal porque al principio a
> penas
> >> >>> >>>> >>> lo
> >> >>> >>>> >>> configuré andaba b ien. Digamos los dos espacios estaban
> >> >>> >>>> >>> separados,
> >> >>> >>>> >>> ahora
> >> >>> >>>> >>> parece que son lo mismo.
> >> >>> >>>> >>>
> >> >>> >>>> >>> Alguien sabe por qué es esto?.
> >> >>> >>>> >>>
> >> >>> >>>> >>> Beto.
> >> >>> >>>> >>>
> >> >>> >>>> >>> --
> >> >>> >>>> >>> José Pablo Alberto Andreotti.
> >> >>> >>>> >>> Tel: 54 351 4730292
> >> >>> >>>> >>> Móvil: +54 351 155937792.
> >> >>> >>>> >>> MSN: albertoandreotti@gmail.com
> >> >>> >>>> >>> Skype: andreottialberto
> >> >>> >>>> >
> >> >>> >>>> >
> >> >>> >>>> >
> >> >>> >>>> >
> >> >>> >>>> > --
> >> >>> >>>> > José Pablo Alberto Andreotti.
> >> >>> >>>> > Tel: 54 351 4730292
> >> >>> >>>> > Móvil: +54 351 155937792.
> >> >>> >>>> > MSN: albertoandreotti@gmail.com
> >> >>> >>>> > Skype: andreottialberto
> >> >>> >>>
> >> >>> >>>
> >> >>> >>>
> >> >>> >>>
> >> >>> >>> --
> >> >>> >>> José Pablo Alberto Andreotti.
> >> >>> >>> Tel: 54 351 4730292
> >> >>> >>> Móvil: +54 351 155937792.
> >> >>> >>> MSN: albertoandreotti@gmail.com
> >> >>> >>> Skype: andreottialberto
> >> >>> >
> >> >>> >
> >> >>> >
> >> >>> >
> >> >>> > --
> >> >>> > José Pablo Alberto Andreotti.
> >> >>> > Tel: 54 351 4730292
> >> >>> > Móvil: +54 351 155937792.
> >> >>> > MSN: albertoandreotti@gmail.com
> >> >>> > Skype: andreottialberto
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> --
> >> >> José Pablo Alberto Andreotti.
> >> >> Tel: 54 351 4730292
> >> >> Móvil: +54 351 155937792.
> >> >> MSN: albertoandreotti@gmail.com
> >> >> Skype: andreottialberto
> >> >
> >> >
> >> >
> >> >
> >> > --
> >> > José Pablo Alberto Andreotti.
> >> > Tel: 54 351 4730292
> >> > Móvil: +54 351 155937792.
> >> > MSN: albertoandreotti@gmail.com
> >> > Skype: andreottialberto
> >
> >
> >
> >
> > --
> > José Pablo Alberto Andreotti.
> > Tel: 54 351 4730292
> > Móvil: +54 351 155937792.
> > MSN: albertoandreotti@gmail.com
> > Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto

Re: HDFS

From:
Alberto Andreotti
Date:
2014-11-30 @ 23:37
Digamos, hago esto,

hdfs dfs -ls /directorio

y me muestra el disco local. . .


2014-11-30 20:32 GMT-03:00 Alberto Andreotti <albertoandreotti@gmail.com>:

> Hola,
>
> creo que me econtrado con este bug hace ya muchos años cuando utilicé
> hadoop por primera vez.
> El HDFS en vez de hacer las cosas en HDFS, las hace local, digamos, copio
> datos desde el disco local al HDFS y me las pone en el disco local.
> Estoy seguro que está andando mal porque al principio a penas lo configuré
> andaba bien. Digamos los dos espacios estaban separados, ahora parece que
> son lo mismo.
>
> Alguien sabe por qué es esto?.
>
> Beto.
>
> --
> José Pablo Alberto Andreotti.
> Tel: 54 351 4730292
> Móvil: +54 351 155937792.
> MSN: albertoandreotti@gmail.com
> Skype: andreottialberto
>



-- 
José Pablo Alberto Andreotti.
Tel: 54 351 4730292
Móvil: +54 351 155937792.
MSN: albertoandreotti@gmail.com
Skype: andreottialberto