Hilo nerd, DBs SQL Server. Aviso para que si no les interesa ni se metan.
Como les decía, quiero eficientar un proceso para reducir sus tiempos, ya que 5 minutos pues es demasiado. Llevo casi 20 horas ejecutándolo y pues me caga.
El primer paso es encontrar que es lo que está tragándose todo ese tiempo, como ven en el screenshot anterior, algo no estoy cronometrando y eso es lo que se está comiendo todo ese tiempo. Procedo.
Procedí a cargar el segundo archivo más grande a una base de datos vacía, para no tener el problema de búsquedas en índices ni nada por estilo. Eso nos muestra a los primeros culpables, aquí en orden de importancia. Se cargaron 8.4 millones de registros.
El proceso culpable es el bulk load de el archivo .csv a la base de datos. Es una carga plana a una tabla sin índices, así que las opciones de optimización no son muchas. La base de datos como fue recién creada está en el disco C, que es un SSD.
La única optimización posible es mover la BD de datos a un disco más rápido, así que la moveré al NVME y corro de nuevo el proceso. Este es el query para mover la base.

OJO al comentario, no la vayan a cagar.
Cierren las conexiones abiertas a la DB antes de ponerla offline, or expect some pain, BTW.
Y moverlo al NVME sirvió para pura verga. 5 marginales segundos de ganancia.
La sugerencia de @alnrdzrcc fue la que dio en el clavo. Se redujo el tiempo de carga a casi la mitad al poner el archivo de datos y el log en distintos discos. Vamos con el pedo que sigue.
Metiéndole mas detalle a la medición de los tiempos, nos brincan 2 culpables más. El primero es una generación de un índice a la tabla de staging que necesito, así que ni pedo. el otro es la inserción de los datos geográficos. Vamos a darle por ese lado a ver cuanto más baja.
Y obviamente la había cagado. La tabla no tenía índice, al transferirla de la base de datos fuente los índices no se crean. El tiempo se redujo a una octava parte al cargar los datos geográficos.
Toca correr la carga completa a ver cuanto se logro reducir.
Pues ayer detuve la carga a las 19 horas de ejecución y todavía no terminaba.

Tener que recargar la base de datos completa no debe ser una ocurrencia común, pero para lo que estoy haciendo era necesario. y 13:05:22 es un tiempo más que razonable.

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with El Troll Ebus

El Troll Ebus Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @ZorlakRules

6 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData. Image
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 11 con más casos nuevos en el mundo. ImageImageImageImage
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 4 en decesos nuevos en el mundo. ImageImageImage
Read 10 tweets
5 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData.
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 10 con más casos nuevos en el mundo.
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 6 en decesos nuevos en el mundo.
Read 10 tweets
4 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData.
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 9 con más casos nuevos en el mundo.
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 4 en decesos nuevos en el mundo.
Read 10 tweets
3 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData.
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 21 con más casos nuevos en el mundo.
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 9 en decesos nuevos en el mundo.
Read 10 tweets
2 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData.
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 22 con más casos nuevos en el mundo.
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 18 en decesos nuevos en el mundo.
Read 10 tweets
1 Aug
Buenas noches, les recuerdo que la fuente de datos es:
github.com/CSSEGISandData.
El estado de los casos acumulados y casos nuevos a nivel global es el siguiente. Hoy somos el país número 11 con más casos nuevos en el mundo.
El estado de los decesos a nivel global es el siguiente. Hoy somos el país número 4 con más decesos totales, y el 7 en decesos nuevos en el mundo.
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(