Atualização no Repositório Digital das Humanidades (PT-BR) para a @RedeSciELO

labhdufba.github.io/redhbr/scielo-…

Através de um conjunto de ferramentas é possível:

1) scielo_scraper: permite definir uma das 8 áreas de conhecimento e raspar os arquivos PDF ou apenas os arquivos XML;

1/4
2) scielo_ISSN: permite definir uma lista de revistas que serão raspadas através do ISSN. Assim como na ferramenta anterior, é possível definir o tipo de raspagem (PDF ou XML);

2/4
3) scielo_xml_to_csv: seleciona, organiza e salva as informações do dataset de arquivos XML das revistas previamente baixadas a partir das ferramentas anteriores. A ferramenta captura todos os metadados disponíveis dos artigos incluindo as referências bibliográficas

3/4
A base de XMLs - e também os CSVs - de todos os artigos das 91 revistas da área de Ciências Humanas está disponível pra download. Somando mais de 72 mil artigos!

4/4
#digitalmethods
#DigitalHumanities
#twitterhistorians
#digitalsociology
#RStats
#Python
#OpenScience

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Laboratório de Humanidades Digitais da UFBA

Laboratório de Humanidades Digitais da UFBA Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @labhdufba

29 Apr 20
Quais ferramentas digitais para pesquisa, escrita e ensino vocês usam?
O LABHDUFBA se interessa pelos impactos teóricos, metodológicos e epistemológicos dessas ferramentas para as humanidades.
No dia das humanidades digitais 2020 #dayofdh2020 listamos algumas: (segue o fio)
[1] Gerenciar referências bibliográficas: O @zotero é um software gerenciador de referências em software livre e de código aberto para gerenciar dados bibliográficos e materiais relacionados a pesquisa. Image
[2] OCR – reconhecimento óptico de caracteres: Precisa reconhecer os caracteres de pdfs e jornais impressos digitalizados? Use o #gImageReader O gImageReader é um app front-end para o poderoso #tesseract.
github.com/manisandro/gIm… Image
Read 9 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!

:(