Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação #2

Open
fititnt opened this issue May 20, 2018 · 1 comment

Comments

@fititnt
Copy link
Member

fititnt commented May 20, 2018

Eu estou mais ocupado obtendo e listando os próprios datasets, porém qualquer pessoa que futuramente estiver lendo esse issue aqui, considere antes de fazer um port de um desses datasets para ser usado pela sua linguagem de programação favorita:

  1. Ver se alguém já não fez.
  2. E se não foi feito, considere que a forma como os bancos de dados estão nativamente encodados já existe alguma biblioteca que acesse o formato sem precisar converter para outro (a exemplo, o VERO-pt-BR usa hunspell, que possui biblioteca para algumas linguagens)

Por exemplo, o conjunto de dados VERO-pt-BR está disponível como dicionário instalável como pacote npm no mínimo nesse repositório aqui https://github.com/wooorm/dictionaries/tree/master/dictionaries/pt-BR feito por pessoa de fora do Brasil.

@fititnt
Copy link
Member Author

fititnt commented May 20, 2018

Minha intuição de full stack developer é a seguinte: tão logo conjuntos de dados linguísticos estejam publicamente conhecidos, se tiverem uma licença aceitável, é provável que surja espontaneamente desenvolvedores de linguagens de programação mais usadas fazendo pacote para os demais usarem.

Ou seja, o problema chave aqui é, realmente descobrir datasets já existentes ou mesmo estimular criação dos datasets de interesse comum.

Como referência, o VERO-pt-BR que foi criado em função do libre office, a última versão com atualização do dicionário é a 3.2.13, e a última atualização foi em 2013-12-17. Será que realmente ficou tão perfeito assim para não precisar mais de atualização?

E se nesses últimos anos volta e meia problemas eram encontrados, mas como esses datasets tem uma forma diferente de ser atualizada do que ocorre com código fonte (talvez enviar por e-mail, por algo que talvez o mantainer nem esteja mais tão ativo, etc) nunca mais seja atualizado?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant