Categorygithub.com/audetv/datasets-parser
module
0.0.1
Repository: https://github.com/audetv/datasets-parser.git
Documentation: pkg.go.dev

# README

datasets-parser

Обрабатывает csv data файлы в папке data и записывает их в базу данных

При обработке пропускает архивы и иные файлы, которы не csv

Поэтому при необходимости надо распаковать архивы перед тем как запускать обработку csv файлов:

  • globalterrorismdb_full_may2023.7z
  • world-postal-code.csv

Если учитывать распакованные вышеуказанные архивы, то после обработки в БД будет 2 164 199 записей.

Системные требования

Для работы необходимы docker и git

В docker контейнере будет создана и запущена база данных postgres

Git нужен для того, чтобы скачать репозиторий с проектом.

Так же можно воспользоваться прямой ссылкой для скачивания проекта https://github.com/terratensor/datasets-parser/archive/refs/heads/main.zip

Как обработать файлы и получить БД

Создаем папку на диске для проектов:

mkdir terratensor

Выбираем созданную папку

cd terratensor

Скачиваем репозиторий

git clone https://github.com/terratensor/datasets-parser.git

Запускаем докер контейнер с базой данных

docker compose up -d

Скачиваем последнюю версию парсера

https://github.com/terratensor/datasets-parser/releases/latest

Сохраняем в папку с проектом, запускаем

./datasets-parser.exe -d ./data

-d ./data — путь до папки в которой хранятся csv файлы для обработки Если вы сохраните утилиту datasets-parser.exe в корень проекта, то достаточно запустить exe файл без указания дополнительных параметров.

При каждом новом запуске база не удаляется, а пополняется снова. Так что будьте внимательны, обычно процедура обработки файлов достаточно запустить один раз.

# Packages

No description provided by the author
No description provided by the author
No description provided by the author
No description provided by the author