URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 10082
[ Назад ]

Исходное сообщение
"Преобразовать структурированный файл в хеш"

Отправлено Andrey , 09-Мрт-16 15:14 
Всех приветствую.

Имеею файл следующего формата:
+------------------+----------+--------+------+-----+
| Name             | Current  | Office | Age  | ... |
|                  | Position |  City  |      |     |
+------------------+----------+--------+------+-----+
| Vasiliy_Petrov   | student  | n/a    | 30   | ... |
| Petr_Ivanov      | worker   | MSK    | 40   | ... |
| Ivan_Ivanov      | n/a      | SPB    | 20   | ... |
| ...              | ...      | ...    | ...  | ... |
+------------------+----------+--------+------+-----+

Пример (на случай некорректного отображения):
http://pastebin.com/raw/EvuzWkrQ

Длина ячеек динамическая (мзменяется в зависимости от длиный значений в них).
Но кол-во столбцов фиксированое - их всегда 14.

Вопрос:
каким образом распарсить такого рода таблицу, чтобы на выходе получить Perl хэш вида:

%"Vasiliy_Petrov"= (

"Current Position"=>"student",
"Office City"=>"n/a",
"Age"=>"30,

);

Жду любые идеи\советы.


Содержание

Сообщения в этом обсуждении
"Преобразовать структурированный файл в хеш"
Отправлено XAnder , 09-Мрт-16 17:04 
> Вопрос:
> каким образом распарсить такого рода таблицу, чтобы на выходе получить Perl хэш вида:

В чём конкретно трудности? На первый взгляд задача несложная.


"Преобразовать структурированный файл в хеш"
Отправлено Pahanivo , 09-Мрт-16 19:40 
1) Ээээ не совсем понятно - получить КОД инициализации хеша, или таки загнать данные в хэш?
2) Зачем использовать хэш для чистого вида двумерного массива???
3) парсить как то так /^|\s*(\S+)\s*|\s*(\S+)\s*.... возможно палки нужно заэкранить, не помню, далее $1, $2 ..... ну или кромсать построчно в цикле.
4) вот с титулом повеселей, да и вероятно при таком подходе в теле таблицы могут тоже попадаться многостроки ...

"Преобразовать структурированный файл в хеш"
Отправлено XAnder , 09-Мрт-16 21:27 
> 1) Ээээ не совсем понятно - получить КОД инициализации хеша, или таки загнать данные в хэш?

Судя по всему, ТС имел в виду массив хешей.

> 2) Зачем использовать хэш для чистого вида двумерного массива???

Там на самом деле массив записей или структур, то есть поля имеют разную природу, более-менее фиксированное количество, а порядок их не важен. Для этих дел в Перле традиционно используют хеши как наиболее выразительное (из имеющихся) средство.

> 3) парсить как то так /^|\s*(\S+)\s*|\s*(\S+)\s*.... возможно палки нужно заэкранить,  не помню, далее $1, $2 ..... ну или кромсать построчно в цикле.

Всё так. Вариантов много можно придумать. Например, можно вспомнить про модификатор /g:

map {...тут разбираем, что наловили...} m/\|\s*([^|]+)/g

> 4) вот с титулом повеселей, да и вероятно при таком подходе в теле таблицы могут тоже попадаться многостроки ...

Да, это единственное нетривиальное место в этой задаче. Но тоже просто: цикл по строкам заголовка и сцепка отловленного на одинаковых позициях. На выходе имеем массив заголовков, его элементы потом используем как ключи хеша.

А вот в теле многостроки никак, или нужно вводить дополнительный синтаксис.


"Преобразовать структурированный файл в хеш"
Отправлено Pahanivo , 10-Мрт-16 09:52 
> Там на самом деле массив записей или структур, то есть поля имеют
> разную природу, более-менее фиксированное количество, а порядок их не важен. Для
> этих дел в Перле традиционно используют хеши как наиболее выразительное (из
> имеющихся) средство.

Ты прикалываешь что ли? Под таблицу использовать хеш? Какие тут структуры?
Какая разная природа? Перлу вообще на типизацию пофигу.
Тут массив двумерный идеален (можно сделать многострок в виде третьего измерения).


"Преобразовать структурированный файл в хеш"
Отправлено XAnder , 10-Мрт-16 12:57 
> Ты прикалываешь что ли? Под таблицу использовать хеш? Какие тут структуры?
> Какая разная природа? Перлу вообще на типизацию пофигу.
> Тут массив двумерный идеален (можно сделать многострок в виде третьего измерения).

Согласен. Я же только про выразительность писал, лёгкость восприятия человеком. $a->{Age} - сразу понятно, что это, а вот $a->[3] - не сразу. Да, во многих случаях такая выразительность не нужна.


"Преобразовать структурированный файл в хеш"
Отправлено ACCA , 10-Мрт-16 01:24 
Ну, я бы как-то вот так сказал:

#!/usr/bin/perl

use warnings; use strict;
use Data::Dumper;

my (@row,@header,@result, $i,$hdr);
while (<main::DATA>) {
    s/^\|\s|[\s\|]+\s*$//go;
    if (/^\+-.+\+$/ && !$hdr .. /^\+-.+\+$/ && $hdr) {
        if (/^\+/) {
            if ($hdr) {
                foreach ($i=0; $i<= $#header; $i++) {
                    $header[$i] = join ' ',@{$header[$i]};
                }
            }
            $hdr=1;
            next;
        }
        @row = split /\s+\|\s+/,$_;
        for ($i=0;$i<= $#row;$i++) {
            push @{$header[$i]},$row[$i] if $row[$i];
        }
        next;
    }
    last if /^\+-/;
    $i={};
    @{$i}{@header} = split /\s+\|\s+/,$_;
    push @result, $i;
}

print Dumper \@result;
__DATA__
+------------------+----------+--------+------+-----+
| Name             | Current  | Office | Age  | ... |
|                  | Position |  City  |      |     |
+------------------+----------+--------+------+-----+
| Vasiliy_Petrov   | student  | n/a    | 30   | ... |
| Petr_Ivanov      | worker   | MSK    | 40   | ... |
| Ivan_Ivanov      | n/a      | SPB    | 20   | ... |
| ...              | ...      | ...    | ...  | ... |
+------------------+----------+--------+------+-----+