Чем открыть etl файл
Расширение файла ETL
Microsoft Event Trace Log Format
Что такое файл ETL?
Формат файла ETL используется для хранения журналов событий, созданных системой Windows. Хранит данные в двоичном формате. Системные журналы создаются приложением Microsoft Tracelog, которое регистрирует события ядра. Он регистрирует такие события как:
Трассировка сеанса также может включать в себя события запуска и завершения работы системы. В файле ETL хранятся данные в двоичном формате и для чтения его предназначены специальные средства диагностики и отчетности. Файлы ETL не должны редактироваться вручную.
В файлах ETL хранятся журналы высокочастотных событий и их описания. Такие файлы могут быть полезны при устранении неполадок в системе. Прежде чем системные evernts записываются в файл ETL, они буферизуются, а затем сохраняются в журнале и сжимаются в двоичном формате для экономии места. Файлы отчетов могут занимать много места, поэтому рекомендуется отслеживать объем доступного пространства на диске, туда, где они записаны. Команда Tracerpt может использоваться для анализа журналов трассировки событий для поиска соответствующей информации с использованием различных фильтров.
Программы, которые поддерживают ETL расширение файла
Программы, обслуживающие файл ETL
Как открыть файл ETL?
Причин, по которым у вас возникают проблемы с открытием файлов ETL в данной системе, может быть несколько. С другой стороны, наиболее часто встречающиеся проблемы, связанные с файлами Microsoft Event Trace Log Format, не являются сложными. В большинстве случаев они могут быть решены быстро и эффективно без помощи специалиста. Мы подготовили список, который поможет вам решить ваши проблемы с файлами ETL.
Шаг 1. Установите Microsoft Event Viewer программное обеспечение
Шаг 2. Убедитесь, что у вас установлена последняя версия Microsoft Event Viewer
Если проблемы с открытием файлов ETL по-прежнему возникают даже после установки Microsoft Event Viewer, возможно, у вас устаревшая версия программного обеспечения. Проверьте веб-сайт разработчика, доступна ли более новая версия Microsoft Event Viewer. Иногда разработчики программного обеспечения вводят новые форматы вместо уже поддерживаемых вместе с новыми версиями своих приложений. Причиной того, что Microsoft Event Viewer не может обрабатывать файлы с ETL, может быть то, что программное обеспечение устарело. Последняя версия Microsoft Event Viewer должна поддерживать все форматы файлов, которые совместимы со старыми версиями программного обеспечения.
Шаг 3. Настройте приложение по умолчанию для открытия ETL файлов на Microsoft Event Viewer
Если проблема не была решена на предыдущем шаге, вам следует связать ETL файлы с последней версией Microsoft Event Viewer, установленной на вашем устройстве. Следующий шаг не должен создавать проблем. Процедура проста и в значительной степени не зависит от системы
Выбор приложения первого выбора в Windows
Выбор приложения первого выбора в Mac OS
Шаг 4. Проверьте ETL на наличие ошибок
Если вы выполнили инструкции из предыдущих шагов, но проблема все еще не решена, вам следует проверить файл ETL, о котором идет речь. Вероятно, файл поврежден и, следовательно, недоступен.
Если ETL действительно заражен, возможно, вредоносное ПО блокирует его открытие. Немедленно просканируйте файл с помощью антивирусного инструмента или просмотрите всю систему, чтобы убедиться, что вся система безопасна. Если сканер обнаружил, что файл ETL небезопасен, действуйте в соответствии с инструкциями антивирусной программы для нейтрализации угрозы.
2. Убедитесь, что файл с расширением ETL завершен и не содержит ошибок
Вы получили ETL файл от другого человека? Попросите его / ее отправить еще раз. Возможно, файл был ошибочно скопирован, а данные потеряли целостность, что исключает доступ к файлу. Если файл ETL был загружен из Интернета только частично, попробуйте загрузить его заново.
3. Убедитесь, что у вас есть соответствующие права доступа
Иногда для доступа к файлам пользователю необходимы права администратора. Войдите в систему, используя учетную запись администратора, и посмотрите, решит ли это проблему.
4. Убедитесь, что ваше устройство соответствует требованиям для возможности открытия Microsoft Event Viewer
Операционные системы могут иметь достаточно свободных ресурсов для запуска приложения, поддерживающего файлы ETL. Закройте все работающие программы и попробуйте открыть файл ETL.
5. Убедитесь, что у вас установлены последние версии драйверов, системных обновлений и исправлений
Последние версии программ и драйверов могут помочь вам решить проблемы с файлами Microsoft Event Trace Log Format и обеспечить безопасность вашего устройства и операционной системы. Возможно, что одно из доступных обновлений системы или драйверов может решить проблемы с файлами ETL, влияющими на более старые версии данного программного обеспечения.
Вы хотите помочь?
Если у Вас есть дополнительная информация о расширение файла ETL мы будем признательны, если Вы поделитесь ею с пользователями нашего сайта. Воспользуйтесь формуляром, находящимся здесь и отправьте нам свою информацию о файле ETL.
Шаг 1. Открытие и анализ ETL-файлов в WPA
в этом разделе представлено подробное пошаговое руководство по возможностям пользовательского интерфейса Windows Performance Analyzer (WPA).
Шаг 1. Открытие ETL-файла
WPA может открывать любые файлы журнала трассировки событий (ETL), созданные с помощью Windows средства записи производительности (звч) или Xperf.
Открытие ETL-файла в WPA
В меню Файл щелкните Открыть.
Если вы сохранили ETL-файл в расположении, отличном от значения по умолчанию, перейдите к этому расположению. По умолчанию ЗВЧ сохраняет ETL-файлы в папке Документс\впр Files.
Выберите нужный файл и нажмите кнопку Открыть.
Вы также можете открыть WPA на странице результатов оценок, созданных с помощью платформы оценки.
Открытие WPA из оценки
Шаг 2. Выбор диаграмм
все доступные графы для записи отображаются в окне обозревателя Graph. Разверните любой узел, щелкнув маленький треугольник. Затем перетащите графы на вкладку «анализ», чтобы просмотреть полную версию диаграммы и связанную с ней таблицу данных. Можно также дважды щелкнуть диаграмму, чтобы открыть ее на вкладке анализ.
С помощью значков макета справа от строки заголовка диаграммы можно выбрать для просмотра только диаграмму, только таблицу данных или и то, и другое.
Шаг 3. Выбор интервала времени
На вкладке «анализ» можно выбрать интервал времени, перетащив указатель по горизонтали в области диаграммы. Временная шкала в нижней части вкладки применяется ко всем диаграммам на вкладке.
Шаг 4. одновременное отображение интервала времени
После выбора интервала времени можно увеличить этот интервал времени до полной ширины вкладки анализ. Для этого щелкните интервал правой кнопкой мыши и выберите масштаб в выбранном диапазоне времени. Этот шаг можно повторить несколько раз, чтобы увидеть очень точные сведения о очень небольшом интервале времени.
На всех диаграммах на вкладке «анализ» используется одна и та же временная шкала. Таким образом, это действие увеличивает один и тот же интервал времени для всех этих диаграмм.
Шаг 5. выделение выбранного интервала времени
после выбора интервала времени можно также выделить этот интервал времени на всех диаграммах на вкладке анализ и в окне обозревателя Graph. Для этого щелкните правой кнопкой мыши интервал и выберите выделить выделенный фрагмент. Это действие закрепляет выделенный фрагмент независимо от того, где вы щелкнули. Чтобы очистить выбор, щелкните правой кнопкой мыши интервал и выберите Очистить выделение.
Шаг 6. Настройка таблицы данных
Столбцы можно перетаскивать в любое расположение в таблице данных. Можно щелкнуть заголовок таблицы над любым столбцом, чтобы выполнить сортировку по этому столбцу. Можно также щелкнуть заголовок таблицы еще раз, чтобы отменить сортировку. При изменении таблицы данных изменения также отражаются в элементе управления условные обозначения диаграммы. Столбец условных обозначений таблицы данных соответствует элементу управления условными обозначениями графа.
Таблицы данных можно настроить, выбрав отображаемые столбцы. Чтобы открыть поле выбора столбца, щелкните правой кнопкой мыши заголовок таблицы. Затем можно выбрать столбцы по отдельности или создать или применить предустановленные сочетания отображаемых столбцов.
Таблицы данных — это сводные таблицы. Столбцы слева от вертикальной линии Gold являются ключами. Столбцы между вертикальной и вертикальной синей полосой являются столбцами данных. Если вертикальная линия Gold не видна, прокрутите ее вправо.
Можно перетащить любой столбец слева от вертикальной линии Gold, чтобы сделать его ключом. Можно также перетащить некоторые столбцы справа от вертикальной синей линии, чтобы сделать их графическими.
Можно заморозить небольшой набор столбцов, щелкнув правой кнопкой мыши для отображения вертикальных серых полос закрепления. Затем полоса прокрутки прокручивается только между столбцами между полосами закрепления. Можно перетаскивать полосы закрепления, чтобы включить любое количество столбцов.
Шаг 7. Открытие новой вкладки анализа
Все графы и таблицы на вкладке анализа используют одну и ту же временную шкалу и отображаются вместе. Если требуется просмотреть некоторые графики на другой временной шкале, можно открыть дополнительную вкладку анализ. Для этого в меню Окно выберите пункт создать аналитический отчет, а затем перетащите нужные графы на новую вкладку.
Шаг 8. Открытие или закрытие Windows
В меню Окно выберите окна, которые необходимо открыть или закрыть.
Шаг 9. Создание и применение профиля представления
После настройки макета можно создать профиль представления, который будет воспроизводить текущий макет каждый раз при открытии WPA или только для конкретных типов записей. В меню профили выберите пункт Экспорт, чтобы создать профиль представления, нажмите кнопку Применить, чтобы применить ранее созданный профиль представления, или нажмите кнопку Сохранить профиль запуска, чтобы просмотреть текущее представление макета при каждом открытии WPA.
Шаг 10. Поиск и фильтрация
Можно отфильтровать данные в графе и связанной с ним таблице данных, щелкнув правой кнопкой мыши элемент управления условные обозначения графа и включив или отключив нужные элементы. Чтобы отобразить только выбранные строки или строки, щелкните правой кнопкой мыши таблицу данных и выберите пункт фильтр для выбора.
Чтобы выбрать столбцы, которые должны отображаться в таблице данных, щелкните правой кнопкой мыши заголовок таблицы, а затем выберите или снимите флажок столбцы в поле выбора столбца.
Чтобы выполнить поиск по тексту в таблице данных, щелкните таблицу правой кнопкой мыши и выберите найти, найти далее или найти назад.
Шаг 11. Настройка параметров пользователя
В настоящее время можно задать WPA для загрузки символов, а также задать пути к символам. Эти параметры доступны в меню трассировка.
Шаг 12. Использование консоли диагностики
В этом окне перечислены исключения, произошедшие в рабочем процессе анализа. В этой консоли можно диагностировать проблемы декодирования символов.
Шаг 13. Просмотр анализа оценки и сведений о выпуске
При открытии WPA из оценки, которая была запущена в консоли оценки и которая обеспечивает дополнительный анализ, проблемы, идентифицированные при оценке, отображаются в окне «проблемы». Если щелкнуть одну из этих проблем, сведения и рекомендуемое решение отобразятся на вкладке анализ в разделе сведения о выпуске. Можно также выполнить поиск по списку проблем, используя параметры поиска в верхней части окна «проблемы». Дополнительные сведения об этих функциях доступны в окне «проблемы».
Использование сетевого монитора для просмотра файлов ETL
Коррелированные файлы ETL объединяют соответствующие события в группу. В илллустратион ниже показан связанный файл, Открытый в сетевой монитор с включенным диалоговым каналом.
Коррелированные события группируются по действиям на левой панели. Можно выбрать событие на панели Сводка кадров, а затем щелкнуть правой кнопкой мыши, чтобы выбрать диалог на уровне событий сети. В левой области отобразится соответствующее действие.
При выборе конкретного действия на левой панели отображается список поставщиков для коррелированных событий.
При выборе конкретного поставщика в левой области список событий, характерных для этого поставщика и действия, будет отображаться на панели Сводка по кадрам.
Фильтры можно применять в сетевой монитор, чтобы облегчить просмотр и поиск нужных событий или пакетов. Например, можно применить фильтр к выбранным событиям ошибки (например, утевент. Header. дескриптор. Level = = 2), чтобы отобразить их в определенном цвете.
Фильтры также можно применять для пометки различных поставщиков в различных цветах, чтобы их было проще просматривать.
В следующей таблице приведены некоторые примеры полезных фильтров.
Расширение файла ETL
Тип файла | Microsoft Windows Trace Log Format |
Разработчик | Microsoft |
Ads |
Что это за файл — ETL?
ETL files are created in two stages: first, the logs are buffered in the memory, only after which they are saved on the drive in a compressed binary form. To read them, one must use a command line tool for generating reports, such as Tracerpt, which allows for the generating of information in accordance with the given parameters.
Файлы ETL создаются в два этапа: во-первых, журналы буферизуются в памяти, только после этого они сохраняются на диске в сжатом двоичном виде. Чтобы прочитать их, необходимо использовать инструмент командной строки для генерации отчетов, например Tracerpt, который позволяет генерировать информацию в соответствии с заданными параметрами.
Программа(ы), умеющие открыть файл .ETL
Windows
Как открыть ETL файлы
В дальнейшей части этой страницы Вы найдете другие возможные причины, вызывающие проблемы с файлами ETL.
Возможные проблемы с файлами в формате ETL
Отсутствие возможности открытия и работы с файлом ETL, совсем не должен значить, что мы не имеем установленного на своем компьютере соответствующего программного обеспечения. Могут выступать другие проблемы, которые также блокируют нам возможность работы с файлом Microsoft Windows Trace Log Format. Ниже находится список возможных проблем.
Если Вы уверены, что все перечисленные поводы отсутствуют в Вашем случае (или были уже исключены), файл ETL должен сотрудничать с Вашими программами без каких либо проблем. Если проблема с файлом ETL все-таки не решена, это может значить, что в этом случае появилась другая, редкая проблема с файлом ETL. В таком случае остается только помощь специалиста.
Похожие расширения
.adm | Administrator Policy Template Format |
.adml | Microsoft Administrative Language-specific XML Template Format |
.admx | Microsoft Administrative XML Template Format |
.aml | Microsoft Assistance Markup Language |
.ani | Animated Cursor |
.ann | Microsoft Windows Help Annotation Format |
.aos | Archos Signed Encrypted Data Format |
.asec | Google Android Encrypted Application Package Format |
Как связать файл с установленной программой?
Есть ли универсальный метод открытия неизвестных файлов?
Многие файлы содержат данные в виде текста или чисел. Возможно, что во время открытия неизвестных файлов (напр. ETL) популярный в системе Windows простой редактор текста, которым является Notatnik позволит нам увидеть часть данных, закодированных в файле. Этот метод позволяет просмотреть содержимое многих файлов, однако не в такой форме, как программа, предназначенная для их обслуживания.
Бесплатный удобный ETL инструмент с открытым кодом на основе Python — фантастика или нет?
Мы давно ищем идеальный ETL инструмент для наших проектов. Ни один из существующих инструментов нас полностью не удовлетворял, и мы попробовали собрать из open-source компонентов идеальный инструмент для извлечения и обработки данных. Кажется, у нас это получилось! По крайней мере, уже многие аналитики попробовали эту технологию и отзываются очень позитивно. Сборку мы назвали ViXtract и опубликовали на GitHub под BSD лицензией. Под катом — рассуждения о том, каким должен быть идеальный ETL, рассказ о том, почему его лучше делать на Python (и почему это совсем не сложно) и примеры решения реальных задач на ViXtract. Приглашаю всех заинтересованных к дискуссии, обсуждению, использованию и развитию нового решения для старых проблем!
Визуализация результатов анализа — это очень важно, но роль загрузки данных нельзя недооценивать. За последние 5 лет, которые я занимаюсь BI (как с технической, так и с бизнесовой стороны), я провел более 500 интервью с клиентами, на которых мы обсуждали задачи и потребности конкретных компаний. И в большинстве из них мои собеседники подчеркивали, что визуализация — это очень нужная и полезная вещь, но самые большие проблемы и трудозатраты возникают при загрузке и очистке данных.
80% времени аналитика уходит на преобразование, очистку, выгрузку и сверку данных
Мы в Visiology в основном работаем с крупными предприятиями, промышленностью и госорганизациями, но в разговорах с коллегами я убедился, что проблемы везде одни и те же. Аналитики могут уделить анализу и визуализации только 20% своего времени, потому что 80% уходит на преобразование, очистку, выгрузку и сверку данных. Чтобы эффективно решать эту проблему, мы постоянно ищем новые методы и инструменты работы с данными, тестируем, пробуем на реальных задачах. Что же мы называем идеальным ETL инструментом?
Итак, вот 5 основных критериев, которым должен соответствовать идеальный ETL (Extract-Transform-Load) инструмент:
ETL-инструмент должен быть простым в освоении. Речь не о том, что с ним должны уметь работать совсем неопытные люди. Просто специалист не должен тратить полжизни на изучение нового ПО, а просто взять и практически сразу начать работать с ним.
В нём должно быть предусмотрено максимальное количество готовых коннекторов. Ведь в сущности, мы все пользуемся плюс-минус одними и теми же системами: от 1С до SAP, Oracle, AmoCRM, Google Analytics. И никто не хочет программировать коннекторы к ним с нуля.
Инструмент должен быть универсальным и работать с разными BI системами. Это облегчает переход аналитиков и разработчиков из одной компании в другую — если на прошлом месте работы, например, использовали QlikView, а на новом — Visiology, желательно сохранить возможность пользоваться тем же ETL-инструментом.
ETL не должен ограничивать развитие аналитики. Увы, очень у многих ETL-инструментов есть критическая проблема — в них несложно реализовать простенькие вещи, но для более сложных задач приходится искать новый инструмент, который сможет расти вместе с тобой.
Наконец, естественное желание — получить недорогой (а лучше — полностью бесплатный) инструмент, причем не только на время “пробного периода”, а насовсем, чтобы пользоваться им без ограничений.
Что может предложить нам рынок?
В поиске ответа на этот вопрос для себя самих и для наших клиентов. мы отметили на диаграмме наиболее известные решения, подходящие для этой задачи. Они расположены от бесплатных к дорогим, от простых до корпоративных систем Enterprise-класса.
В категории наиболее сложных и дорогих систем доминируют Oracle и Informatica. Microsoft SSIS — чуть более демократичный. Рядом с ними — Apache Airflow. Это открытый продукт, не требующий оплаты, но зато кривая входа для него оказывается довольно крутой. Кроме этого существуют ETL-инструменты, встроенные или связанные с конкретными BI-системами. В их число входят, например, Tableau Prep или Power Query, который используется совместно с Power BI. В числе бесплатных и демократичных решений — Pentaho Data Integration, бывший Kettle, и Loginom.
Но, увы, ни одна из этих систем не удовлетворяет перечисленным 5 критериям. Oracle и Informatica оказываются слишком дорогими и сложными. С Airflow не так уж просто сразу начать работать. EasyMorph не дотягивает по функциональности, а все инструменты, оказавшиеся в центре нашей диаграммы, прекрасно работают, но не являются универсальными. Фактически, я называл бы достаточно сбалансированными решениями Loginom и Pentaho, но тут возникает ещё один важный момент, о котором обязательно нужно поговорить.
Визуальный или скриптовый ETL?
Если копнуть глубже, то все эти (и другие) ETL-инструменты можно разбить на два больших класса — визуальные и скриптовые. Визуальный ETL позволяет делать схемы из готовых блоков, а скриптовый позволяет задавать параметры на специальном языке программирования, уже оптимизированном для обработки данных.
Выбор между визуальным и скриптовым ETL — это настоящий холивар, достойный противостояния «Android vs iOS». Лично я отношусь к той категории, которая считает, что за скриптовыми ETL — будущее. Конечно, визуальный ETL имеет свои преимущества — это наглядность и простота, но только на первом этапе. Как только возникает потребность сделать что-то сложное, картинки становятся слишком запутанными, и мы все равно начинаем писать код. А поскольку в визуальных ETL нет отладчиков и других полезных примочек для кодинга, делать это приходится в откровенно неудобных условиях.
Pentaho и Loginom относятся к визуальному типу. Я считаю, что это очень хорошие системы для своих задач, и если вы сторонник визуальной ETL — на них можно остановиться. Но я всё-таки всегда делаю выбор в пользу скриптового подхода, потому что он позволяет задавать параметры без графических ограничений, и с ним можно значительно ускорить работу — когда ты уже в этом разобрался.
Конечно, стоит учитывать, что все ETL-инструменты тяготеют к смешанному варианту работы, когда либо визуальный дополняется кодом, либо код дополняется визуальными. Но всё равно в ДНК системы может быть что-то одно. И если мы хотим получить хороший скриптовый ETL, нужно ответить на вопрос — каким он должен быть?
Если мы хотим, чтобы ETL был открытым, бесплатным и уже с экосистемой, значит инструмент должен быть на Python. Почему? Потому что, во-первых, Python — это простой язык, сейчас даже дети учатся программировать на Python чуть ли ни с первого класса. Например, в “Алгоритмике” начинают курс программирования именно с Python, а не с Basic или визуального языка Google. Так что подрастающее поколение разработчиков уже знакомо с ним. Во-вторых, огромная экосистема готовых технологий и библиотек уже создана: от каких-то банальных коннекторов до очень серьёзных вещей, связанных с Data Science и так далее. Можно начинать развиваться в этом направлении: здесь ограничений никаких нет.
Конечно, у Python есть и минусы. При столкновении с экосистемой “один на один” будет серьёзная кривая входа. Новичкам разбираться с темой оказывается достаточно сложно. Как минимум, нужно иметь компетенции по работе с Linux, и это для многих сразу становится стоп-фактором. Именно поэтому нам часто говорят: «Нет, мы хотим что-нибудь простое, готовое, с Python мы разбираться не готовы».
Решение = JupyterHub + PETL + Cronicle
Но поскольку во всём остальном готовый инструмент на Python получается хорош, для решения проблемы входа мы подобрали набор технологий, которые помогают упростить работу с системой. Это уже доказавшие свою эффективность зрелые open-source решения, которые можно запросто объединить и использовать:
JupyterHub — интерактивная среда выполнения Python-кода. По сути, это среда разработки, которая позволяет работать с кодом в интерактивном режиме. Она очень удобна для тех, кто не является профессиональным разработчиком, не накопил готовых навыков программирования на уровне спинномозговых рефлексов. JupyterHub помогает, когда ты разбираешься с кодом, пробуешь что-то новое, экспериментируешь.
Библиотека PETL была разработана на Python специально для обработки данных. Она берёт на себя огромное количество рутинных задач, например, разбор CSV файлов различных форматов или создание схемы в БД при выгрузке данных.
Cronicle — удобный и функциональный планировщик, который позволяет легко автоматизировать выполнение задач по обработке данных, отслеживать статистику, выстраивать цепочки, настраивать оповещения и так далее.
Чтобы всем этим было проще пользоваться, мы объединили три инструмента в ViXtract. Речь идет о сборке набора open-source технологий, которая позволяет легко установить решение одной командой и использовать ETL, не заморачиваясь по поводу Linux, по поводу прав, нюансов интеграций и других тонкостей.
Кроме трех основных, сборка включает в себя вспомогательные технические компоненты, такие как PostgreSQL для хранения обработанных данных и Nginx для организации веб-доступа. Кроме этого в дистрибутиве есть уроки и туториалы, в том числе, готовые примеры интеграций, с которых можно начать работу. В планах — добавить в пакет обучающие видеоролики, и я надеюсь, что вы тоже захотите подключиться к этому проекту, ведь ViXtract — это полностью открытый продукт, выпущенный под open-source лицензией.
И ещё несколько слов о самой оболочке
Давайте посмотрим на интерфейс нашего инструмента. На стартовой странице находятся кнопки запуска редактора, планировщика и переходы на полезные ресурсы — сайт, telegram-канал, сообщество и библиотека PETL. Это документация, в которой описаны все функции преобразования, загрузки файлов. Когда вы начинаете работать с ViXtract, эту страницу логично держать всё время под рукой. Сейчас документация на английском, но одно из направлений развития — это перевод всего набора информации на русский язык.
В ViXtract имеется сразу несколько ядер (aka настроенных окружений). Например, одно из них можно использовать для разработки, а другое — для продуктива. Таким образом, вы можете установить много различных библиотек в одном окружении, а для продуктива оставить только проверенные. Окружения можно легко добавлять и изменять, а если вам интересно узнать о самом процессе работы с данными через ViXTract, вы всегда можете задать вопрос в Telegram сообществе ViXtract.
В интерфейсе Jupyter можно сформулировать задачу на преобразование данных. Для этого мы просто создаем тетрадку (набор коротких блоков кода, которые можно запускать интерактивно) и загружаем при необходимости исходные файлы данных.
Загрузка данных
PETL поддерживает множество источников данных, мы рассмотрим несколько типовых примеров. Эти же примеры доступны в виде готовых тетрадок на GitHub или в установленном ViXtract, там их можно попробовать.
Загрузка из xlsx-файла
Использование открытых источников через API
Работа с базой данных
Данные из xlsx-файла
Видим, что данные загрузились без ошибок, однако заголовки столбцов не определились, потому что в начале файла есть лишняя пустая строка. Исправим это, используя функцию skip и поместим результат в переменную olympics
Теперь заголовки у столбцов корректные, однако не достаточно информативны, исправим это, задав заголовки вручную.
Мы начали выстраивать цепочку преобразования таблицы, это удобно, так как можно просмотреть результат работы на каждом этапе. Иногда, наоборот, удобнее объединить цепочку сразу в одной команде. Например, совместим изменение заголовка с сортировкой по количеству золотых медалей.
Сохраним полученные результаты в новый xlsx-файл.
Готово! Теперь обработанный файл можно скачать или загрузить в BI-систему.
Данные из открытого источника рынка акций
Посмотрим, что мы получили в ответ. Мы увидим данные в формате JSON, которые нужно будет промотать до конца
Используем column_names в качестве значения параметра header функции fromcolumns
В этом примере мы используем List comprehension, инструмент Python, который позволяет делать довольно сложные преобразования в наглядном функциональном стиле и без циклов.
Сохраним полученную табличку в csv-файл.
Через несколько секунд созданный файл появится в панели файлов слева, и вы сможете просмотреть или скачать его.
Данные из БД (PostgreSQL)
В состав ViXtract входит предустановленная СУБД PostgreSQL, её удобно использовать как промежуточное хранилище данных, из которого их уже забирает BI-система. Похожие подходы могут быть использованы и с любой другой СУБД.
Рассмотрим следующий пример.
Доступны данные о состояниях различных типов транспортных средств. В базе есть 2 таблицы:
status_ts содержит информацию о состояниях различных ТС
ts_types содержит наименования типов ТС
Необходимо подготовить таблицу, содержащую валидные данные по бульдозерам:
В данных не должно быть пропусков
Время указано в формате datetime
Кроме данных по бульдозерам других нет
Все состояния, кроме отсутствия данных
Для каждого состояния рассчитана продолжительность
Чтобы исключить строки с пропусками, используем функцию select и определенный выше фильтр row_without_nones
Объединим обе таблицы и выберем данные только по бульдозерам, сразу уберём строки с состоянием «Отсутствие данных».
Проверим, что таблица создалась. Обратите внимание, что схема таблицы (типы полей, их названия и так далее) была создана полностью автоматически.
Так мы не зря выбрали Python?
Я по-прежнему часто слышу мнение: “Python, вся эта экосистема — это ужас какой-то, это что-то необъятное!”. Но на самом деле для того, чтобы выгружать данные, требуется лишь небольшое подмножество этого Python, примерно такое же, как с любым другим ETL-инструментом. Когда вы разберетесь с теми функциями, которые действительно нужны, появляется возможность развиваться дальше, переходить к обработке больших данных, потому что все стеки Big Data уже имеют обёртки на Python — качественные, нативные и удобные. А те технологии, которые используются в ViXtract, применяются и для обработки больших данных, за исключением, может быть, PETL, который ориентирован на средние объёмы информации.
Кстати, продвинутая аналитика и Data Science тоже строятся на экосистеме Python. И если что-то было предварительно создано на Python, результаты можно легко передать разработчику уже для внедрения в продуктив. Другими словами, проведенная в ViXtract работа на Python может быть дальше использована в AirFlow для развития в Enterprise-системе. Возможно, разработчику нужно будет переписать код в соответствии со стандартами продуктива, но затраты на коммуникации уменьшаются на порядок.
В ходе нашего Beta-тестирования ViXtract аналитики начали сами решать задачи по загрузке данных из разных источников и их очистке. Раньше эти люди предпочитали написать задачу и отдать её разработчикам — мол, пусть готово будет через неделю, но зато без проблем. А сейчас они могут сами сделать все необходимое за полчаса. И мне хотелось бы, чтобы вы тоже оценили ViXtract, оставили свое мнение о нём, а может быть — подключились к разработке этого инструмента. Так что если вам тоже интересна эта тема, подписывайтесь на наш блог и подключайтесь к обсуждению.
Сайт ViXtract, на котором можно посмотреть видео-демонстрацию и попробовать ViXtract без установки на свой сервер