bump:stable v0.2

2 years ago · 984d403510
parent 847780028c
commit 984d403510
5 changed files with 51 additions and 392 deletions
--- a/config.py
+++ b/config.py
@ -4,7 +4,7 @@ CSV_PATH = './_dataset/TrafficLabelling_/Friday-WorkingHours-DDoS.csv'
 BYPASS_COLUMNS= ('Destination Port', 'Label')
 UNIQUE_COLUMNS = [' Bwd PSH Flags', ' Fwd URG Flags', ' Bwd URG Flags', ' CWE Flag Count',
       'Fwd Avg Bytes/Bulk', ' Fwd Avg Packets/Bulk', ' Fwd Avg Bulk Rate',
-       ' Bwd Avg Bytes/Bulk', ' Bwd Avg Packets/Bulk', 'Bwd Avg Bulk Rate']
+       ' Bwd Avg Bytes/Bulk', ' Bwd Avg Packets/Bulk', 'Bwd Avg Bulk Rate', 'Label']
 IMG_SAVE_PATH = f'./saves/{datetime.datetime.now().strftime("%Y%m%d%H%M%S")}'
--- a/main.py
+++ b/main.py
@ -3,16 +3,10 @@ from utils.files import create_dir
 import pandas as pd
 import numpy as np
 from config import *
 import matplotlib.pyplot as plt
 from utils.dataframe import *
 from sklearn.preprocessing import QuantileTransformer
 from PIL import Image
-
+from loguru import logger
 def is_in_bypass_list(column_name: str, bypass_list: tuple) -> bool:
    for bypass in bypass_list:
        if bypass in column_name:
            return True
    return False
 def input_csv_to_df(file_path: str) -> pd.DataFrame:
@ -21,138 +15,57 @@ def input_csv_to_df(file_path: str) -> pd.DataFrame:
    return df
-def averaging_df(df: pd.DataFrame, column_num: int = None):
+def averaging_df(df: pd.DataFrame):
-    numeric_columns = df.select_dtypes(include=[np.number]).columns
+    numeric_features = df.dtypes[df.dtypes != 'object'].index
-    max_values = df.max()
+    scaler = QuantileTransformer()
-    if column_num is None:
+    df[numeric_features] = scaler.fit_transform(df[numeric_features])
-        column_num = 0
+    df[numeric_features] = df[numeric_features].apply(
-        for numeric_column in numeric_columns:
+        lambda x: (x * 255))
-            if is_in_bypass_list(numeric_column, BYPASS_COLUMNS):
+    return df
                continue
            column_num = column_num + 1
    for numeric_column in numeric_columns:
        if is_in_bypass_list(numeric_column, BYPASS_COLUMNS):
            continue
        df[numeric_column] = df[numeric_column] / max_values[numeric_column] * column_num
        # fix nan
        df[numeric_column] = df[numeric_column].fillna(0)
    return df, column_num
 def iter_df_to_point(df: pd.DataFrame, column_num: int = None):
    size = 0
    points = []
    for index, row in df.iterrows():
        x_values = row.values[2:]
        y_values = np.linspace(0, len(x_values) - 1, len(x_values))
        size = size + 1
        points.append({index: (x_values, y_values)})
    return points
 def generate_one_plot(x_values, y_values, x_y_size: int) -> plt:
    yedges = xedges = np.linspace(0, x_y_size, x_y_size)
    H = np.zeros((x_y_size, x_y_size))
    plt.pcolormesh(xedges, yedges, H)  # pcolormeshp()函数用于创建具有非规则矩形网格的伪彩色图
    plt.scatter(x_values, y_values, marker=',', s=1)
    plt.xlim(0, x_y_size)
    plt.ylim(0, x_y_size)
    # 326
    plt.ylabel('Attributes')
    plt.xlabel('Attribute values')
    # plt.set_cmap('gnuplot')
    plt.set_cmap('BuPu')
    # plt.set_cmap('Greys')
    plt.axis('on')
    return plt
    # plt.savefig(os.path.join(figure_save_path, qwe + ".png"), bbox_inches='tight', pad_inches=0)  # 分别命名图片
 def save_plt(plt: plt, base_path: str, num: int):
    plt.savefig(f"{base_path}/{num}.png", bbox_inches='tight', pad_inches=0)
 from multiprocessing import Pool, cpu_count
 def process(df: pd.DataFrame):
    df, size = averaging_df(df)
    points = iter_df_to_point(df, size)
    base_path = f'./saves/{datetime.datetime.now().strftime("%Y%m%d%H%M%S")}'
    create_dir(base_path)
    pool = Pool(cpu_count())
    results = []
    for point_dict in points:
        num = list(point_dict.keys())[0]
        point = point_dict[num]
        result = pool.apply_async(generate_and_save, args=(base_path, point, size, num))
        results.append(result)
    pool.close()
    pool.join()
 def generate_and_save(base_path: str, point: tuple, size: int, calculate):
    plt = generate_one_plot(point[0], point[1], size)
    save_plt(plt, base_path, calculate)
 def process_single_threaded(df: pd.DataFrame):
    df, size = averaging_df(df)
    points = iter_df_to_point(df, size)
    base_path = IMG_SAVE_PATH
    create_dir(base_path)
    for point_dict in points:
        num = list(point_dict.keys())[0]
        point = point_dict[num]
        size = len(point[0])
        generate_and_save(base_path, point, size, num)
        # plt.show()
    # return df
-if __name__ == '__main__':
+def clean_data(df: pd.DataFrame) -> pd.DataFrame:
    df = input_csv_to_df(CSV_PATH)
    # process(df)
    # process_single_threaded(df)
    df = df.replace([np.inf, -np.inf], np.nan)
    df = df.dropna(axis=0)  # 删除具有NaN值的行
    df = get_ddos_df(df)
    df = drop_columns(df, UNIQUE_COLUMNS)
    # df = drop_unique_columns(df)
    df = df.iloc[:, 7:]
-    numeric_features = df.dtypes[df.dtypes != 'object'].index
+    return df
    scaler = QuantileTransformer()
    df[numeric_features] = scaler.fit_transform(df[numeric_features])
    # In[19]:
-    # Multiply the feature values by 255 to transform them into the scale of [0,255]
+def process(df: pd.DataFrame, label: str = None):
-    df[numeric_features] = df[numeric_features].apply(
+    df = clean_data(df)
-        lambda x: (x * 255))
+    df_clean_data = averaging_df(df)
-    df_clean_data = df
+    create_dir(IMG_SAVE_PATH)
    generate_and_save(df_clean_data)
 def generate_and_save(df_clean_data: pd.DataFrame):
    row_length = len(df_clean_data.columns)
    col_length = len(df_clean_data)
    # Transform all features into the scale of [0,1]
    count = 0
    ims = []
    saves_count = 0
    for i in range(0, col_length):
        count = count + 1
-        if count <= (row_length*3):
+        if count <= (row_length * 3):
            im = df_clean_data.iloc[i].values
            ims = np.append(ims, im)
        else:
            saves_count = saves_count + 1
            ims = np.array(ims).reshape(row_length, row_length, 3)
            if saves_count % 100 == 0:
                logger.info(f"Saving {saves_count} images")
            if saves_count == 1:
                logger.info(f"Shape: {ims.shape}")
            array = np.array(ims, dtype=np.uint8)
            new_image = Image.fromarray(array)
-            new_image.save(IMG_SAVE_PATH + str(i) + '.png')
+            new_image.save(f"{IMG_SAVE_PATH}/{saves_count}.png")
            count = 0
            ims = []
-    print(df)
+
 if __name__ == '__main__':
    df = input_csv_to_df(CSV_PATH)
    process(df)
--- a/test.py
+++ b/test.py
--- a/traffic_csv_converter.py
+++ b/traffic_csv_converter.py
@ -1,267 +0,0 @@
 #!/usr/bin/env python
 """
 Read traffic_csv
 """
 import os
 import argparse
 import csv
 import glob
 import re
 FLAGS = None
 INPUT = "../raw_csvs/classes/browsing/reg/CICNTTor_browsing.raw.csv"#"../dataset/iscxNTVPN2016/CompletePCAPs" # ""
 INPUT_DIR = "../raw_csvs/classes/chat/vpn/"
 CLASSES_DIR = "../raw_csvs/classes/**/**/"
 # LABEL_IND = 1
 TPS = 60 # TimePerSession in secs
 DELTA_T = 60 # Delta T between splitted sessions
 MIN_TPS = 50
 # def insert_dataset(dataset, labels, session, label_ind=LABEL_IND):
 #     dataset.append(session)
 #     labels.append(label_ind)
 # def export_dataset(dataset, labels):
 #     print "Start export dataset"
 #     np.savez(INPUT.split(".")[0] + ".npz", X=dataset, Y=labels)
 #     print dataset.shape, labels.shape
 #
 # def import_dataset():
 #     print "Import dataset"
 #     dataset = np.load(INPUT.split(".")[0] + ".npz")
 #     print dataset["X"].shape, dataset["Y"].shape
 import matplotlib.pyplot as plt
 import numpy as np
 MTU = 1500
 def session_spectogram(ts, sizes, name=None):
    plt.scatter(ts, sizes, marker='.')
    plt.ylim(0, MTU)
    plt.xlim(ts[0], ts[-1])
    # plt.yticks(np.arange(0, MTU, 10))
    # plt.xticks(np.arange(int(ts[0]), int(ts[-1]), 10))
    plt.title(name + " Session Spectogram")
    plt.ylabel('Size [B]')
    plt.xlabel('Time [sec]')
    plt.grid(True)
    plt.show()
 def session_atricle_spectogram(ts, sizes, fpath=None, show=True, tps=None):
    if tps is None:
        max_delta_time = ts[-1] - ts[0]
    else:
        max_delta_time = tps
    ts_norm = ((np.array(ts) - ts[0]) / max_delta_time) * MTU
    plt.figure()
    plt.scatter(ts_norm, sizes, marker=',', c='k', s=5)
    plt.ylim(0, MTU)
    plt.xlim(0, MTU)
    plt.ylabel('Packet Size [B]')
    plt.xlabel('Normalized Arrival Time')
    plt.set_cmap('binary')
    plt.axes().set_aspect('equal')
    plt.grid(False)
    if fpath is not None:
        # plt.savefig(OUTPUT_DIR + fname, bbox_inches='tight', pad_inches=1)
        plt.savefig(fpath, bbox_inches='tight')
    if show:
        plt.show()
    plt.close()
 def session_histogram(sizes, plot=False):
    hist, bin_edges = np.histogram(sizes, bins=range(0, MTU + 1, 1))
    if plot:
        plt.bar(bin_edges[:-1], hist, width=1)
        plt.xlim(min(bin_edges), max(bin_edges)+100)
        plt.show()
    return hist.astype(np.uint16)
 def session_2d_histogram(ts, sizes, plot=False, tps=None):
    if tps is None:
        max_delta_time = ts[-1] - ts[0]
    else:
        max_delta_time = tps
    # ts_norm = map(int, ((np.array(ts) - ts[0]) / max_delta_time) * MTU)
    ts_norm = ((np.array(ts) - ts[0]) / max_delta_time) * MTU
    H, xedges, yedges = np.histogram2d(sizes, ts_norm, bins=(range(0, MTU + 1, 1), range(0, MTU + 1, 1)))
    if plot:
        plt.pcolormesh(xedges, yedges, H)
        plt.colorbar()
        plt.xlim(0, MTU)
        plt.ylim(0, MTU)
        plt.set_cmap('binary')
        plt.show()
    return H.astype(np.uint16)
 def export_dataset(dataset):
    print("Start export dataset")
    np.save(os.path.splitext(INPUT)[0], dataset)
    print(dataset.shape)
 def export_class_dataset(dataset, class_dir):
    print("Start export dataset")
    np.save(class_dir + "/" + "_".join(re.findall(r"[\w']+", class_dir)[-2:]), dataset)
    print(dataset.shape)
 def import_dataset():
    print("Import dataset")
    dataset = np.load(os.path.splitext(INPUT)[0] + ".npy")
    print(dataset.shape)
    return dataset
 def traffic_csv_converter(file_path):
    print("Running on " + file_path)
    dataset = []
    # labels = []
    counter = 0
    with open(file_path, 'r') as csv_file:
        reader = csv.reader(csv_file)
        for i, row in enumerate(reader):
            # print row[0], row[7]
            session_tuple_key = tuple(row[:8])
            length = int(row[7])
            ts = np.array(row[8:8+length], dtype=float)
            sizes = np.array(row[9+length:], dtype=int)
            # if (sizes > MTU).any():
            #     a = [(sizes[i], i) for i in range(len(sizes)) if (np.array(sizes) > MTU)[i]]
            #     print len(a), session_tuple_key
            if length > 10:
                # print ts[0], ts[-1]
                # h = session_2d_histogram(ts, sizes)
                # session_spectogram(ts, sizes, session_tuple_key[0])
                # dataset.append([h])
                # counter += 1
                # if counter % 100 == 0:
                #     print counter
                for t in range(int(ts[-1]/DELTA_T - TPS/DELTA_T) + 1):
                    mask = ((ts >= t * DELTA_T) & (ts <= (t * DELTA_T + TPS)))
                    # print t * DELTA_T, t * DELTA_T + TPS, ts[-1]
                    ts_mask = ts[mask]
                    sizes_mask = sizes[mask]
                    if len(ts_mask) > 10 and ts_mask[-1] - ts_mask[0] > MIN_TPS:
                        # if "facebook" in session_tuple_key[0]:
                        #     session_spectogram(ts[mask], sizes[mask], session_tuple_key[0])
                        #     # session_2d_histogram(ts[mask], sizes[mask], True)
                        #     session_histogram(sizes[mask], True)
                        #     exit()
                        # else:
                        #     continue
                        h = session_2d_histogram(ts_mask, sizes_mask)
                        # session_spectogram(ts_mask, sizes_mask, session_tuple_key[0])
                        dataset.append([h])
                        counter += 1
                        if counter % 100 == 0:
                            print(counter)
    return np.asarray(dataset) #, np.asarray(labels)
 def traffic_csv_converter_splitted(file_path):
    def split_converter(ts, sizes, dataset, counter):
        if ts[-1] - ts[0] > MIN_TPS and len(ts) > 20:
            # print ts[0], ts[-1]
            h = session_2d_histogram(ts-ts[0], sizes)
            # session_spectogram(ts, sizes, session_tuple_key[0])
            dataset.append([h])
            counter += 1
            # if counter % 100 == 0:
            #     print counter
            total_time = ts[-1] - ts[0]
            if total_time > TPS:
                for ts_split, sizes_split in zip(np.split(ts, [len(ts)/2]), np.split(sizes, [len(sizes)/2])):
                    split_converter(ts_split, sizes_split, dataset, counter)
    print("Running on " + file_path)
    dataset = []
    # labels = []
    counter = 0
    with open(file_path, 'r') as csv_file:
        reader = csv.reader(csv_file)
        for i, row in enumerate(reader):
            # print row[0], row[7]
            session_tuple_key = tuple(row[:8])
            length = int(row[7])
            ts = np.array(row[8:8+length], dtype=float)
            sizes = np.array(row[9+length:], dtype=int)
            # if (sizes > MTU).any():
            #     a = [(sizes[i], i) for i in range(len(sizes)) if (np.array(sizes) > MTU)[i]]
            #     print len(a), session_tuple_key
            if length > 10:
                split_converter(ts, sizes, dataset, counter)
    return np.asarray(dataset)
 def traffic_class_converter(dir_path):
    dataset_tuple = ()
    for file_path in [os.path.join(dir_path, fn) for fn in next(os.walk(dir_path))[2] if (".csv" in os.path.splitext(fn)[-1])]:
        dataset_tuple += (traffic_csv_converter(file_path),)  ################
    return np.concatenate(dataset_tuple, axis=0)
 def iterate_all_classes():
    for class_dir in glob.glob(CLASSES_DIR):
        if "other" not in class_dir: #"browsing" not in class_dir and
            print("working on " + class_dir)
            dataset = traffic_class_converter(class_dir)
            print(dataset.shape)
            export_class_dataset(dataset, class_dir)
 def random_sampling_dataset(input_array, size=2000):
    print("Import dataset " + input_array)
    dataset = np.load(input_array)
    print(dataset.shape)
    p = size*1.0/len(dataset)
    print(p)
    if p >= 1:
        raise Exception
    mask = np.random.choice([True, False], len(dataset), p=[p, 1-p])
    dataset = dataset[mask]
    print("Start export dataset")
    np.save(os.path.splitext(input_array)[0] + "_samp", dataset)
 if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--input', type=str, default=INPUT, help='Path to csv file')
    FLAGS = parser.parse_args()
    ##
    # iterate_all_classes()
    # dataset = traffic_class_converter(INPUT_DIR)
    # dataset = traffic_csv_converter(INPUT)
    input_array = "./_dataset/FlowPic/browsing_reg.npy"
    random_sampling_dataset(input_array)
    # export_class_dataset(dataset)
    # import_dataset()
--- a/utils/dataframe.py
+++ b/utils/dataframe.py
@ -9,12 +9,18 @@ def drop_unique_columns(df: pd.DataFrame):
    return df
-# def drop_columns_with_fix_up(df: pd.DataFrame, columns: list):
+def select_label_rows(df: pd.DataFrame, label: str):
-#     columns = [w.lstrip() for w in columns]
+    return df[df.iloc[:, -1] == label]
-#     df = drop_columns(df, columns)
+
-#     columns = [" " + w for w in columns]
+
-#     df = drop_columns(df, columns)
+def drop_columns_with_fix_up(df: pd.DataFrame, columns: list):
-#     return df
+    columns = [w.lstrip() for w in columns]
    df = drop_columns(df, columns)
    columns = [" " + w for w in columns]
    df = drop_columns(df, columns)
    return df
 def drop_columns(df: pd.DataFrame, columns: list):
    columns = [w.lstrip() for w in columns]
    for column_name in columns:
@ -25,3 +31,10 @@ def drop_columns(df: pd.DataFrame, columns: list):
 def get_ddos_df(df: pd.DataFrame):
    return df[df.iloc[:, -1] == 'DDoS']
 def is_in_bypass_list(column_name: str, bypass_list: tuple) -> bool:
    for bypass in bypass_list:
        if bypass in column_name:
            return True
    return False