MS2LDA Run Module¶

run ¶

run(
    dataset,
    n_motifs,
    n_iterations,
    dataset_parameters,
    train_parameters,
    model_parameters,
    convergence_parameters,
    annotation_parameters,
    preprocessing_parameters,
    motif_parameter,
    fingerprint_parameters,
    save=True,
)

main function to run MS2LDA workflow in a jupyter notebook

Source code in MS2LDA/run.py

def run(
    dataset,
    n_motifs,
    n_iterations,
    dataset_parameters,
    train_parameters,
    model_parameters,
    convergence_parameters,
    annotation_parameters,
    preprocessing_parameters,
    motif_parameter,
    fingerprint_parameters,
    save=True,
):
    """main function to run MS2LDA workflow in a jupyter notebook"""

    loaded_spectra = filetype_check(dataset=dataset)
    cleaned_spectra = clean_spectra(loaded_spectra, preprocessing_parameters)
    print("Cleaning spectra ...", len(cleaned_spectra), "spectra left")
    feature_words = features_to_words(
        spectra=cleaned_spectra,
        significant_figures=dataset_parameters["significant_digits"],
        acquisition_type=dataset_parameters["acquisition_type"],
    )  # significant digits need to be added in dash.

    # Modeling
    ms2lda = define_model(n_motifs=n_motifs, model_parameters=model_parameters)
    trained_ms2lda, convergence_curve = train_model(
        ms2lda,
        feature_words,
        iterations=n_iterations,
        train_parameters=train_parameters,
        convergence_parameters=convergence_parameters,
    )

    # Mapping
    doc2spec_map = map_doc2spec(feature_words, cleaned_spectra)
    MS2LDA.retrieve_spec4doc = partial(retrieve_spec4doc, doc2spec_map, trained_ms2lda)

    # Motif Generation
    motifs = extract_motifs(trained_ms2lda, top_n=motif_parameter)
    motif_spectra = create_motif_spectra(
        motifs,
        charge=dataset_parameters["charge"],
        motifset_name=dataset_parameters["name"],
        significant_digits=dataset_parameters["significant_digits"],
    )  # output name

    # Motif Annotation and Optimization
    library_matches, s2v_similarity = s2v_annotation(
        motif_spectra, annotation_parameters
    )
    clustered_spectra, clustered_smiles, clustered_scores = hit_clustering(
        s2v_similarity=s2v_similarity,
        motif_spectra=motif_spectra,
        library_matches=library_matches,
        criterium=annotation_parameters["criterium"],
        cosine_similarity=annotation_parameters["cosine_similarity"],
    )
    motif_spectra = add_annotation(motif_spectra, clustered_smiles)
    optimized_motifs = motif_optimization(
        motif_spectra, clustered_spectra, clustered_smiles, loss_err=1
    )
    motif_fps = calc_fingerprints(
        clustered_smiles,
        fp_type=fingerprint_parameters["fp_type"],
        threshold=fingerprint_parameters["threshold"],
    )

    if save:
        actual_output_folder = store_results(
            trained_ms2lda,
            motif_spectra,
            optimized_motifs,
            convergence_curve,
            clustered_smiles,
            doc2spec_map,
            dataset_parameters["output_folder"],
        )

        # Save additional viz data
        if n_motifs < 500:
            # near the end of `run()` (or right before calling save_visualization_data)
            parameters_for_viz = {
                "n_motifs": n_motifs,
                "n_iterations": n_iterations,
                "dataset_parameters": dataset_parameters,
                "train_parameters": train_parameters,
                "model_parameters": model_parameters,
                "convergence_parameters": convergence_parameters,
                "annotation_parameters": annotation_parameters,
                "motif_parameter": motif_parameter,
                "preprocessing_parameters": preprocessing_parameters,
                "fingerprint_parameters": fingerprint_parameters,
            }
            save_visualization_data(
                trained_ms2lda,
                cleaned_spectra,
                optimized_motifs,
                doc2spec_map,
                actual_output_folder,
                run_parameters=parameters_for_viz,
            )

    return motif_spectra, optimized_motifs, motif_fps

store_results ¶

store_results(
    trained_ms2lda,
    motif_spectra,
    optimized_motifs,
    convergence_curve,
    clustered_smiles,
    doc2spec_map,
    output_folder="MS2LDA_Results",
)

Save MS2LDA results to a new folder. If 'output_folder' already exists, we automatically create a new folder by appending '_1', '_2', etc.

Returns:

Name	Type	Description
`str`		The actual output folder name used (which may be different from the input if renamed)

Source code in MS2LDA/run.py

def store_results(
    trained_ms2lda,
    motif_spectra,
    optimized_motifs,
    convergence_curve,
    clustered_smiles,
    doc2spec_map,
    output_folder="MS2LDA_Results",
):
    """
    Save MS2LDA results to a new folder. If 'output_folder' already exists,
    we automatically create a new folder by appending '_1', '_2', etc.

    Returns:
        str: The actual output folder name used (which may be different from the input if renamed)
    """
    curr_dir = os.getcwd()

    # Check if output_folder already exists
    # increment suffix until we find a folder name that does not exist
    if os.path.isdir(output_folder):
        base = output_folder
        i = 1
        while os.path.isdir(f"{base}_{i}"):
            i += 1
        new_output_folder = f"{base}_{i}"
        print(
            f"Warning: Folder '{base}' already exists. Creating new folder: '{new_output_folder}'."
        )
        output_folder = new_output_folder

    # Create the new folder
    os.mkdir(output_folder)
    os.chdir(output_folder)

    # Store M2M files
    store_m2m_folder(motif_spectra, "motifs")
    print("m2m folder stored")

    # Plot + save the convergence curve
    convergence_curve_fig = plot_convergence(convergence_curve)
    convergence_curve_fig.savefig(
        "convergence_curve.png", dpi=300, bbox_inches="tight", pad_inches=0.2
    )
    plt.close(convergence_curve_fig)
    print("convergence curve stored")

    # Create + save the network
    network_fig = create_network(optimized_motifs, significant_figures=2)
    nx.write_graphml(network_fig, "network.graphml")
    print("network stored")

    # Save motif figures
    os.mkdir("motif_figures")
    show_annotated_motifs(
        optimized_motifs, motif_spectra, clustered_smiles, savefig="motif_figures"
    )

    # Save trained model + doc2spec_map
    trained_ms2lda.save("ms2lda.bin")
    with open("doc2spec_map.pkl", "wb") as outfile:
        pickle.dump(doc2spec_map, outfile)

    # Save MotifDB outputs
    ms1_motifDB_opt, ms2_motifDB_opt = motifs2motifDB(optimized_motifs)
    store_motifDB(ms1_motifDB_opt, ms2_motifDB_opt, name="motifset_optimized.json")
    ms1_motifDB, ms2_motifDB = motifs2motifDB(motif_spectra)
    store_motifDB(ms1_motifDB, ms2_motifDB, name="motifset.json")

    os.chdir(curr_dir)

    return output_folder