CoV2D Browser

4AMQ_1	4RBU_1	5SEB_1	Letter	Amino acid
15	4	17	Q	Glutamine
13	10	16	G	Glycine
3	4	12	M	Methionine
17	0	15	F	Phenylalanine
20	5	22	T	Threonine
17	3	14	R	Arginine
44	5	36	L	Leucine
32	1	12	Y	Tyrosine
30	2	14	N	Asparagine
25	4	15	D	Aspartic acid
3	0	12	C	Cysteine
52	6	21	I	Isoleucine
40	6	18	K	Lycine
10	3	14	P	Proline
23	2	24	S	Serine
19	14	16	V	Valine
10	17	21	A	Alanine
23	6	24	E	Glutamic acid
8	8	13	H	Histidine
3	0	7	W	Tryptophan

4AMQ_1

4RBU_1

5SEB_1

Letter

Amino acid

Glutamine

Glycine

Methionine

Phenylalanine

Threonine

Arginine

Leucine

Tyrosine

Asparagine

Aspartic acid

Cysteine

Isoleucine

Lycine

Proline

Serine

Valine

Alanine

Glutamic acid

Histidine

Tryptophan

Protein code \(c\)	LZ-complexity \(\mathrm{LZ}(w)\)	Length \(n=\|w\|\)	\(\frac{\mathrm{LZ}(w)}{n /\log_{20} n}\)	\(p_w(1)\)	\(p_w(2)\)	\(p_w(3)\)	Sequence \(w=f(c)\)
4AMQ , Knot	162	407	0.79	40	201	376	SYYHHHHHHLESTSLYKKAGLRMLIFTYKLERYIKNKILPKILVVPDRDKYQIKGSFRRRIPYITDIDIVNNVHPEYDDTNIYQRIVDLINSFTNDNQIKLIYVICGTDDRFLLTEYSDEEIEKIKILLNPTELVELNNVLSKYQDDLNKKVFYINEIIWDLYKLRWTSSEVLAGKKILRGGIEVSFQDVVKNNSILLLQYFVKIEYYPIGFDIAVRYKPINLITAYQNAAFYQLKLANYSKEYYFMLFPLRFYFKNDPTISKQLEYIIETKFGLYKQLLVRIDSYRTIYESGNLDLDTAKSIIISIIKDIRKLNGIDMNIIDKIQEVSNNSAGQDKIIAWNTLLTQLYTNINKSVNKQSKKYFTRYINIIPKEDRKLCCLEEEHVLQSGGINFESTNFLTKKKLIY
4RBU , Knot	47	100	0.72	34	71	92	MHHHHHHQQEALGMVETKGLTAAIEAADAMVASANVMLVGYEKIGQGLVTVIVRGDVGAVKAATDAGAAAARNVGEVKAVHVIPRPHTDVEKILPKGISQ
5SEB , Knot	152	343	0.86	40	221	334	GSSICTSEEWQGLMQFTLPVRLCKEIELFHFDIGPFENMWPGIFVYMVHRSCGTSCFELEKLCRFIMSVKKNYRRVPYHNWKHAVTVAHCMYAILQNNHTLFTDLERKGLLIACLCHDLDHRGFSNSYLQKFDHPLAALYSTSTMEQHHFSQTVSILQLEGHNIFSTLSSSEYEQVLEIIRKAIIATDLALYFGNRKQLEEMYQTGSLNLNNQSHRDRVIGLMMTACDLCSVTKLWPVTKLTANDIYAEFWAEGDEMKKLGIQPIPMMDRDKKDEVPQGQLGFYNAVAIPCYTTLTQILPPTEPLLKACRDNLSQWEKVIRGEETATWISSPSVAQKAAASED

Protein code \(c\)

LZ-complexity \(\mathrm{LZ}(w)\)

Length \(n=|w|\)

\(\frac{\mathrm{LZ}(w)}{n /\log_{20} n}\)

\(p_w(1)\)

\(p_w(2)\)

\(p_w(3)\)

Sequence \(w=f(c)\)

4AMQ , Knot

162

407

0.79

201

376

SYYHHHHHHLESTSLYKKAGLRMLIFTYKLERYIKNKILPKILVVPDRDKYQIKGSFRRRIPYITDIDIVNNVHPEYDDTNIYQRIVDLINSFTNDNQIKLIYVICGTDDRFLLTEYSDEEIEKIKILLNPTELVELNNVLSKYQDDLNKKVFYINEIIWDLYKLRWTSSEVLAGKKILRGGIEVSFQDVVKNNSILLLQYFVKIEYYPIGFDIAVRYKPINLITAYQNAAFYQLKLANYSKEYYFMLFPLRFYFKNDPTISKQLEYIIETKFGLYKQLLVRIDSYRTIYESGNLDLDTAKSIIISIIKDIRKLNGIDMNIIDKIQEVSNNSAGQDKIIAWNTLLTQLYTNINKSVNKQSKKYFTRYINIIPKEDRKLCCLEEEHVLQSGGINFESTNFLTKKKLIY

4RBU , Knot

100

0.72

MHHHHHHQQEALGMVETKGLTAAIEAADAMVASANVMLVGYEKIGQGLVTVIVRGDVGAVKAATDAGAAAARNVGEVKAVHVIPRPHTDVEKILPKGISQ

5SEB , Knot

152

343

0.86

221

334

GSSICTSEEWQGLMQFTLPVRLCKEIELFHFDIGPFENMWPGIFVYMVHRSCGTSCFELEKLCRFIMSVKKNYRRVPYHNWKHAVTVAHCMYAILQNNHTLFTDLERKGLLIACLCHDLDHRGFSNSYLQKFDHPLAALYSTSTMEQHHFSQTVSILQLEGHNIFSTLSSSEYEQVLEIIRKAIIATDLALYFGNRKQLEEMYQTGSLNLNNQSHRDRVIGLMMTACDLCSVTKLWPVTKLTANDIYAEFWAEGDEMKKLGIQPIPMMDRDKKDEVPQGQLGFYNAVAIPCYTTLTQILPPTEPLLKACRDNLSQWEKVIRGEETATWISSPSVAQKAAASED

Let \(P_w(n)\) be the set of distinct subwords (intervals) in a word \(w\). Let \(p_w(n)\) be the cardinality of \(P_w(n)\). Let \(f(c)\) be the sequence in FASTA with 4-symbol Protein Data Bank code \(c\).

Pair	\(Z_2\)	Length of longest common subsequence
4AMQ_1,4RBU_1	192	6
4AMQ_1,5SEB_1	180	4
4RBU_1,5SEB_1	208	3

Pair

\(Z_2\)

Length of longest common subsequence

4AMQ_1,4RBU_1

192

4AMQ_1,5SEB_1

180

4RBU_1,5SEB_1

208

Newick tree

Status	Protein1	Protein2	d	d₁/2
Query variables	4AMQ_1	4RBU_1	152	93

Status

Protein1

Protein2

d₁/2

Query variables

4AMQ_1

4RBU_1

152

In notation analogous to [Theorem 16, Kjos-Hanssen, Niraula and Yoon (2022)],
\[ \delta= \alpha \mathrm{min} + (1-\alpha) \mathrm{max}= \begin{cases} d &\alpha=0,\\ d_1/2 &\alpha=1/2 \end{cases} \]

CoV2D BrowserTM

Newick tree

CoV2D Browser^TM