Source code for pycantonese.stop_words

"""Stop words for Cantonese."""

_STOP_WORDS = """
一啲
一定
不如
不過
之後

乜嘢
人哋
但係

你哋

佢哋


其他




即係
原來


可以
可能

同埋









哩個
哩啲
哩度
哩樣

唔使
唔係




喺度


嗰個
嗰啲
嗰度



噉樣
因為



如果

已經

幾多


應該
成日

我哋
或者
所以



有冇
有啲

梗係
然之後

真係



而家
自己

覺得



譬如
跟住


邊個


點樣
點解
""".strip().split()


[docs]def stop_words(add=None, remove=None): """Return Cantonese stop words. .. versionadded:: 2.2.0 Parameters ---------- add : iterable[str], optional Stop words to add. remove : iterable[str], optional Stop words to remove. Returns ------- set[str] Examples -------- >>> stop_words_1 = stop_words() >>> len(stop_words_1) 104 >>> '香港' in stop_words_1 False >>> stop_words_1 # doctest: +SKIP {'一啲', '一定', '不如', '不過', ...} >>> >>> stop_words_2 = stop_words(add='香港') >>> len(stop_words_2) 105 >>> '香港' in stop_words_2 True """ _stop_words = set(_STOP_WORDS) if add: if isinstance(add, str): _stop_words.add(add) else: # assume "add" is an iterable of strings _stop_words |= set(add) if remove: if isinstance(remove, str): _stop_words.remove(remove) else: # assume "remove" is an iterable of strings _stop_words -= set(remove) return _stop_words