-
Notifications
You must be signed in to change notification settings - Fork 11
/
DIARY
2708 lines (2190 loc) · 101 KB
/
DIARY
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
--(2007/05/12)(yusuke)
単語自体のような出現頻度の低い素性を扱う方法を検討中
--(2007/05/09)(yusuke)
例文から変換結果を得てパラメータを更新すると、別の変換結果が得られる
これを繰り返すことで様々な誤変換を得ることができる。
->make update_params2を使う
--(2007/04/25)(yusuke)
「運転席|側」のように接尾辞は別文節にする
--(2007/02/28)(yusuke)
「忙し」(せわし)のように形容詞の語幹だけ使うことがまれにある
anthy-8700 released
recordの単語をtextdicに移すコードを削除
--(2007/02/23)(yusuke)
頻度関係の誤変換が目立つようになってきた
--(2007/01/28)(yusuke)
hmmじゃなくなったので、変数名等の変更中。->done
次はiisを変更する->done
--(2007/01/27)(yusuke)
utf8化は完了
MEMMは止めて経験的確率をハードコードすることにした
当面の間はコーパスの量を増やすことで性能向上を図る
例文を増やすと自然なコードで性能が稼げる
素性を増やすときは正誤の識別に貢献しているかで順位を付け,高い物のみを用いる
文節の素性,連接の素性を分離して複数の分布から確率を計算するという手も考えられる
--(2006/11/17)(yusuke)
10と10では接尾辞の付き方が違う←修正済み
--(2006/11/5)(yusuke)
anthy-8700は下記のコードを併存させる
*PRIVATEDICセクション(次のリリースで消すかも)
*texttrie EUC-JPセクション
*texttrie UTF8セクション
その後で、EUCセクションからUTF8セクションへ単語を
移動するコードを追加する
現時点ではEUC-JPモードで登録された単語はEUC-JPのセクションに
登録される
--(2006/11/4)(yusuke)
個人辞書のストレージをEUC-JPとUTF8の両方を使うようにした
--(2006/10/22)(yusuke)
コーパスを増やしながらチューニングすると、コーパスの量に応じた
いろいろな現象が発生してる。
--(2006/10/21)(yusuke)
last-recordのUTF8化
既存のEUCのファイルがあれば、そのまま使う
なければ、.utf8というsuffixを付けて新規作成
--(2006/09/29)(yusuke)
文節X, Yと連続する確率は
P = 1/z * exp (f_c・λ)
ここでcはXのクラス
λはXの付属語とYのクラスを含むベクトル
--(2006/09/16)(yusuke)
文節X, Yと連続する確率は
P = 1/z * exp (f_c・λ_x)
ここでcはYのクラス
--(2006/04/14)(yusuke)
久々の更新
テスト機構をつけた
--(2004/07/22)(yusuke)
recordを全部読むと遅いので、必要な時だけ読むsectionも作ろうと思う
--(2004/06/16)(yusuke)
*名詞化動詞の後続に来るのは名詞のあと+名詞35のあと
--(2004/05/30)(yusuke)
「(」「)」などの一文字で単独の文節になって欲しいものに
新しい品詞を割り振る
--(2004/04/26)(yusuke)
履歴による候補の順序変更が動いた、要チューニング
anthy-azik.elを追加したが、ロードが遅い
--(2004/04/18)(yusuke)
履歴による候補の順序変更
--(2004/04/13)(yusuke)
anthy.elでauto-fill-modeが効かないらしい->修正できた
--(2004/03/17)(yusuke)
文節の学習は、語幹+文節クラスをベースにしよう
--(2004/03/09)(yusuke)
「ありませんし」みたいなのは、文末フラグが欲しい
--(2004/02/11)(yusuke)
単語の関係はhashを引いてから検索を実際に行う。これをdiclibのレイヤで行う。
--(2004/02/07)(yusuke)
用例辞書を復活させた
--(12/26)(yusuke)
修飾語は被修飾語の前の方を修飾する場合と後ろを修飾する場合がありそうな気がする
--(12/16)(yusuke)
「みぶんるい」の一つめの文節を「み」まで縮めると何故か「未|文|類」になる
--(11/9)(yusuke)
ユニコード化した時のエンコーディング
辞書ソース EUC-JP
辞書ファイル UTF-8
xchar UCS4
cstr EUC-JP
--(10/16)(yusuke)
サ変名詞の接尾辞を新設
--(9/21)(yusuke)
上一段活用の動詞の語幹 + "" = 連用形
というように0文字のパートが存在する
--(9/17)(yusuke)
#RTは処理できてるかな
--(9/2)(yusuke)
metawordの結合のためには、文節の最後の要素の品詞を知らないといけない。
ユニコード化
内部 UTF-32
外部 とりあえずEUCのまま
辞書エンコーディング UTF16
--(8/7)(yusuke)
付属語グラフの終端に属性を付ける。
未然、連用、終止、連体、仮定、命令、主格、所有格、、
--(8/1)(yusuke)
活用はconjugateじゃなくてinflectionらしい
--(7/31)(yusuke)
anthy_get_nth_dic_ent_strでコピーした
文字列を返す必要があるのか要検討
--(7/26)(yusuke)
word_list->part[].{from,len}が
それぞれまともか要チェック
--(6/30)(yusuke)
struct_ratioを文節の評価に入れたい
--(6/28)(yusuke)
区切りの検索を幅優先に変更した
--(6/21)(yusuke)
付属語の辞書を自作しようかしら
活用表の先頭のマッチングを書き換えないと
「サ変未然形」が「サ変」にもマッチする
--(6/15)(yusuke)
「する」の扱いがまずい
--(6/10)(yusuke)
何故か残っていたmkanthydic/struct.txtを消した
候補を一個ずつ進めるモードの実装は少しずつ進めている
--(6/7)(yusuke)
dic_ent中に品詞の名前を追加したが、wtypeの
中にいれるのも良いかもしれない
--(6/2)(yusuke)
idからdic_entを得るためのhashを作った。
--(6/1)(yusuke)
用例辞書のデザインのメモ
単語のid,読みのidを作成する(読みについては未実装)
id間の関係には複数の種類がある。たとえば、
近所に出現した、主語述語の関係で使用されるなど。
anthy-isearch.elの作成を開始
todo: seq_nodeをseq_entにマージしたので、関数名などを
見直す
--(5/10)(yusuke)
anthy.elでカナモード用のAPIを追加
--(5/2)(yusuke)
動詞の名詞化を正しく処理できていない、語幹のみで足している
直した
--(5/1)(yusuke)
セーブされた用例データは(読み、単語、品詞)の形式をとる
idからそれらを求める関数を書かないといけない
--(4/28)(yusuke)
ochaire学習の文節数を2から3に上げた
--(4/27)(yusuke)
用例の学習の数の上限を付ける、セーブする
--(4/21)(yusuke)
単語の内部表現から外部表現への変換はできそう。
逆を考えないと、、ochaire学習は付属語のパターンの
学習に縮退させようと思うです。
「背中に書く」「背中を掻く」とかむずかしいなあ
--(4/20)(yusuke)
用例辞書が候補交換に負けるのをなんとかしないと、、
--(4/17)(yusuke)
用例辞書が引けるようになった
--(4/12)(yusuke)
sdicからfile_dicへの名前変更中
お茶入れ学習の端の文節の処理をなんとかしたい
--(4/7)(yusuke)
カタカナ候補を先頭か最後にもってくるようにした
qで最後の候補を選べるようにしようと思う
--(4/5)(yusuke)
用例辞書を作るためにコードの整理
UCS4対応するためには、
辞書、内部、外部のエンコーディングを正しく扱わないと
いけない。とりあえず、内部だけUCS4ができるか検討する。
--(4/1)(yusuke)
X5rのrを忘れてた。活用形とかの情報をそのままにした名詞を追加。
--(3/19)(yusuke)
「満てるとき」>「見てるとき」というのは接続の強さの設定がまずい。
お茶入れ学習ききすぎ
--(3/4)(yusuke)
カ変、サ変は直した
ドキュメントも直さないと、、
--(3/2)(yusuke)
カ変、サ変は壊れてます。
seginfo中の情報が活用語尾を含んでいません
--(3/1)(yusuke)
K2T15 done
Cannaを読んで、活用語尾の処理を付属語グラフに回しても
よさそうな気がしたが、活用形の情報を付属語グラフに埋めるのが
面倒だとも思った。
未然(MZ)、連用(RY)、終止(SS)、連体(RT)、仮定(KT)、命令(MR)、語幹(GK)
形容詞はなんとかなったけど、compose.cに
anthy_wtype_set_ct(&ce->si->word_info[n].wt, CT_NONE);がいる
理由をあきらかにすること。
活用語尾を付属語送りにしたせいで、struct_ratioがめいっぱい下がった
「動きやすい」とかにするとcoreの品詞が動詞で、活用形が終止形になってしまう。
--(2/27)(yusuke)
Cannaの付属語グラフは
main.code 品詞の名前の定義のみ
gram.code 付属語のクラスわけ
gram.goto 遷移の定義
マクロの定義が興味深い
「@〜詞語幹」というノードをそのうち作ろう
JSmonoとK2T16、K2T35をコピーしてきた とりあえず [-]演算子は無視
この取り込み作業は当分続けるつもり
数詞を数詞と認識できてない
--(2/25)(yusuke)
接続助詞の整理
--(2/20)(yusuke)
static関数のプロトタイプをいちいち先頭に書くのはやめた src-util/*.c以外
--(2/15)(yusuke)
2chの78の二つめの要望を実現すべくanthy.elの候補レイアウトを簡単化
--(2/12)(yusuke)
辞書生成の時に一度全部メモリに読むようにした。
--(1/28)(yusuke)
辞書中に同じ単語は一ヶ所しか現れないことを保証するようにした。
--(1/25)(yusuke)
anthy_ddic_push_back_dic_ent()に単語のidを付加した
--(1/20)(yusuke)
微妙なパラメータの調整のみ
--(12/30)(yusuke)
anthy modeでの候補選択をclean up中
(参照: anthyスレ78番)
#OKX (動詞丁寧表現語幹)を #T30: 名詞(する,語幹,格助接続)
と同じにした。
--(12/8)(yusuke)
姓と名をマージするのが変 src-splitter/metaword.c::try_combine_name()
--(11/29)(yusuke)
Doxygenを導入した。anthy/ でdoxygenを実行するよろし
--(11/23)(yusuke)
候補の構造でスコアをいじるところで分母と分子をまちがえてたので直した
--(11/18)(yusuke)
括弧の開きを後ろの文節に付けたい
--(11/16)(yusuke)
文節の最後の文字が助詞ならば,そこまでをカタカナにした候補を
生成するようにした.次は評価をいじる
「書いて」が出ない.付属語の長さでstruct_rationを引き過ぎ(直した)
--(11/9)(yusuke)
ヤマケンさんから頂いたメモリリーク修正のパッチを当てた
2chで頂いたローマ字にバックスペースでアルファベットに分割する
パッチをあてたが,メモリリークがあるっぽい.(直した)
--(11/7)(yusuke)
anthy.el のバッファごとのコンテキスト分離をやった
minibufferが絡むと依然バグる
--(11/6)(yusuke)
2chで指摘された問題の一部に対応
あとはanthyinputのclean upが必要
input.hの構造体を見せないようにするためのAPIを足した
--(11/2)(yusuke)
主語(subj)
述語(pred)
修飾語(mod)
独立語(dep)
接続語(conn)
--(10/23)(yusuke)
> #KJ >
などのエントリを追加しているところ
「かお」で顔文字も欲しい
--(10/22)(yusuke)
文の成分は主語,述語,修飾語,独立語,接続語というモデルで
行こうかしら
SKKの辞書を取り込めるようにしたい
--(10/3)(yusuke)
自立語のみの学習を追加した.TODO(Done 10/22)
*文節ごとの学習とのコードとの統合をする
*動作チェック
--(9/28)(yusuke)
スコアがオーバーフローしてた
intで256を掛けることがあるので,よくチェックすべし.
--(9/21)(yusuke)
candswapで候補を入れ換えるのは変で
旧候補は2位に落とすだけで十分直した
--(9/19)(yusuke)
〜する,〜おく,〜べき
--(9/14)(yusuke)
seg_infoのstruct_ratioとbase_scoreをそのうち統合したい
--(9/8)(yusuke)
文節の長さをバランスするために,
(Σ(文節長^2))/文節数をスコアから引くようにした
負の評価値を割ると大きくなるという恥ずかしいバグ
--(8/22)(yusuke)
右に隣接するextentの様子でそのextentも変わるようにしようと思った
cannadicから消えてた #D2KYを復活させて 「動き易い」などの変換を復活
--(8/4)(yusuke)
右から検索に変わる方法が難しい
--(7/28)(yusuke)
「生み出す華麗な」が「生み出すか礼な」で後ろから
マッチングすればよいでしょうけど件の特許が邪魔.
でけた.検索時に文の右端か2つめ以降のextentは加点することにした.
しかし,右端に句読点などがあると困る.
--(7/25)(yusuke)
単語登録のバグを修正
品詞の名前に#をつけるのを忘れていた
recordを読んだときに個人辞書を更新しないといけない
--(7/15)(yusuke)
付属語グラフに属性を追加する準備開始
--(7/13)(yusuke)
charをsignedだと思ってた.はずかしいなぁ
--(7/11)(yusuke)
include/segclass.h を追加
--(6/28)(yusuke)
anthyinputのドキュメントupdateしないといけない
--(6/26)(yusuke)
splitterで文節(seginfo)に属性をあたえて,relationで
前後をみながらソートするって感じ
--(6/15)(yusuke)
「放送中し」「〜し」で生成してるけど、「放送中」は
「する名詞」ではないので減点を十分にしとかんといかん
--(6/12)(yusuke)
名詞に接頭辞をつけないようにした。
次は(a)接頭辞だけで文節になるようにする、
(b)接頭辞を含むmetawordを作る
「いれたて」が変換できないregression
--(6/11)(yusuke)
よくわからん文節は、全部カタカナの候補を
先頭に出すようにした。次にはこれを学習できるようにするかも
--(6/8)(yusuke)
無理矢理くさい候補は減点して、カタカナのみの名詞にしよう
--(6/4)(yusuke)
metawordの生成されていない一文字extentを生成するようにして
ダミーのmetawordをそこでは使わないようにした.
--(6/3)(yusuke)
extentが片付いたら,接頭辞,接尾辞を整理しようと思う
--(6/1)(yusuke)
付属語グラフの強化をやった
--(5/30)(yusuke)
extentへの移行はとりあえずできたかな
NF_NAME = NF_FAMNAME | NF_FSTNAMEはまずい
名前っぽいシーケンスを二つ結合してしまう
--(5/28)(yusuke)
一文字の文節のスコアを下げた
後ろの文節のスコアをあげようと思った
右から検索するというのは例の特許がかかってるので
やめようと思う.
「いまの^にnほんが」を「いまのに」で文節を構成して
しまうという問題がある
--(5/25)(yusuke)
extentへの変更を実行中
--(5/23)(yusuke)
splitterにmetawordよりも上のレイヤのextentを
導入することを決意.失敗したらまた全部除去する.
--(5/22)(yusuke)
MAP_CLEARを2回するとcoreはく
直した
--(5/21)(yusuke)
カナ入力のためにLHSが複数文字のときに
設定できるようにしつつある.
--(5/19)(yusuke)2周年!
カナ入力をしようとすると最初のローマ字の設定を
クリアしないといけないのが面倒.
--(5/18)(yusuke)
rkconvの設定を改善する
付属語グラフの改善
接頭辞、接尾辞の学習
ILIBのドキュメントの改善
rkconv.c::rk_sort_rule()を始めた
--(5/16)(yusuke)
anthy_input_edit_config() を
anthy_input_edit_rk_symbol_config()
anthy_input_edit_rk_edit_config()
に分割した
--(5/15)(yusuke)
src-splitter/wordborder.h のword_info_cache中の
meta_word,word_listをポインタの配列にした.
--(5/12)(yusuke)
anthy_input_free_config()でconfigをリファレンスカウント方式にする?
--(5/11)(yusuke)
static void *ここに改行をいれて回る日々*hoge()
テストプログラムが誤変換を学習するので困るが,
直すのは手間っぽい.
テスト用の匿名パーソナリティを作らんとダメっぽいです.
匿名パーソナリティを""にして,デフォルトを"default"に
することを検討中
--(5/9)(yusuke)
lock_record()でロックしてたのでまずい
はやくflockに切替えるべし.きりかえた
ochaireのnegativeがおかしい
--(4/30)(yusuke)
testのプログラムをelispに変更しつつある
無理っぽいseginfoだけで候補を生成してしまった場合にはもっと短くて
適切なseginfoも探すようにすべし.
--(4/28)(yusuke)
anthy-agentをテスト環境でも動作できるようにコマンドラインオプションを
いくつか追加した.
「ー」を変換してスペース4回目に列挙モードになるのは変
--(4/21)(yusuke)
src-splitter/evalborder.c の検索で右端に到達したら
より深い検索に切替えるようにした
--(4/20)(yusuke)
anthy_get_ext_seq_ent_wtypeがいい加減過ぎ
自立語部の長さを取り出すとき,動詞は語幹だけで数えるか
「名詞する」の「する」まで数えるかどちらかにすべき.
--(4/14)(yusuke)
agent.cにコメントを追加
--(4/7)(yusuke)
未知付属語学習の追加中
--(3/29)(yusuke)
src-splitter/metaword.c::make_dummy_metawordのスコアの計算が適当
--(3/27)(yusuke)
#OKXの候補が出ない
anthy_commit_border()にseginfoが渡って来ない
--(3/24)(yusuke)
wtypecmpの返り値が変
--(3/21)(yusuke)
wl->conn_score, si->tail_biasを分母256の固定小数に変えた
si->tail_bias を si->tail_ratioに改名した
--(3/4)(yusuke)
「私達」を学習しない
お茶入れの評価を越える点数になっている?
--(2/26)(yusuke)
fprintf -> anthy_log に切替え中なので、メッセージ中の
"Anthy: "はもう要らない。不要なinclude <stdio.h>も消す
--(2/25)(yusuke)
「へんこうもと」の候補に「変更も」がでてくる
->昔ばぐったのを学習させたからでした
--(2/17)(yusuke)
付属語グラフによるバイアス(done)と
接頭辞接尾辞のバイアスを復活させる
必要がある。
--(2/16)(yusuke)
seg_infoをmetawordのレイヤに移動した
エラーなどをエラー出力にはくのはまずいので、出力するための機能が必要
src-main/personality.cを消した
--(2/15)(yusuke)
ネームスペースの汚染を避ける必要があるので徐々に改善していく予定
--(2/10)(yusuke)
今ごろallocatorにバグがあったにょ
--(2/7)(yusuke)
src-diclib/dic_personality.h を消す
--(2/5)(yusuke)
「ー」は名詞の付属語!
--(1/30)(yusuke)
*segexpand.hを消す
--(1/26)(yusuke)
commitの際にseg_infoを構成するのをやめないといけない
contextのreset時にseg_info_atorを作りなおす
無変換の候補にseg_infoがない
--(1/25)(yusuke)
*seg_info中の単語の情報を配列にする
*presonalityの除去はできた
--(1/24)(yusuke)
今日からDIARYには名前を書く
*ソースツリーの外でビルドするとbase.tとextra.tがくみこまれない。
*seg_infoに複雑な情報を持たせる -in progress
*personalityの除去 -in progress
*付属語の情報の更新(foosen)
*バージョンを返すAPI -planning
--(1/20)
「しょうがない」の候補に「しょうがい」がでる
--(1/15)
*src-diclib/record.c でfseekに失敗したらというところが
あるがfseekは失敗しない(fixed 1/18)
*候補の交換が作動していないっぽい。ループのところを要チェック(fixed 1/18)
--(1/14)
辞書ライブラリでsdicから同じ品詞を付けた単語を取り出す時に
先に取り出された物には頻度を高くするようにして、
辞書中に先に出現した単語に若干高いスコアを与えるようにした
(いままででもqsortの実装によってその順序になっていた)
cannadic-0.93aへの更新
--(1/12)
cannadic-0.93への対応と辞書ディレクトリの移動
--(1/2)
xemacs対応?
--(1/1)
候補の評価のチューニング
--(12/27)
βフリーズ(これはその後に書かれた)
--(12/21)
mule対応のelispを統合
--(12/18)
ドキュメントの整理
--(12/17)
単語登録はできたが、登録した際にはキャッシュ中の
既存のエントリーをパージする必要がある
--(12/11)
メモリリークはほぼ解決、でも変換一回ごとに1K弱ほど
候補生成でリークしてる
--(12/10)
形容動詞の処理が怪しい
一日中メモリリークとの格闘
辞書ライブラリっぽい
--(12/9)
メモリリークの追跡
pageはリークしてないようだ
--(12/8)
「下さい」がでない
ど -> ° をなんとかする
--(12/1)
個人辞書に活用するエントリが入ってると厄介
--(11/30)
〜子(生成子)
両〜、〜こと、だろう、まで
--(11/29)
ソース中のドキュメント追加
--(11/26)
splitterでグローバル変数を一個消した
--(11/23)
record.cからsaveするときに'"'をescapeし忘れている
数字を全角/半角に変換できるようにした
--(11/18)
XCT_PARTのバグ取り、単漢字の修正
--(11/16)
長音、母音の小さいもの、促音 metaword生成時に含むようにした
濁点、そのたの小さいもの XCT_PARTをつくった
metaword生成を整理した
「あaaaaaaaaaaaaaaaaaaaaaaaaaあ」とか変換すると遅くなる
->get_seq_entが遅いand 呼び過ぎ
ext_entのソースコードを整理した
--(11/13)
「゛」などの処理を記述中
「゛」はその前までで候補生成するのはまずいが「ぁ」はOK
「痛ぁ」など。splitterとsegcompose両方で対応すべし。
--(11/7)
リリースワーク、リリースノートを書いたり
--(11/6)
ドキュメントの追加
--(11/2)
αリリースまでのクリティカルバグは
*ダブルクォートの処理
*候補選択画面
--(10/31)
'(' ')'のanthy-agentの対応がまずいような気がする。
--(10/29)
得(う、え)る「うらない」とかでてきてしまう。
「行きたい」が変換できない(直した)
--(10/26)
カ変動詞の処理をとりあえず実装した。
--(10/24)
elispでモードラインへの表示を追加した。
*カ変の対応と同時に外来語の「ー」の対応をやろう
--(10/23)
config.h
--(10/22)
全角の数字も数字になるようにした
--(10/21)
xchar APIを整理した
--(10/20)
anthy-confを etc に格納するようにした
--(10/18)
printf() -> fprintf(stderr,)
--(10/17)
開きかっこはMS-IMEにならって一つの文節にしようと思う
に"ゃあとのSync待ち
--(10/16)
*takによるMakefile.amの修正
*に"ゃあによるお茶いれパッチ
*kaoru君さんによるelispの修正
*agent.cの修正
など
--(10/14)
開きかっこがmetawordの左にあったら、それを含むmetawordを作るようにした
elispでanthy-minor-modeをbuffer localにした
--(10/13)
〜してる
帰る
--(10/12)
始めてのanthyの使用がanthy-agentの起動だった場合辞書ファイルを作成する
とかいった内容が標準出力にでてくるので対策をとらんといかん。
カーソルの色で状態がわかるようにしたい
「死ぬ」が変換できん?
文末のnをなんとかしたい
/ でバックスペースをおせない
--(10/11)
alignment of sections in dictionaly file.
--(10/10)
anthy.elにminibufferの対応を書いた
--(10/8)
emacs lispのコーディングを継続中です、変な入力にも対応できると思う。
--(10/6)
anthy-agentが使い物になってきた
--(10/5)
elispで[う゛]を変換すると点と分かれてしまうのがまずい
--(10/3)
変換前の候補をanthy_get_segmentで取り出せるようにした
ドキュメントやコミットの部分の整合性をとらんといかん。
emacs lispをすこし書いた
--(10/2)
agentのマージ第1弾、ここからemacs lispを書こう
--(10/1)
文節の伸縮の学習ができたっぽい。
もうすこし細い点を見直すべし
--(9/30)
splitterから文節の情報を取り出す際に自立語の
品詞の名前を取り出せるようにしつつある。
--(9/28)
splitter cacheを必ず作るようにした。
cacheじゃなくなったので名前を変えよう。
--(9/23)
文節を拡大するときに、文節が短かかった時の候補もでるようにしたいけど
文節の拡大が学習されて次回に長い文節が最初に出てきたときに
その候補が出せない。
学習機構は可逆にしよう。
--(9/22)
anthy_quit()を実装するためにメモリ確保をallocatorに移動中
終了時にメモリを解放するためには、allocatorモジュールが
用意するdestructorで一気に解放するのだが。
参照する先の情報が先に解放されてしまってからunref_Xとかやると
まずそう。
*メモリ以外の解放はdtorには書かない
*dtorの引数にメモリのみの解放であることを示す
*参照される側のデータのモジュールで不当な解放をハネる
*データを参照するモジュールのメモリは先に明示的に解放する(9/23)
--(9/19)
最初の分割時に出した隣接する文節が結合されてコミットされたら
それを学習すれば良いような気がした。
--(9/14)
副詞の分類を開始した mkanthydic/av.depword を追加
anthy.elのコーディングを進行中
ひらがな数字は A := (X千)?(X百)?(X十)?X? までにするか
B:= (A億)?(A万)?A? までかだけど、とりあえずAだけやってみよう。
--(9/12)
「書い易い」とか出てきてしまう。
ctab.h に CST_V_RENYOU_{TA,DA} を付けてなかった場所を直した
動詞連用形 -> 動詞連用形{5,D} に制約を強くした
「嗅い易い」ってなんだ?
--(9/11)
〜まくる、〜しまう は Cannadicでは対応されていない。
mkanthydic/extra.t の助詞、助動詞は消した
src-splitter/evalborder.c に境界の検索は移した
「動き易い」などが候補として出てくるようにした
--(9/9)
辞書のインデックスにEUCの2バイト文字とASCII文字を混在する
ようにしよう。辞書ライブラリ側での対応は終了
--(9/8)
「いれる」に「要れる」が出てくるのは変
辞書ファイルのindex中にでてくる文字の巻き戻しの数を
ASCII文字ではなく キャラクタコードの1-31を使うことにした。
か変、さ変が正しく処理できていない。
「する」は直した
候補の評価はどうしよう?
--(9/6)
候補生成を2系統にするのはできた
--(9/5)
ドキュメントを追加した
--(9/4)
metawordの生成数が多すぎるような気がする。
splitterからの情報の取得をword_listからではなく、
metawordからやるようにした。
--(9/3)
metawordでカバーされていない領域を埋める方法を検討中(とりあえず実装)
検索の際には同じところをカバーするmetawordでscoreの低い方は無視
することができるような気がする。(done 9/4)
--(9/2)
#OKX の 「御存知」に「御存知ない」と付くのはどういうパターンで
処理しよう。他の#OKXにはない。
--(9/1)
segcomposeから接続のスコアもsplitterから取ってくるようにした。
そのうちsplitter/metaword.c::make_unkseq_metaword()をもうすこし
賢くしたい。
動詞連用形 + 名詞化接尾語を処理できるようにした
「入れたてのお茶」は入力できる。
#OKXの対応がまだ
*候補交換のループ対策にバグがあるっぽい
*「する」の処理ができてない。
--(8/31)
dic_sessionの数を増やすのはちょっと面倒そうなので
遅延生成で逃げることにした。anthy_set_strでセッションを作り
anthy_{reset or release}_contextでセッションを解放するので
32個までの並列入力には耐えれる。
形容詞化接尾辞 形容動詞化接尾語 名詞化接尾語の対処ができるような気がする
record.cのsectionを解放する部分のコードをミスってたので直した
これで辞書管理ツールが動く
--(8/29)
辞書管理ツールを書きすすめた、SEGVが発生するので
もうすこし、デバッグが必要。
--(8/28)
ディスク破損により2日分の作業が飛んだ。
辞書をBigEndianにそろえた
record.cに にゃあの修正をとりこんだ
--(8/23)
可能動詞の命令形を適当にやってしまっている。
自立語の品詞を見てから付属語を付けるべきで、
その前に付属語を付けてしまってる。
--(8/22)
辞書のエントリをシェアードライブラリから外に出した
mkanthydicで辞書ファイルの各部を作って別のコマンドか
何かでリンクしようと検討中。
辞書ファイルのシェアードライブラリをやめた
--(8/20)
可能動詞は普通の動詞と助動詞の接続が違うっぽい
「書け(「書く」の可能動詞形の未然形)させる」とは言わない
src-diclib/ctab.h wtab.h を作った
--(8/19)
rpmのspecファイルを書いた
自立語部の長い文節はスコアが高いようにしよう
「する」がきちんと出てこない
splitterからの構成の取り出しはとりあえずできた
struct.txtから簡単なものをとりのぞこう
--(8/18)
wordsplitterに接続によるスコアをつけた。
splitterからの情報による候補の生成を実装したが
若干バグがあるっぽいので、直したらstruct.txtの
中から簡単な物は消す。
--(8/17)
agentコマンドを書き進めた
--(8/16)
リークは候補の割り当て以前のところで発生しているようだ。
A*サーチのところでA*のノードを解放し忘れていた。
依然としてリークが発生しているみたいだ。
--(8/15)
メモリアロケータを効率化した
確保されたメモリが300KB弱まで下がった。
メモリリークしているみたいだ、要調査
--(8/14)
に"ゃあのtrieのデバッグを取り込んだ
splitterの作った情報を使って文節の構成を取り出せるように
しつつある。コミット時にもその情報を使えるようにしたいと
思う。
--(8/13)
名詞の細分化が終了した
テスト入力を全部入れた時には400KBほどアロケートしていた
--(8/12)
名詞の分類をcannadicに存在するものではなく、
辞書管理ツールの中に分類が存在するものの方にそろえた。
--(8/10)
郵便番号辞書を使いたいと思った
--(8/9)
辞書制御コマンドを作成中
--(8/8)
emacsからAnthyを使うためにはIIIMPじゃなくて
サブプロセスを起動してそこに対してパイプでコマンドを
送受信する方式を使うことにしようと思う。
(start-process)を見れ
--(8/6)
current task
*trieの修正(done 8/14)
*閉括弧の自立語化
*辞書ファイルの非シェアードライブラリ化(done 8/22)
*連体形のあとに来る文節のmetaword化
*単語登録の品詞の扱い(done 8/31)
*allocatorをshrinkするタイミングの決定
ruleparser中の\include を \\include に変更した
ruleparserの整理(続)
segdef中の構造体にallocatorを使うようにした。
--(8/2)
ruleparser.c を整理した
書きこみを行わない匿名のpersonalityを作ろうと考えてる。
副詞0 から 副詞14を追加した。
それぞれに対して語幹だけという名前を作らんといかん
--(8/1)
名詞のあとに「せる」「させる」のどっちが来るんだろう?
--(7/30)
昨日のエンバグをフィックスした
括弧の閉じは名詞で独立語とすると良いという意見をに"ゃあから
もらった。is_close()を追加。
--(7/29)
*名詞の使ってないタイプ(SCOS_T*の一部)の削除
*wordseqに接続のスコアの導入
--(7/28)
名詞の辞書の強化など
--(7/21)
名詞1 から 名詞39までを作成
--(7/19)
cannadicの名詞の分類に対応を開始。てはじめにT35に対応する
名詞35 SCOS_T35を作成した。
--(7/18)
splitterでグローバル変数に現在処理中のデータを必ずセットするのを
忘れていて落ちるバグを直した。
辞書のインデックス中に'\' '"'を許すようにした。
小文字アルファベットはだめっす。
metawordとword_listをallocatorを使うようにした。
--(7/11)
personalityの名前が '/' を含むとまずいので、その場合は ""を
使うようにした。record(個人データ)のファイル名を